计算机与现代化

• 网络与通信 • 上一篇    下一篇

 一种基于语义的中文文本相似度算法

  

  1. 1.湘潭大学信息工程学院,湖南湘潭411105;2.智能计算与信息处理教育部重点实验室,湖南湘潭411105
  • 收稿日期:2015-01-30 出版日期:2015-04-27 发布日期:2015-04-29
  • 作者简介: 夏志明(1990-),男,湖南益阳人,湘潭大学信息工程学院、智能计算与信息处理教育部重点实验室硕士研究生,研究方向:计算机网络与信息安全; 刘新(1975-),男,副教授, 研究方向:多值逻辑,计算机算法,信息安全。
  • 基金资助:
     湖南省自然科学基金资助项目(12JJ3066); 湖南省高校科技成果产业化培育项目(11CY018); 湖南省“十二五”重点学科项目

A Similarity Algorithm for Chinese Text Based on Semantics

  1. 1. College of Information Engineering, Xiangtan University, Xiangtan 411105, China;

     2. Key Laboratory of Intelligent Computing and Information Processing(Xiangtan University), 
     Ministry of Education, Xiangtan 411105, China
  • Received:2015-01-30 Online:2015-04-27 Published:2015-04-29

摘要:

 利用《知网》计算词语的语义相似度,通过提取关键词进行文本相似度计算。将文本分词并过滤停用词后,结合词语的词性、词频和段频计算词语的权值,以便提取文本的关键词,通过计
算关键词之间的相似度来计算文本之间的相似度值。实验结果与对比值进行差异显著性分析表明,本文提出的方法相比传统的语义算法和向量空间模型算法,其精确性有了进一步的提高。

关键词:  , 文本相似度, 语义, 《知网》, 关键词, 段频

Abstract:

This paper computes the semantic similarity of words using the HowNet and extracting the text keywords to compute the similarity of the texts. After segmenting
the text and filtering stop words, it calculates the weights of word to extract the key words of the text by combining the gender, word frequency and paragraph frequency of the
word. By calculating the similarity of the keywords, the similarity value of the texts is calculated. The analysis of the significant difference of the experimental results
shows that its accuracy is further improved compared with the traditional semantic algorithm and vector space model algorithm.

Key words: text similarity, semantic, HowNet, keywords, paragraph frequency