计算机与现代化

• 网络与通信 • 上一篇    下一篇

基于Levenshtein和TFRSF的文本相似度计算方法

  

  1.  (1.东北师范大学信息科学与技术学院,吉林长春130117; 2.智能信息处理吉林省高校重点实验室,吉林长春130117)
  • 出版日期:2018-04-28 发布日期:2018-05-02
  • 作者简介:藏润强(1990),男,黑龙江佳木斯人,东北师范大学信息科学与技术学院硕士研究生,研究方向:数据挖掘,大数据分析; 通信作者:孙红光(1970),女,吉林长春人,东北师范大学信息科学与技术学院、智能信息处理吉林省高校重点实验室副教授,硕士生导师,博士,研究方向:智能信息处理,文本信息挖据; 杨凤芹(1978),女,副教授,硕士生导师,博士,研究方向:机器学习,数据挖据; 冯国忠(1983),男,讲师,博士,研究方向:大数据检索与推荐; 尹良亮,男,硕士研究生。
  • 基金资助:
    国家自然科学基金青年科学基金资助项目(11501095); 吉林省科技创新人才培育计划项目(20170520051JH); 吉林省科技发展计划项目(20170204002GX); 吉林省发改委引导项目(2015Y056)

Text Similarity Calculation Method Based on Levenshtein and TFRSF

  1. (1. School of Information Science and Technology, Northeast Normal University, Changchun 130117, China;
    2.Key Laboratory of Intelligent Information Processing in Jilin Universities, Changchun 130117, China)
  • Online:2018-04-28 Published:2018-05-02

摘要: 在社交网络中查找和收集个人信息可以建立一个包含目标履历、生活、爱好以及朋友等属性的信息体系,但是不同社交网络中存在大量同名用户。为了解决同名歧义问题,采用计算用户信息相似度,可以判断2个用户是否属于同一个人。由于文档中描述信息位置颠倒会导致计算机误判,为此,本文通过对莱文斯坦(Levenshtein)和词频相关字符串频率(TFRSF)方法融合计算词频和编辑距离,判断属性值是否相同。实验结果表明,本文提出的计算文本相似度方法在多种评价指标上准确性都有所提高,准确率(Precision)、召回率(Recall)、F1值(F1 Measure)均大于87%。

关键词: 个人信息, 社交网络, 莱文斯坦, 词频相关字符串频率, 相似度

Abstract:  Finding and collecting personal information in social networks can establish the information system with the curriculum vitae, life, hobbies, friends and the other attributes. But there are lots of same name users in different social networks. In order to solve the ambiguity of the same name, we calculate the user information similarity to decide whether they belong to the same person. If the information describing the document position is reversed, it will lead to computer misjudgment. In order to solve this problem, the Levenshtein and TFRSF methods are used to calculate the word frequency and edit distance to judge whether the attribute values are the same. The experimental results show that the proposed method of calculating the similarity of texts improves the accuracy of various evaluation indexes. The precision, recall and F1 of this method are more than 87%.

Key words: personal information, social network, Levenshtein, TFRSF, similarity

中图分类号: