基于知网与搜索引擎的词汇语义相似度计算

doi:10.3969/j.issn.10062475.2018.04.017

摘要/Abstract

摘要： 提出一种基于知网与搜索引擎的词汇语义相似度计算方法。利用义原在层次体系树的深度、密度、信息量优化义原的相似性计算。将逐点共有信息（PMI）算法与归一化谷歌距离（NGD）算法结合优化基于搜索引擎的词汇语义相似度计算。将词汇的词性作为权重因子融合知网与搜索引擎的词汇相似度计算结果。实验结果表明，与基于知网和基于搜索引擎的语义相似度计算方法相比，所提出的方法在NLPCC测试集上的平均相似度更接近于测试集的评测标准，在汽车票务领域的词汇相似度计算中具有较好的应用效果。

关键词: , 语义相似度, 知网, 义原, 搜索引擎

Abstract: This paper proposes a method of computing lexical semantic similarity based on HowNet and search engines. The similarity computation is optimized by using the depth, density and information of semantic primitive in the hierarchy tree. The search engine based lexical semantic similarity computation is optimized by combining the point by point common information (PMI) algorithm with the normalized Google distance (NGD) algorithm. The lexical part of speech is used as weighting factor to merge the word similarity computation between HowNet and search engine. The experimental results show that, compared with the semantic similarity calculation method based on HowNet and search engine, the average similarity of the proposed method on NLPCC test set is closer to the evaluation criteria of the test set, and lexical similarity in the car ticket calculation fields has a good application effect.

Key words: semantic similarity, HowNet, sememe, search engines

中图分类号:

TP391

吴克介,王家伟. 基于知网与搜索引擎的词汇语义相似度计算[J]. 计算机与现代化, doi: 10.3969/j.issn.10062475.2018.04.017.

WU Kejie, WANG Jiawei. Vocabulary Semantic Similarity Computation Based on HowNet and Search Engine[J]. Computer and Modernization, doi: 10.3969/j.issn.10062475.2018.04.017.

参考文献

［1］ Dong Zhendong, Dong Qiang. HowNet： A hybrid language and knowledge resource［C］// Proceedings of the 2003 International Conference on Natural Language Processing and Knowledge Engineering. 2003:820824.
［2］董振东,董强,郝长伶. 知网的理论发现［J］. 中文信息学报, 2007,21(4):39.
［3］范弘屹,张仰森. 一种基于HowNet的词语语义相似度计算方法［J］. 北京信息科技大学学报(自然科学版), 2014,29(4):4245.
［4］江敏,肖诗斌,王弘蔚,等. 一种改进的基于《知网》的词语语义相似度计算［J］. 中文信息学报, 2008,22(5):8489.
［5］林丽,薛方,任仲晟. 一种改进的基于《知网》的词语相似度计算方法［J］. 计算机应用, 2009,29(1):217220.
［6］张亮,尹存燕,陈家骏. 基于语义树的中文词语相似度计算与分析［J］. 中文信息学报, 2010,24(6):2330.
［7］刘群,李素建. 基于《知网》的词汇语义相似度计算［C］// 第三届汉语词汇语义学研讨会论文集. 2002:5967.
［8］李峰,李芳. 中文词语语义相似度计算—基于《知网》2000［J］. 中文信息学报, 2007,21(3):99105.
［9］魏韡,向阳. 基于2008版《知网》的词语相似度计算方法［J］. 计算机工程, 2015,41(9):215219.
［10］高国强,黄吕威,陈丰钰. 使用网络搜索引擎计算汉语词汇的语义相似度［J］. 计算机技术与发展, 2014，24(7):8487.
［11］陈海燕. 基于搜索引擎的词汇语义相似度计算方法［J］. 计算机科学, 2015,42(1):261267.
［12］张硕望,欧阳纯萍,阳小华,等. 融合《知网》和搜索引擎的词汇语义相似度计算［J］. 计算机应用， 2017,37(4):10561060.
［13］Bollegala D, Matsuo Y, Ishizuka M. A Web search enginebased approach to measure semantic similarity between words［J］. IEEE Transactions on Knowledge and Data Engineering, 2011,23(7):977990.
［14］葛斌,李芳芳,郭丝路,等. 基于知网的词汇语义相似度计算方法研究［J］. 计算机应用研究, 2010,27(9):33293333.
［15］蒋溢,丁优,熊安萍,等. 一种基于知网的词汇语义相似度改进计算方法［J］. 重庆邮电大学学报(自然科学版), 2009,21(4):533537.
［16］Lin Dekang. An informationtheoretic definition of similarity［C］// Proceedings of the 15th International Conference on Machine Learning. 1988:296304.
［17］Cilibrasi R L, Vitanyi P M B. The Google similarity distance［J］. IEEE Transactions on Knowledge and Data Engineering, 2007,19(3):370383.

[1]	王鸿, 葛红. 基于注意力机制和语义相似度的跨模态哈希检索[J]. 计算机与现代化, 2023, 0(08): 44-53.
[2]	李静元, 张珂, 杨东裕. 基于雾计算的工业互联网安全数据访问方法[J]. 计算机与现代化, 2022, 0(12): 118-122.
[3]	邱金水, 庄会富, 金涛. 面向海量植物图像的智能检索系统设计[J]. 计算机与现代化, 2022, 0(10): 62-67.
[4]	许贤慧, 王淑营, 曾文驱. 面向工程数据检索的ElasticSearch索引优化策略[J]. 计算机与现代化, 2022, 0(02): 79-84.
[5]	陈春燕, 刘梦赤. 基于粒子群遗传算法的智能组卷策略[J]. 计算机与现代化, 2021, 0(08): 16-23.
[6]	耿化聪, 梁宏涛, 刘国柱. 基于知识图谱与协同过滤的饮食推荐算法[J]. 计算机与现代化, 2021, 0(08): 24-29.
[7]	宋鑫, 樊志强, . 基于Laguerre 前向神经网络的信息服务性能建模方法 [J]. 计算机与现代化, 2021, 0(03): 1-6.
[8]	魏健, 赵红涛, 刘敦楠, 加鹤萍 . 基于集成模型的超短时负荷预测方法[J]. 计算机与现代化, 2021, 0(03): 12-17.
[9]	杨泉. 基于Logistic函数的《同义词词林》语义相似度计算[J]. 计算机与现代化, 2021, 0(01): 111-119.
[10]	段桂芹1，邹臣嵩2，刘锋2. 基于优化初始聚类中心的K中心点算法[J]. 计算机与现代化, 2019, 0(04): 1-.
[11]	李富星，蒙祖强 . 一种改进的类别区分词特征选择算法[J]. 计算机与现代化, 2019, 0(03): 73-.
[12]	白晓波1，邵景峰1，和征1，田建刚2. 基于学习的核偏最小二乘法优化扩展卡尔曼滤波[J]. 计算机与现代化, 2018, 0(09): 110-.
[13]	郑亚鹏，樊璐. 基于LSTM的临床血液需求预测方法[J]. 计算机与现代化, 2018, 0(05): 41-.
[14]	刘德春1，张秀国2，姜微2. 基于马尔科夫链的大学生自主学习能力预测方法[J]. 计算机与现代化, 2018, 0(05): 106-.
[15]	夏琨1，丁波1，刘俊1，刘子豪1，林亮成2. 基于内容分析的网络协议指纹识别[J]. 计算机与现代化, 2018, 0(05): 121-.