计算机与现代化

• 算法设计与分析 • 上一篇    下一篇

基于LDA模型的文本聚类检索

  

  1. (东北石油大学计算机与信息技术学院,黑龙江大庆163318)
  • 收稿日期:2017-11-07 出版日期:2018-07-05 发布日期:2018-07-05
  • 作者简介:李霄野(1993-),女,黑龙江大庆人,东北石油大学计算机与信息技术学院硕士研究生,研究方向:数据挖掘,人工智能,数据库与智能信息系统;李春生(1960-),男,黑龙江大庆人,院长,教授,博士生导师,研究方向:人工智能及其应用,模式识别;李龙(1966-),男,黑龙江大庆人,副教授,硕士生导师,博士,研究方向:数据挖掘,人工智能,嵌入式系统;张可佳(1986-),男,博士,研究方向:数据挖掘,人工智能。
  • 基金资助:
    黑龙江省教育规划重大课题(GJ20170006)

TextClusteringRetrievalBasedonLDAModel

  1. (SchoolofComputerandInformationTechnology,NortheastPetroleumUniversity,Daqing163318,China)
  • Received:2017-11-07 Online:2018-07-05 Published:2018-07-05

摘要: 传统的判断2个文档相似性的方法没有考虑到文本背后的语义关联,导致检索系统返回的结果与用户的查询需求之间存在很大的差异。本文提出一种基于LDA主题模型的文本聚类方法,首先介绍LDA主题模型的应用原理,阐述文本挖掘的基本方法,之后构建LDA主题模型,采用Gibbs抽样的方法进行推导,得到特征词的概率分布,最后用优化聚类中心选择的K-means+〖KG-*3〗+方法对测试数据集合聚类,并把设计的LDA-Gibbs模型与传统的TF-IDF模型进行聚类评价对比。实验结果表明,该模型能够提高数据的检索效果,具有良好的推广价值。

关键词: 主题模型, 文本聚类, 潜在狄利克雷分配模型, 聚类评价, 信息检索

Abstract: Thetraditionalmethodofjudgingthesimilarityoftwodocumentsdoesnottakeintoaccountthesemanticrelationbehindthetexts,resultinginalargedifferencebetweentheresultsreturnedbytheretrievalsystemandtheusersqueryrequirements.ThispaperpresentsatextclusteringmethodbasedonLDAtopicmodel.Firstly,theapplicationprincipleofLDAtopicmodelisintroducedandthebasicmethodoftextminingisexpounded,andthentheLDAtopicmodelisconstructed.TheGibbssamplingmethodisusedtoderivetheprobabilitydistributionofthecharacteristicwords.Finally,thesetsoftestdataareclusteredwiththeK-means+〖KG-*3〗+methodchosenbytheoptimizationclustercenter.AndthedesignedLDA-GibbsmodeliscomparedwiththetraditionalTF-IDFmodel.Experimentalresultsshowthatthismodelcanimprovetheretrievaleffectofdataandhasgoodpromotionalvalue.

Key words: topicmodel, textclustering, latentDirichletallocation(LDA), clusterevaluation, informationretrieval(IR)

中图分类号: