基于LDA模型的文本聚类检索

doi:10.3969/j.issn.1006-2475.2018.06.002

计算机与现代化 ›› 2018, Vol. 0 ›› Issue (06): 7-.doi: 10.3969/j.issn.1006-2475.2018.06.002

基于LDA模型的文本聚类检索

（东北石油大学计算机与信息技术学院，黑龙江大庆163318）

收稿日期:2017-11-07 出版日期:2018-07-05 发布日期:2018-07-05
作者简介:李霄野（1993-），女，黑龙江大庆人，东北石油大学计算机与信息技术学院硕士研究生，研究方向：数据挖掘，人工智能，数据库与智能信息系统；李春生（1960-），男，黑龙江大庆人，院长，教授，博士生导师，研究方向：人工智能及其应用，模式识别；李龙（1966-），男，黑龙江大庆人，副教授，硕士生导师，博士，研究方向：数据挖掘，人工智能，嵌入式系统；张可佳（1986-），男，博士，研究方向：数据挖掘，人工智能。
基金资助:
黑龙江省教育规划重大课题(GJ20170006)

TextClusteringRetrievalBasedonLDAModel

(SchoolofComputerandInformationTechnology,NortheastPetroleumUniversity,Daqing163318,China)

Received:2017-11-07 Online:2018-07-05 Published:2018-07-05

摘要/Abstract

摘要： 传统的判断2个文档相似性的方法没有考虑到文本背后的语义关联，导致检索系统返回的结果与用户的查询需求之间存在很大的差异。本文提出一种基于LDA主题模型的文本聚类方法，首先介绍LDA主题模型的应用原理，阐述文本挖掘的基本方法，之后构建LDA主题模型，采用Gibbs抽样的方法进行推导，得到特征词的概率分布，最后用优化聚类中心选择的K-means+〖KG-*3〗+方法对测试数据集合聚类，并把设计的LDA-Gibbs模型与传统的TF-IDF模型进行聚类评价对比。实验结果表明，该模型能够提高数据的检索效果，具有良好的推广价值。

关键词: 主题模型, 文本聚类, 潜在狄利克雷分配模型, 聚类评价, 信息检索

Abstract: Thetraditionalmethodofjudgingthesimilarityoftwodocumentsdoesnottakeintoaccountthesemanticrelationbehindthetexts,resultinginalargedifferencebetweentheresultsreturnedbytheretrievalsystemandtheusersqueryrequirements.ThispaperpresentsatextclusteringmethodbasedonLDAtopicmodel.Firstly,theapplicationprincipleofLDAtopicmodelisintroducedandthebasicmethodoftextminingisexpounded,andthentheLDAtopicmodelisconstructed.TheGibbssamplingmethodisusedtoderivetheprobabilitydistributionofthecharacteristicwords.Finally,thesetsoftestdataareclusteredwiththeK-means+〖KG-*3〗+methodchosenbytheoptimizationclustercenter.AndthedesignedLDA-GibbsmodeliscomparedwiththetraditionalTF-IDFmodel.Experimentalresultsshowthatthismodelcanimprovetheretrievaleffectofdataandhasgoodpromotionalvalue.

Key words: topicmodel, textclustering, latentDirichletallocation(LDA), clusterevaluation, informationretrieval(IR)

中图分类号:

TP391.1

李霄野，李春生，李龙,张可佳. 基于LDA模型的文本聚类检索[J]. 计算机与现代化, 2018, 0(06): 7-.

LIXiao-ye,LIChun-sheng,LILong,ZHANGKe-jia. TextClusteringRetrievalBasedonLDAModel[J]. Computer and Modernization, 2018, 0(06): 7-.

参考文献

［1］王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究［J］.情报科学,2015,33(1):63-68.
［2］杨平,王丹,赵文兵.微博网站中面向主题的权威信息搜索技术研究［J］.计算机科学与探索,2013，7（12）：1135-1145.
［3］董婧灵.基于LDA模型的文本聚类研究［D］.武汉：华中师范大学,2012.
［4］唐晓波,房小可.基于文本聚类与LDA相融合的微博主题检索模型研究［J］.情报理论与实践,2013,36(8):85-90.
［5］CaoBuqing,LiuXiaoqing,LiuJianxun,etal.Domain-awareMashupserviceclusteringbasedonLDAtopicmodelfrommultipledatasources［J］.InformationandSoftwareTechnology,2017,90:40-54.
［6］李湘东,张娇,袁满.基于LDA模型的科技期刊主题演化研究［J］.情报杂志,2014,33(7):115-121.
［7］HajjemM,LatiriC.CombiningIRandLDAtopicmodelingforfilteringmicroblogs［J］.ProcediaComputerScience,2017,112:761-770.
［8］焦潞林,彭岩,林云.面向网络舆情的文本知识发现算法对比研究［J］.山东大学学报(理学版),2014,49(9):62-68.
［9］马军红.文本聚类算法初探［J］.电子世界,2012(6):71-72.
［10］江浩,陈兴蜀,杜敏.基于主题聚簇评价的论坛热点话题挖掘［J］.计算机应用,2013,33(11):3071-3075.
［11］ClyneB,CooperJA,HughesCM,etal.Aprocessevaluationofaclusterrandomisedtrialtoreducepotentiallyinappropriateprescribinginolderpeopleinprimarycare(OPTI-SCRIPTstudy)［J］.Trials,2016,17,doi:10.1186/s13063-016-1513-z.
［12］王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算［J］.计算机科学,2013,40(12):229-232.
［13］孟雪井,孟祥兰,胡杨洋.基于文本挖掘和百度指数的投资者情绪指数研究［J］.宏观经济研究,2016(1):144-153.
［14］ZhangYi,ZhangGuangquan,ChenHongshu,etal.Topicanalysisandforecastingforscience,technologyandinnovation:Methodologywithacasestudyfocusingonbigdataresearch［J］.TechnologicalForecastingandSocialChange,2016,105:179-191.
［15］ReddyASS,BrikMG,KumarJS,etal.Structuralandelectricalpropertiesofzinctantalumborateglassceramic［J］.CeramicsInternational,2016,42(15):17269-17282.
［16］王军.热门微博话题事件主题聚类分析［D］.合肥：安徽大学,2016.
［17］陈晓美.网络评论观点知识发现研究［D］.长春：吉林大学,2014.

[1]	刘锟, 曾曦, 邱梓珩, 陈周国, . 基于RoBERTa-WWM 和HDBSCAN的文本聚类算法[J]. 计算机与现代化, 2022, 0(03): 48-52.
[2]	文勇军, 何环晶, 唐立军, . 基于LDA的隐式标签协同过滤推荐算法[J]. 计算机与现代化, 2022, 0(03): 53-58.
[3]	王镇宇, 郑扬飞. 基于排序学习算法的智能检索系统[J]. 计算机与现代化, 2021, 0(10): 35-40.
[4]	盖璇. 基于聚类分析算法的垃圾邮件识别[J]. 计算机与现代化, 2020, 0(10): 17-22.
[5]	张浩1,2，钟敏1，2. 基于Sentence-LDA主题模型的短文本分类[J]. 计算机与现代化, 2019, 0(03): 102-.
[6]	邹臣嵩1,刘松2. 基于谱聚类的全局中心快速更新聚类算法[J]. 计算机与现代化, 2018, 0(10): 6-.
[7]	尹积栋1，刘红1，彭崧1，张慧2. 一种信息检索系统的设计与实现[J]. 计算机与现代化, 2017, 0(5): 123-126.
[8]	王丽颖1,2，葛丽娜1,2，张翼鹏1,2，王红1,2. 增量式聚类的新闻热点话题发现研究[J]. 计算机与现代化, 2017, 0(3): 46-.
[9]	张建恒，黄蔚，胡国超. 基于LDA模型和AP聚类的主题事件抽取技术[J]. 计算机与现代化, 2017, 0(12): 77-81+87.
[10]	宋文灏1，钟浩2，于海波1. 一种有效的API搜索算法[J]. 计算机与现代化, 2016, 0(4): 59-64.
[11]	柳萌宇1，钟浩2，于海波1. 基于变更相似性的跨语言克隆检测方法[J]. 计算机与现代化, 2016, 0(4): 79-84+99.
[12]	佘维军，刘子平，杨卫芳. 基于改进LDA主题模型的产品特征抽取[J]. 计算机与现代化, 2016, 0(11): 1-6,57.
[13]	万红新1，彭云2，郑睿颖1. 时序化LDA的舆情文本动态主题提取[J]. 计算机与现代化, 2016, 251(07): 91-94.
[14]	姜凯，苑金海. 融合差分进化和SOM的组合文本聚类算法[J]. 计算机与现代化, 2015, 0(5): 13-16+20.
[15]	吕飞. 一种高效的源代码搜索算法[J]. 计算机与现代化, 2015, 0(3): 9-14.

基于LDA模型的文本聚类检索

TextClusteringRetrievalBasedonLDAModel

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价