计算机与现代化 ›› 2016, Vol. 251 ›› Issue (07): 91-94.doi: 10.3969/j.issn.1006-2475.2016.07.018

• 网络与通信 • 上一篇    下一篇

 时序化LDA的舆情文本动态主题提取

  

  1. 1.江西科技师范大学数学与计算机科学学院,江西南昌330038;
      2.江西师范大学计算机信息工程学院,江西南昌330022
  • 收稿日期:2015-12-31 出版日期:2016-07-21 发布日期:2016-07-22
  • 作者简介:万红新(1970-),女,江西南昌人,江西科技师范大学数学与计算机科学学院副教授,硕士,研究方向:数据挖掘,软件工程; 彭云(1972-),男,江西宜春人,江西师范大学计算机信息工程学院副教授,硕士,研究方向:人智能,数据挖掘; 郑睿颖(1972-),女,江西南昌人,讲师,硕士,研究方向:软件工程。
  • 基金资助:
     江西省社会科学规划项目(14TQ04); 江西省高校人文社会科学研究项目(TQ1505)

 Time Constrained LDA for Topic Extraction of Public Opinion Texts

  1. 1.School of Mathematics & Computer Science, Jiangxi Science & Technology Normal University, Nanchang 330038, China;
    2.School of Computer and Information Engineering, Jiangxi Normal University, Nanchang 330022, China
  • Received:2015-12-31 Online:2016-07-21 Published:2016-07-22

摘要:  随着互联网的发展,网络上产生了大量的舆情文本,提取这些文本的主题可以获取舆情的话题热点和演化趋势。由于舆情文本数据量巨大,并且主题具有随时间动态变化的特点,提出一种加入时间约束先验的LDA主题模型TC-LDA(Time Constrained LDA)。TC-LDA可以将文本数据转化为主题向量,大大降低了文本表示的维度,同时加入时间约束知识后实现了LDA的时序化转换,可以提高LDA捕捉动态主题的能力。实验结果表明,TC-LDA在主题词提取的准确率和召回率上与同类主题模型比较,具有更好的效果。

关键词:  , LDA, 主题模型, 时间约束, 主题词

Abstract:  With the development of Internet, a large number of public opinion texts have been produced, and the hot topics and trends can be found by topics extraction from these texts. Because of the huge amount of the texts, and the dynamic changes of topics, a TC-LDA (Time Constrained LDA) model is proposed. TC-LDA can transform the text data into the topic vector and greatly reduce the dimension of public opinion texts, and implements the LDA’s timing conversion by adding the time constraint, which can improve the ability of LDA to capture the dynamic topic words. Experiments show that the accuracy and recall rate of TC-LDA is better than that of the similar topic model.

Key words:  latent dirichlet allocation, topic model, time constraint, topic words