计算机与现代化

• 算法设计与分析 • 上一篇    下一篇

增量式聚类的新闻热点话题发现研究

  

  1. 1.广西民族大学信息科学与工程学院,广西南宁530006;
    2.广西民族大学东盟研究中心(广西科学实验中心),广西南宁530006
  • 收稿日期:2016-07-13 出版日期:2017-03-29 发布日期:2017-03-30
  • 作者简介:王丽颖(1991-),女,吉林松原人,广西民族大学信息科学与工程学院、广西民族大学东盟研究中心(广西科学实验中心)硕士研究生,研究方向:信息安全,数据挖掘; 葛丽娜(1969-) ,女,广西南宁人,教授,博士,研究方向:网络安全; 张翼鹏(1991-),男,硕士研究生,研究方向:数据挖掘; 王红(1990-),女,硕士研究生,研究方向:信息安全。
  • 基金资助:
    国家自然科学基金资助项目(61462009); 广西高等学校优秀中青年骨干教师培养工程项目(GXQG012013014); 广西民族大学中国-东盟研究中心(广西科学实验中心)2014年度开放课题项目
    (TD201404)

Research on Hot News Topic Detection of Incremental Clustering

  1. 1. College of Information Science and Engineering, Guangxi University for Nationalities, Nanning 530006, China;
    2. ChinaASEAN Study Center(Guangxi Science Experiment Center) of Guangxi University
    for Nationalities, Nanning 530006, China
  • Received:2016-07-13 Online:2017-03-29 Published:2017-03-30

摘要:

为实现新闻热点话题的排行和发现,对新闻文本进行聚类,通过对报道频率的研究,利用热度公式计算得到新闻热点话题TOP排行榜。针对增量式聚类方法SinglePass算法相似度公式计算代价大
和特征值选择不够准确的不足提出改进方案,利用抓取的新闻语料库数据对改进算法进行实验验证与分析,实验数据与SinglePass算法聚类结果进行对比,得到了更理想的新闻热点聚类效果,表明了
算法的可行有效性。

关键词: 新闻热点话题, 文本聚类, SinglePass算法, 热度公式

Abstract:

News text clustering is applied to achieve ranking and finding hot news topics. To obtain hot topic news ranking by the formula of heat, the reporting rate is studied.
To overcome the shortcomings of huge cost of calculation and inaccuracy of selecting eigenvalues when SinglePass is used to cluster, its proposed enhanced methods to solve
the problems. The improved algorithm is verified and analyzed through the experiment using fetched news corpus. The result of experiments is compared to the SinglePass, and a
more desirable hot news clustering effect is presented, the feasibility of modified algorithm is demonstrated.

Key words: hot news topic, text clustering, SinglePass algorithm, formula of heat

中图分类号: