计算机与现代化

• 中文信息处理技术 • 上一篇    下一篇

面向电子商务的网页检索聚类方法

  

  1. 1.中华女子学院计算机系,北京100101;2.北京科技大学计算机与通信学院计算机系,北京100083
  • 收稿日期:2014-02-17 出版日期:2014-05-28 发布日期:2014-05-30
  • 作者简介:穆翠霞(1978-),女,山东滨州人,中华女子学院计算机系讲师,硕士,研究方向:数据挖掘,电子商务; 刘振华(1968-),男,河北隆化人,讲师,硕士,研究方向:软件工程,网络技术。
  • 基金资助:
    北京高等学校青年英才计划项目(YETP1379); 中华女子学院2010年度科研规划课题终期成果(KG10-04005)

Method of Retrieval Results Clustering for EC Web Pages

  1. 1. Department of Computer Science, China Women’s University, Beijing 100101, China;
    2. Department of Computer Science, School of Computer and Communication Engineering,University of Science and Technology Beijing, Beijing 100083, China
  • Received:2014-02-17 Online:2014-05-28 Published:2014-05-30

摘要: 在电子商务网络资讯管理系统中,为了将用户检索结果网页按照不同主题划分显示给用户,帮助用户快速定位所需信息,有效完善用户体验,针对电子商务领域网页文本聚类面临的问题,提出融合自定义领域词典、基于聚类特征词典的特征选择和基于类别领域词表的初始中心点构造等策略的解决方案。实验结果表明,该方案能有效提高电子商务领域的网页文本聚类质量。对于其它特定领域文本聚类研究具有一定的参考价值。

关键词: 文本聚类, k-means, 分词, 特征选择, 网页检索

Abstract: In management information system for EC network resources, in order to display Web pages retrieval results according to different topics to help the users quickly locating the required information and effectively improving user experience, the solution was put forword for related problems. The solution includes user-defined domain dictionary, feature selection based on clustering features dictionary and initial center point construction based on topics domain words. From experimental results, this solution can effectively improve the quality of text clustering for EC Web pages. The text clustering solution can be extended to other specific domains.

Key words: text clustering, k-means, segmentation, feature selection, Web pages retrieval

中图分类号: