面向电子商务的网页检索聚类方法

doi:10.3969/j.issn.1006-2475.2014.05.016

计算机与现代化 ›› 2014, Vol. 0 ›› Issue (5): 70-73.doi: 10.3969/j.issn.1006-2475.2014.05.016

面向电子商务的网页检索聚类方法

1.中华女子学院计算机系，北京100101;2.北京科技大学计算机与通信学院计算机系，北京100083

收稿日期:2014-02-17 出版日期:2014-05-28 发布日期:2014-05-30
作者简介:穆翠霞(1978-),女,山东滨州人,中华女子学院计算机系讲师,硕士,研究方向:数据挖掘,电子商务; 刘振华(1968-),男,河北隆化人,讲师,硕士,研究方向:软件工程,网络技术。
基金资助:
北京高等学校青年英才计划项目(YETP1379)；中华女子学院2010年度科研规划课题终期成果(KG10-04005)

Method of Retrieval Results Clustering for EC Web Pages

1. Department of Computer Science, China Women’s University, Beijing 100101, China；
2. Department of Computer Science, School of Computer and Communication Engineering，University of Science and Technology Beijing, Beijing 100083, China

Received:2014-02-17 Online:2014-05-28 Published:2014-05-30

摘要/Abstract

摘要： 在电子商务网络资讯管理系统中，为了将用户检索结果网页按照不同主题划分显示给用户，帮助用户快速定位所需信息，有效完善用户体验，针对电子商务领域网页文本聚类面临的问题，提出融合自定义领域词典、基于聚类特征词典的特征选择和基于类别领域词表的初始中心点构造等策略的解决方案。实验结果表明，该方案能有效提高电子商务领域的网页文本聚类质量。对于其它特定领域文本聚类研究具有一定的参考价值。


关键词: 文本聚类, k-means, 分词, 特征选择, 网页检索

Abstract: In management information system for EC network resources, in order to display Web pages retrieval results according to different topics to help the users quickly locating the required information and effectively improving user experience, the solution was put forword for related problems. The solution includes user-defined domain dictionary, feature selection based on clustering features dictionary and initial center point construction based on topics domain words. From experimental results, this solution can effectively improve the quality of text clustering for EC Web pages. The text clustering solution can be extended to other specific domains.


Key words: text clustering, k-means, segmentation, feature selection, Web pages retrieval

中图分类号:

TP391

穆翠霞1,2,刘振华1,武涛1. 面向电子商务的网页检索聚类方法[J]. 计算机与现代化, 2014, 0(5): 70-73.

MU Cui-xia1,2, LIU Zhen-hua1, WU Tao1. Method of Retrieval Results Clustering for EC Web Pages[J]. Computer and Modernization, 2014, 0(5): 70-73.

参考文献

［1］［美］Bin Liu. Web数据挖掘［M］. 俞勇,薛贵荣,韩定一译. 北京:清华大学出版社, 2009:123-169.
［2］程显毅,朱倩. 文本挖掘原理［M］. 北京:科学出版社， 2010:39-46.
［3］牛琨. 聚类分析中若干关键技术及其在电信领域的应用研究［D］. 北京:北京邮电大学, 2007.
［4］李枫林,何洲芳. 基于关键词共现分析的检索结果聚类研究［J］. 情报学报, 2011,30(8):819-825.
［5］王秀艳,崔雷. 基于文本主题相似性的专题文献检索结果的聚类分析［J］. 情报学报, 2011,30(5):456-463.
［6］吴江宁,王桂才. 文本聚类分析结果可视化方法研究［J］. 情报学报, 2011,30(2):115-120.
［7］崔春生,吴祈宗,王莹. 用于推荐系统聚类分析的用户兴趣度研究［J］. 计算机工程与应用, 2011,47(7):226-228.
［8］李晓艳,张子刚,张逸石. 集成k-means聚类和有监督特征选择的混合式协同过滤推荐［J］. 管理学报, 2013,10(9):1362-1367.
［9］周之诚. 用户意图聚类的数字资源推荐方法［J］. 情报理论与实践, 2011,34(6):116-119.
［10］陈学昌,韩佳珍,魏桂英. 话题识别与跟踪技术发展研究［J］. 中国管理信息化, 2011,14(9):56-59.
［11］刘华. 基于文本分类中特征提取的领域词语聚类［J］. 语言文字应用, 2007(1):139-144.
［12］黄承慧,印鉴,侯昉. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法［J］. 计算机学报, 2011,34(5):856-864.
［13］周世兵,徐振源,唐旭清. K-means算法最佳聚类数确定方法［J］. 计算机应用, 2010,30(8):1995-1998.
［14］周爱武,于亚飞. K-means聚类算法的研究［J］. 计算机技术与发展, 2011,21(2):62-65.
［15］余敦辉,何克清,李兵. 基于模型聚类算法的领域问题本体构建［J］. 小型微型计算机系统, 2013,34(1):29-33.
［16］曹佳韵. 基于文本挖掘的领域信息聚类分析［D］. 上海:上海交通大学， 2013.

[1]	王涛1, 2, 黄丹1, 2, 刘禅奕1, 2, 朱桃1, 2. 基于YOLOv5s的无人机图像车辆检测[J]. 计算机与现代化, 2024, 0(08): 108-113.
[2]	秦阳, 詹勇, 明路遥, 杨舒淇, 蓝振祎. 基于改进K-means算法的通勤交通小区识别[J]. 计算机与现代化, 2024, 0(07): 63-68.
[3]	苏凯旋. 基于改进XGBoost模型的网络入侵检测研究[J]. 计算机与现代化, 2024, 0(06): 109-114.
[4]	罗澍寰, 孙武, 游杰, 王伟, 胡必伟, 姜南. 基于可见-近红外光谱法无损检测梨总酸含量[J]. 计算机与现代化, 2024, 0(05): 80-84.
[5]	孟雅蕾1, 师红宇1, 王予2. 一种无阻流量预测方法[J]. 计算机与现代化, 2024, 0(04): 33-37.
[6]	韩雪. 基于约束聚类和粒子群算法的多路径规划[J]. 计算机与现代化, 2023, 0(08): 7-11.
[7]	王艺成, 张国良, 张自杰, . 基于改进YOLOv5的小目标检测方法[J]. 计算机与现代化, 2023, 0(05): 100-105.
[8]	王扬, 陈梅, 李晖. FOCoR:一种基于特征选择优化的课程推荐技术[J]. 计算机与现代化, 2022, 0(10): 1-7.
[9]	彭露露, 朱媛媛, 金文倩, 王笑梅. 基于改进YOLOv4的汽车钢铁零件表面缺陷检测[J]. 计算机与现代化, 2022, 0(09): 32-39.
[10]	周慧, 徐名海, 许晓东. 基于Attention-BIGRU-CRF的中文分词模型[J]. 计算机与现代化, 2022, 0(08): 7-12.
[11]	赵迎利, 朱旭. 基于组稀疏联合学习的影像遗传学数据关联分析[J]. 计算机与现代化, 2022, 0(08): 43-49.
[12]	申智, 徐丽, 符祥远. 基于改进YOLO v4光线模糊场景下交通标志检测[J]. 计算机与现代化, 2022, 0(07): 27-32.
[13]	莫云. 基于混合特征选择的脑电解码方法[J]. 计算机与现代化, 2022, 0(04): 92-96.
[14]	刘锟, 曾曦, 邱梓珩, 陈周国, . 基于RoBERTa-WWM 和HDBSCAN的文本聚类算法[J]. 计算机与现代化, 2022, 0(03): 48-52.
[15]	赵延平, 王芳, 夏杨. 基于支持向量机的短文本分类方法[J]. 计算机与现代化, 2022, 0(02): 92-96.

面向电子商务的网页检索聚类方法

Method of Retrieval Results Clustering for EC Web Pages

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价