计算机与现代化

• 算法设计与分析 • 上一篇    下一篇

基于链接关系的网页分类优化算法

  

  1. 北京工业大学计算机学院,北京100124
  • 收稿日期:2014-03-28 出版日期:2014-05-28 发布日期:2014-05-30
  • 作者简介:蒋宗礼(1956-),男 河南南阳人,北京工业大学计算机学院教授,博士生导师,硕士,研究方向:网络信息搜索与处理; 时福林(1988-),男,山东济宁人,硕士研究生,研究方向:网络信息搜索与分类。
  • 基金资助:
    国家级教学团队建设项目(00700054J1901)

Optimizing Web Page Classification Algorithm by Using Hyperlinks

  1. College of Computer, Beijing University of Technology, Beijing 100124, China
  • Received:2014-03-28 Online:2014-05-28 Published:2014-05-30

摘要: 针对基于链接关系的网页分类算法中存在噪声邻域网页干扰分类结果的问题,提出利用网页间的相似度进行优化的方法。为不同关系的满足相似度阈值的邻域网页分别设置不同的权值,同时结合支持向量机对网页的分类结果,计算得到网页的类别。实验表明,本文算法准确率、召回率和F1值均有所提高。

关键词: 网页分类, 邻域网页, 相似度, 支持向量机

Abstract: There is a problem in the Web page classification algorithm by using hyperlinks, the noise neighbors interfere with the results of the classification. To solve the problem an optimization method was presented, which utilizes the similarities between pages. If neighbors meet the thresholds, they are set different weights for different relationships. The results of classification by support vector machine are also used. Experiment shows that it increases in precision, recall and F1 value.

Key words:  Web page classification, neighboring page, similarity, support vector machine

中图分类号: