摘要: 主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。
中图分类号:
魏晶晶;杨定达;廖祥文. 基于网页内容相似度改进算法的主题网络爬虫[J]. 计算机与现代化, 2011, 193(9): 1-4.
WEI Jing-jing;YANG Ding-da;LIAO Xiang-wen. Focused Crawler Based on Improved Algorithm of Web Content Similarity[J]. Computer and Modernization, 2011, 193(9): 1-4.