基于超链接和DOM结构树的网页标题实时抽取方法

doi:10.3969/j.issn.1006-2475.2015.08.017

计算机与现代化 ›› 2015, Vol. 0 ›› Issue (8): 84-88.doi: 10.3969/j.issn.1006-2475.2015.08.017

基于超链接和DOM结构树的网页标题实时抽取方法

1．安徽大学计算机科学与技术学院,安徽合肥230601；
2.安徽省工业图像处理与分析重点实验室,安徽合肥230039

收稿日期:2015-03-16 出版日期:2015-08-08 发布日期:2015-08-19
作者简介:张兵(1989-),男,安徽灵璧人,安徽大学计算机科学与技术学院硕士研究生,研究方向:网络信息处理与模式识别; 汤进(1976-),男,教授,博士生导师,博士,研究方向:模式识别; 罗斌(1963-),男,教授,博士生导师,博士,研究方向:模式识别。
基金资助:
国家高技术研究发展计划(863)项目(2014AA015104); 国家自然科学基金资助项目(61472002); 国家科技支撑计划项目（2012BAH95F00）; 安徽省电力公司科技项目(521200130M0U, 5212M01353B4); 安徽省科技计划项目科技攻关计划(科技强警)(1301b042002)

Web Page Title Real-time Extraction Method Based on Hyperlink and DOM Tree

1. School of Computer Science and Technology， Anhui University， Hefei 230601， China；
2. Key Lab of Industrial Image Processing & Analysis of Anhui Province， Hefei 230039， China

Received:2015-03-16 Online:2015-08-08 Published:2015-08-19

摘要/Abstract

摘要： 网页标题的正确抽取，在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析，接着采用基于超链接遍历的方法，并利用标题与发布时间的对应关系，最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题，则获取主题型网页的HTML源码并构建网页DOM树。在此基础上，结合网页标题的视觉特点，深度优先遍历DOM树，正确提取网页正文标题。实验结果表明，本文提出的Web网页标题实时抽取方法，具有实现简单，准确率高等优点。


关键词: 超链接, 网页标题, 发布时间, 实时, 信息抽取

Abstract: Correct extraction of Web title is significant to Web text information mining. This paper proposed a method which can get a real-time Web page title extraction. This method first used a real-time analysis model though the catalog page, and then used the hyperlink-based travelsal approach, and used the correspondence between the title and the release time to get the URL of the page and the corresponding anchor text. If the anchor text we have was not the title of the text page, we should get the Web page HTML source code and build a DOM tree for the corresponding theme-based Web page. Based on the visual characteristics of the Web page title, we traversed the DOM tree in depth-first order. The experimental results demonstrate that this method is of high accuracy and can be simply implemented and so on.


Key words: hyperlink, Web page title, publication time, real-time, information extraction

中图分类号:

TP391

张兵1,汤进1,2,罗斌1,2. 基于超链接和DOM结构树的网页标题实时抽取方法[J]. 计算机与现代化, 2015, 0(8): 84-88.

ZHANG Bing1， TANG Jin1,2， LUO Bin1,2. Web Page Title Real-time Extraction Method Based on Hyperlink and DOM Tree[J]. Computer and Modernization, 2015, 0(8): 84-88.

参考文献

［1］杨春磊,刘念唐,林雨,等. 面向领域的Web文本结构化分析［J］. 合肥工业大学学报(自然科学版), 2013,36(3):309-314.
［2］胡凌云,胡桂兰,徐勇,等. 基于Web的新闻文本分类技术的研究［J］. 安徽大学学报(自然科学版), 2010,34(6):66-70.
［3］张引,陈敏,廖小飞. 大数据应用的现状与展望［J］. 计算机研究与发展, 2013,50(Suppl):216-233.
［4］陆余良,房珊瑶,刘金红,等. Deep Web站点分类研究进展［J］. 安徽大学学报(自然科学版), 2010,34(1):103-108.
［5］王强,关毅,王晓龙. 基于标题类别语义识别的文本分类算法研究［J］. 电子与信息学报， 2007,29(12):2885-2890.
［6］ Xue Yewei, Hu Yunhua, Xin Guomao, et al. Web page title extraction and its application［J］. Information Processing and Management, 2007,43(5):1332-1347.
［7］朱青,吕晓旭. 基于机器学习的HTML标题抽取［J］. 微计算机信息, 2010,26(3):15-16,11.
［8］李国华,昝红英. 基于相似度的网页标题抽取方法［J］. 中文信息学报, 2011,25(2):32-37.
［9］ Fan Jian, Luo Ping, Joshi P. Title identification of Web article pages using HTML and visual features［C］// Proceedings of the International Society for Optical Engineering, 2011. 2011,7879.
［10］李军,陈君,王玲芳,等. 一种垂直页面分割与信息提取方法的研究［J］. 计算机应用研究, 2013,30(3):844-847,852.
［11］黄玲,陈龙. 基于网页分块的正文信息提取方法［J］. 计算机应用, 2008,28(S2):326-328.
［12］周建,汤进,罗斌. 基于DOM结构树的网页正文信息分段方法［J］. 计算机与现代化， 2013(10):229-232.
［13］胡军伟,秦奕青,张伟. 正则表达式在Web信息抽取中的应用［J］. 北京信息科技大学学报(自然科学版), 2011,26(6):86-89.
［14］张乃洲,曹薇,李石君. 一种基于节点密度分割和标签传播的Web页面挖掘方法［J］. 计算机学报, 2015,38(2):349-364.
［15］刘建华,张智雄,谢靖,等. 基于规则的网络文本资源标题快速自动识别方法［J］. 现代图书情报技术, 2011(6):27-31.
［16］罗永莲,赵昌垣. 突发事件新闻标题与正文提取方法［J］. 计算机应, 2014,34(10):2865-2868,2873.
［17］王海潮. 基于网页结构的信息抽取关键技术研究［D］. 广州:华南理工大学, 2011.
［18］Jericho HTML Parser. Jericho HTML Parser［EB/OL］. http://jericho.htmlparser.net/docs/index.html, 2015-03-10.

[1]	李璐, 朱焱. 基于知识提示微调的事件抽取方法[J]. 计算机与现代化, 2024, 0(07): 36-40.
[2]	乔璐, 孙有朝, 吴红兰. 面向飞机故障文本的信息抽取[J]. 计算机与现代化, 2024, 0(03): 61-66.
[3]	杨轲, 董兵, 吴悦, 郝宽公, 彭自琛. 基于轻量化YOLOv4机场场面遥感图像目标检测方法#br#[J]. 计算机与现代化, 2024, 0(02): 93-99.
[4]	张春晖, 聂芸, 王国伟. 空天三维仿真中空间目标实时渲染算法[J]. 计算机与现代化, 2023, 0(11): 82-88.
[5]	许鸿奎, 李振业, 郭文涛, 赵京政, 郭旭斌. 基于分割的任意形状场景文本实时检测[J]. 计算机与现代化, 2023, 0(11): 95-100.
[6]	彭露露, 朱媛媛, 金文倩, 王笑梅. 基于改进YOLOv4的汽车钢铁零件表面缺陷检测[J]. 计算机与现代化, 2022, 0(09): 32-39.
[7]	徐麟, 何月顺, 宋伟宁, 许婷婷. 基于一致性度量的数字孪生模型实时自修正[J]. 计算机与现代化, 2022, 0(07): 67-73.
[8]	庞永旭, 袁德成. 融合改进A*与DWA算法的移动机器人路径规划[J]. 计算机与现代化, 2022, 0(01): 103-107.
[9]	胡昌冉, 樊彦国, 禹定峰. 嵌入空洞卷积模块的改进YOLOv3车辆检测算法[J]. 计算机与现代化, 2021, 0(04): 53-60.
[10]	朱岩, 张利, 王煜. 基于RoBERTa-WWM的中文电子病历命名实体识别[J]. 计算机与现代化, 2021, 0(02): 51-55.
[11]	胡全贵，赵恩来，贾伟昭，开北强. 数据中心巡检机器人信息平台实时任务容错调度算法[J]. 计算机与现代化, 2020, 0(05): 50-.
[12]	屈雯怡. 基于YOLOv3的船舶实时监测识别[J]. 计算机与现代化, 2020, 0(03): 115-.
[13]	侯博,聂颖. 动目标数据实时分析技术研究与实现[J]. 计算机与现代化, 2020, 0(01): 17-.
[14]	曹莹，刘惠义，钱苏斌. 基于BSSRDF模型回归人脸皮肤实时渲染[J]. 计算机与现代化, 2019, 0(09): 96-.
[15]	李畅1,2,张志敏1 . SAR系统收发通道幅相误差实时校正[J]. 计算机与现代化, 2019, 0(08): 44-.

基于超链接和DOM结构树的网页标题实时抽取方法

Web Page Title Real-time Extraction Method Based on Hyperlink and DOM Tree

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价