[1] 杨春磊,刘念唐,林雨,等. 面向领域的Web文本结构化分析[J]. 合肥工业大学学报(自然科学版), 2013,36(3):309-314.
[2] 胡凌云,胡桂兰,徐勇,等. 基于Web的新闻文本分类技术的研究[J]. 安徽大学学报(自然科学版), 2010,34(6):66-70.
[3] 张引,陈敏,廖小飞. 大数据应用的现状与展望[J]. 计算机研究与发展, 2013,50(Suppl):216-233.
[4] 陆余良,房珊瑶,刘金红,等. Deep Web站点分类研究进展[J]. 安徽大学学报(自然科学版), 2010,34(1):103-108.
[5] 王强,关毅,王晓龙. 基于标题类别语义识别的文本分类算法研究[J]. 电子与信息学报, 2007,29(12):2885-2890.
[6] Xue Yewei, Hu Yunhua, Xin Guomao, et al. Web page title extraction and its application[J]. Information Processing and Management, 2007,43(5):1332-1347.
[7] 朱青,吕晓旭. 基于机器学习的HTML标题抽取[J]. 微计算机信息, 2010,26(3):15-16,11.
[8] 李国华,昝红英. 基于相似度的网页标题抽取方法[J]. 中文信息学报, 2011,25(2):32-37.
[9] Fan Jian, Luo Ping, Joshi P. Title identification of Web article pages using HTML and visual features[C]// Proceedings of the International Society for Optical Engineering, 2011. 2011,7879.
[10]李军,陈君,王玲芳,等. 一种垂直页面分割与信息提取方法的研究[J]. 计算机应用研究, 2013,30(3):844-847,852.
[11]黄玲,陈龙. 基于网页分块的正文信息提取方法[J]. 计算机应用, 2008,28(S2):326-328.
[12]周建,汤进,罗斌. 基于DOM结构树的网页正文信息分段方法[J]. 计算机与现代化, 2013(10):229-232.
[13]胡军伟,秦奕青,张伟. 正则表达式在Web信息抽取中的应用[J]. 北京信息科技大学学报(自然科学版), 2011,26(6):86-89.
[14]张乃洲,曹薇,李石君. 一种基于节点密度分割和标签传播的Web页面挖掘方法[J]. 计算机学报, 2015,38(2):349-364.
[15]刘建华,张智雄,谢靖,等. 基于规则的网络文本资源标题快速自动识别方法[J]. 现代图书情报技术, 2011(6):27-31.
[16]罗永莲,赵昌垣. 突发事件新闻标题与正文提取方法[J]. 计算机应, 2014,34(10):2865-2868,2873.
[17]王海潮. 基于网页结构的信息抽取关键技术研究[D]. 广州:华南理工大学, 2011.
[18]Jericho HTML Parser. Jericho HTML Parser[EB/OL]. http://jericho.htmlparser.net/docs/index.html, 2015-03-10. |