摘要: 网页正文信息的正确提取与分段,对文本信息挖掘等具有重要的意义。本文提出并实现一种从Web页面获取正文信息并能够正确分段的方法。该方法首先利用网页布局标签
和
构建一个DOM结构树,然后利用DOM结构树所反映出的布局标签的嵌套关系,对内容块进行取舍,提取出正确的正文信息,最后利用对一些特殊标签的处理,实现正文信息的分段。实验表明,该方法易实现、效率高,能自动准确地提取正文信息并分段。
中图分类号:
周建;汤进;罗斌;. 基于DOM结构树的网页正文信息分段方法[J]. 计算机与现代化, 2013, 218(10): 229-232.
ZHOU Jian;TANG Jin;LUO Bin;. Web Information Segmentation Method Based on DOM Structure Tree[J]. Computer and Modernization, 2013, 218(10): 229-232.