基于朴素贝叶斯Web新闻内容的抽取方法

doi:10.3969/j.issn.1006-2475.2016.01.013

计算机与现代化 ›› 2016, Vol. 0 ›› Issue (1): 59-63,68.doi: 10.3969/j.issn.1006-2475.2016.01.013

基于朴素贝叶斯Web新闻内容的抽取方法

晋中学院信息技术与工程学院，山西晋中030619

收稿日期:2015-04-08 出版日期:2016-01-22 发布日期:2016-01-26
基金资助:
山西省高等学校教学改革项目(J2014108); 山西省教育科学“十一五”规划课题(GH-08072)

Method of Web News Text Extraction Based on Nave Bayes

School of Information Technology & Engineering, Jinzhong University, Jinzhong 030619, China

Received:2015-04-08 Online:2016-01-22 Published:2016-01-26

摘要/Abstract

摘要： 针对网页信息自动抽取问题，提出一种将网页按标记分块并根据朴素贝叶斯理论从中识别新闻正文的方法。该方法将各分块的标记信息、文本相似度以及字长特征作为机器学习的特征属性。为提高标记属性的表征作用，减少相关标记之间的干扰，算法采用χ2检验法来检验标记属性之间以及标记属性与类别之间的相关性并实现属性约减。新闻正文抽取过程中同时考虑正文与非正文分块的后验概率，以提高抽取准确率。实验结果表明，选取适当的参数值，抽取新闻正文的准确率达到85%。


关键词: 朴素贝叶斯, 新闻网页, 网页分块, 正文抽取, 相关性检验

Abstract: Concerning the problems of information automatic extraction from Web news, a method of extracting Web news text from webpage tag blocks based on Nave Bayes was proposed. Tag information, text similarity and text length of tag blocks were taken as the attributes in machine learning. To improve the representation of tag attributes and reduce interference between related tags, the algorithm reduced the number of attributes in the way of examining the correlation between tag attributes and categories between tag attributes based on χ2 test. In order to improve the extraction accuracy, both the probability of news text and non news text were considered. The experimental results show that the accuracy rate of extraction news text reached 85% with appropriate parameter values.

Key words: Nave Bayes, news of webpage, webpage tag block, text extraction, correlation test

中图分类号:

TP391.1

罗永莲，赵昌垣，贾玉芳，芦彩林. 基于朴素贝叶斯Web新闻内容的抽取方法[J]. 计算机与现代化, 2016, 0(1): 59-63,68.

LUO Yong-lian, ZHAO Chang-yuan, JIA Yu-fang, LU Cai-lin. Method of Web News Text Extraction Based on Nave Bayes[J]. Computer and Modernization, 2016, 0(1): 59-63,68.

参考文献

［1］程岚岚,何丕廉,孙越恒. 基于朴素贝叶斯模型的中文关键词提取算法研究［J］. 计算机应用, 2005,25(12)：2780-2782.
［2］童兵. 理论新闻传播学导论［M］. 北京:中国人民大学出版社, 2002:118-223.
［3］罗永莲,张永奎. 基于发布时间的新闻网页去重方法研究［J］. 计算机工程与应用, 2007,43(6):119-121.
［4］王锦波,王莲芝,高万林,等. 一种改进的朴素贝叶斯关键词提取算法研究［J］. 计算机应用与软件, 2014,31(2):174-177.
［5］ Chen Zheng, Liu Shengping, Liu Wenyin, et al. Building a Web thesaurus from Web link structure［C］// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval. 2003:48-55.
［6］陈叶旺,余金山. 一种改进的朴素贝叶斯文本分类方法［J］. 华侨大学学报(自然科学版), 2011,32(4):401-404.
［7］ Hao Lili, Hao Lizhu. Automatic identification of stop words in Chinese text classification［C］// Proceedings of the 2008 International Conference on Computer Science and Software Engineering. 2008:718-722.
［8］汪建伟,杨冬青,高军,等. 一种基于分类算法的网页信息提取方法［J］. 计算机科学, 2008,35(3):91-93.
［9］ Glover E J, Tsioutsiouliklis K, Lawrence S, et al. Using Web structure for classifying and describing Web pages［C］// Proceedings of International Conference on World Wide Web, 2002. 2002:562-569.
［10］王秀华,武丽芬. 基于近邻边缘检测的支持向量机［J］. 计算机与现代化, 2015(3):15-19.
［11］罗永莲,赵昌垣. 突发事件新闻标题与正文提取方法［J］. 计算机应用, 2014,34(10):2865-2868.
［12］白似雪,梅君,吴穹,等. 一种基于概率加权的朴素贝叶斯分类［J］. 南昌大学学报, 2009,33(2):191-194.
［13］黄玲,陈龙. 基于网页分块的正文信息提取方法［J］. 计算机应用, 2008,28(S2):326-328.
［14］罗永莲. 突发事件新闻网页语料处理方法研究［M］. 北京:北京邮电大学出版社, 2014.
［15］张宇,刘挺,文勖. 基于改进贝叶斯模型的问题分类［J］. 中文信息学报, 2005,19(2):100-105.
［16］李晋松. 基于朴素贝叶斯的网页自动分类技术研究［D］. 北京:北京化工大学, 2008.
［17］武丽芬,王秀华. 数据挖掘技术在教育领域的应用研究［M］. 北京:北京邮电大学出版社, 2013:202-206.

[1]	李舒, 张伟业, 汪坤, 段照斌. 基于聚类分析的航班油耗组合估计[J]. 计算机与现代化, 2022, 0(08): 65-69.
[2]	梁东，杨永全，魏志强. 基于支持向量机的网页正文内容提取方法[J]. 计算机与现代化, 2018, 0(09): 21-.
[3]	郑开雨，竹翠. 基于上下文语义的朴素贝叶斯文本分类算法[J]. 计算机与现代化, 2018, 0(06): 1-.
[4]	郭晓明1,2，孙丹1,2. 基于朴素贝叶斯理论的内部威胁检测方法[J]. 计算机与现代化, 2017, 0(7): 101-106.
[5]	韩静丹,孙磊，王帅丽，王泽武. 基于BPSO-NB算法的Android恶意应用检测方法[J]. 计算机与现代化, 2017, 0(4): 109-113.
[6]	孙梦，瞿有利. 一种基于噪音过滤包装器的Web新闻抽取方法[J]. 计算机与现代化, 2017, 0(1): 5-12.
[7]	沈利香1,曹国2. 分布式计算环境下的入侵检测数据分类研究[J]. 计算机与现代化, 2015, 0(12): 43-.
[8]	陈曦;薛广涛. 一种基于朴素贝叶斯分类的3G用户流量预测技术[J]. 计算机与现代化, 2013, 1(4): 153-157,.
[9]	施询之;孙宁远;李骋罡. 基于微博信息库和文本分词的人机对话模型设计[J]. 计算机与现代化, 2013, 1(11): 207-209.
[10]	张夏欢;李玉鑑;张晨光. 正例半监督学习眉毛图像分割[J]. 计算机与现代化, 2012, 1(9): 127-133.
[11]	袁文生;王晓峰. 基于朴素贝叶斯的中文海事文本多分类器研究 [J]. 计算机与现代化, 2011, 1(5): 150-153.
[12]	李金华;梁永全;吕芳芳. 一种加权朴素贝叶斯分类增量学习模型[J]. 计算机与现代化, 2010, 1(5): 30-32.
[13]	卢加磊朱世华丁香乾黄跃华. 基于Cotraining的烟草原料数据优化分析[J]. 计算机与现代化, 2010, 1(02): 176-179.
[14]	庞秋奔;顾平;杨小梅. 基于分块重要性模型与Xpath的Web信息抽取的研究[J]. 计算机与现代化, 2009, 8(8): 73-75,7.

基于朴素贝叶斯Web新闻内容的抽取方法

Method of Web News Text Extraction Based on Nave Bayes

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 14

编辑推荐

Metrics

本文评价