计算机与现代化

• 算法设计与分析 •    下一篇

基于上下文语义的朴素贝叶斯文本分类算法

  

  1. (北京工业大学信息学部,北京100124)
  • 收稿日期:2017-12-04 出版日期:2018-07-05 发布日期:2018-07-05
  • 作者简介:郑开雨(1991-),女,河北邯郸人,北京工业大学信息学部硕士研究生,研究方向:机器学习;竹翠(1973-),女,副教授,博士,研究方向:数据挖掘。

ContextSemantic-basedNaiveBayesianAlgorithmforTextClassification

  1. (InformationDepartment,BeijingUniversityofTechnology,Beijing100124,China)
  • Received:2017-12-04 Online:2018-07-05 Published:2018-07-05

摘要: 朴素贝叶斯分类器基于样本各属性相互条件独立的假设前提,它作为一种简单的词袋模型,忽略了上下文语境下同义词对分类的影响。本文提出相似词概念,使用相似词词簇代替传统的特征词典参与训练。首先训练word2vec得到词向量。然后,将特征词典用词向量表示后层次聚类,构建相似词词簇,并对其扩展。实验结果表明,改进后算法有效提高了文本分类的准确度,避免了因分类训练语料的差异导致分类效果的不稳定。

关键词: 文本分类, 朴素贝叶斯, word2vec

Abstract: TheNaiveBayesclassifierisbasedontheassumptionthatthesamples’attributesareindependentoneanother.Asasimplebag-of-wordsmodel,itignorestheinfluenceofsynonymsincontexttoclassification.Thispaperproposestheconceptofsimilarwordandusesclustersofsimilarwordsinsteadofkeyworddictionaryintraining.First,word2vecistrainedtogetwordembedding.Second,thekeyworddictionaryisrepresentedbywordembeddingwhichisthenclusteredhierarchically,theclustersofsimiliarwordsarebuiltandexpanded.Theexperimentalresultsshowthattheabovemethodcanimprovetheaccuracyoftextclassification,andavoidtheinstabilityofclassificationeffectduetothedifferencesintrainingcorpus.

Key words: textcategorization, NaiveBayes, word2vec

中图分类号: