计算机与现代化

• 数据库与数据挖掘 • 上一篇    下一篇

基于机器学习的文本情感倾向性分析

  

  1. (广州中医药大学医学信息工程学院,广东广州510006)
  • 收稿日期:2019-06-03 出版日期:2020-03-24 发布日期:2020-03-30
  • 作者简介:陈平平(1980-),女,广东蕉岭人,副教授,硕士,研究方向:计算机网络,大数据应用,E-mail: chenpingping@gzucm.edu.cn; 耿笑冉(1999-),女,河南安阳人,本科生,研究方向:数据挖掘,机器学习,E-mail: 417195779@qq.com; 邹敏(1997-),女,广东河源人,本科生,研究方向:数据挖掘,机器学习,E-mail: 562139648@qq.com; 通信作者:谭定英(1978-),女,广东丰顺人,副教授,硕士,研究方向:数据结构与算法,机器学习,E-mail: tandy@gzucm.edu.cn。
  • 基金资助:
    广州市高校创新创业教育项目(2019KC103)

Analysis of Text Sentiment Orientation Based on Machine Learning

  1. (School of Medical Information Engineering, Guangzhou University of Chinese Medicine, Guangzhou 510006, China)
  • Received:2019-06-03 Online:2020-03-24 Published:2020-03-30

摘要: 为实现对网络上电影评论的情感倾向性分析,通过对电影影评数据进行爬取,获取热门的电影评论,利用文本预处理和机器学习算法,完成对数据的训练以及测试,最终构建最优情感分类模型。实验结果表明,在所有词与双词结合并进行jieba的TF-IDF及卡方统计的特征提取下,得到的效果较好,BP神经网络以及多项式贝叶斯算法比较适用于这类文本的分析,尤其以BP神经网络的效果最佳,准确率达到86.2%。

关键词: 情感倾向分析, jieba分词, 机器学习, BP神经网络算法, 卡方统计

Abstract: In order to realize the emotional orientation analysis of movie reviews on the Internet, the film review data is crawled to obtain popular movie reviews, and text preprocessing and machine learning algorithms are used to complete the training and testing of the data, and finally the most superior sentiment classification model is constructed. The experimental results show that under the combination of all words and double words and the feature extraction of jieba’s TF-IDF and Chi-square statistics, the BP neural network and polynomial Bayesian algorithm are more suitable for the analysis of this kind of text, especially BP neural network is the best, the accuracy rate reaches 86.2%.

Key words: sentiment analysis, jieba, machine learning, Back Propagation Neural Network algorithm, Chi-square statistics

中图分类号: