基于卷积神经网络的互联网短文本分类方法

doi:10.3969/j.issn.1006-2475.2017.04.016

计算机与现代化

基于卷积神经网络的互联网短文本分类方法

中原工学院计算机学院,河南郑州450007

收稿日期:2016-08-23 出版日期:2017-04-20 发布日期:2017-05-08
作者简介:郭东亮(1991-),男,河南林州人，中原工学院计算机学院硕士研究生,研究方向:自然语言处理; 刘小明(1979-),男，河南许昌人,讲师,博士,研究方向:机器学习,自然语言处理; 郑秋生(1965-),男，河南郑州人,教授,硕士,研究方向:信息安全,数据资源管理。
基金资助:
河南省科技攻关项目(132102310284); 河南省教育厅科学技术研究重点项目( 14A520015)

Internet Short-text Classification Method Based on CNNs

School of Computer Science, Zhongyuan University of Technology, Zhengzhou 450007, China

Received:2016-08-23 Online:2017-04-20 Published:2017-05-08

摘要/Abstract

摘要： 互联网短文本的分类是自然语言处理的一个研究热点。本文提出一种基于卷积神经网络（Convolutional Neural Networks，CNNs）互联网短文本分类方法。首先通过Word2vec的Skip-gram模型获得短文特征，接着送入CNNs中进一步提取高层次特征，最后通过K-max池化操作后放入Softmax分类器得出分类模型。在实验中，该方法和机器学习方法以及DBN方法相比，结果表明本文方法不仅解决了文本向量的维数灾难和局部最优解问题，而且有效地提高了互联网短文本两级分类准确率，证实了基于CNNs的互联网短文本分类的有效性。


关键词: 卷积神经网络, 短文本分类, 深度学习, 机器学习

Abstract: The Internet short-text classification is a hot research topic in natural language processing. This paper presents a short text classification method based on deep learning’s convolutional neural networks. First short-text features are achieved by the Skip-gram model of Word2vec, then it is sent into the CNNs to extract high-level features, after the K-max pooling, it is put into the Softmax classifier to get a classification model. In the Internet short-text classification experiments, compared to machine learning and DBN’s method, the results show that the proposed method not only solves the problems of the curse of dimensionality of text vector and the local optimal solution, but also effectively improves the accuracy of Internet short-text classification, and confirms the validity of the Internet short-text classification method based on CNNs.


Key words: CNNs, short-text classification, deep learning, machine learning

中图分类号:

TP391

郭东亮,刘小明,郑秋生. 基于卷积神经网络的互联网短文本分类方法[J]. 计算机与现代化, doi: 10.3969/j.issn.1006-2475.2017.04.016.

GUO Dong-liang, LIU Xiao-ming, ZHENG Qiu-sheng. Internet Short-text Classification Method Based on CNNs[J]. Computer and Modernization, doi: 10.3969/j.issn.1006-2475.2017.04.016.

参考文献

［1］江斌. 微博自动分类方法研究及应用［D］. 哈尔滨：哈尔滨工业大学, 2012.
［2］张志飞,苗夺谦,高灿. 基于LDA主题模型的短文本分类方法［J］. 计算机应用, 2013,33(6):1587-1590.
［3］张爱丽,刘广利,刘长宇. 基于SVM的多类文本分类研究［J］. 情报杂志, 2004,23(9):6-7.
［4］郭泗辉,樊兴华. 一种改进的贝叶斯网络短文本分类算法［J］. 广西师范大学学报(自然科学版), 2010,28(3):140-143.
［5］张宁,贾自艳,史忠植. 使用KNN算法的文本分类［J］. 计算机工程, 2005,31(8):171-172.
［6］黄华. 基于决策树与SVM融合学习的科技文献分类方法研究［D］. 郑州:河南工业大学, 2011.
［7］ Mikolov T, Chen Kai, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space［EB/OL］. https://arxiv.org/abs/1301.3781, 2013-01-16.
［8］ Kim Y. Convolutional neural networks for sentence classification［C］// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. 2014:1746-1751.
［9］ Kalchbrenner N, Grefenstette E, Blunsom P. A Convolutional Neural Network for Modelling Sentences［EB/OL］. https://arxiv.org/abs/1404.2188, 2014-04-08.
［10］崔建明,刘建明,廖周宇. 基于SVM算法的文本分类技术研究［J］. 计算机仿真, 2013,30(2):299-302
［11］李玉鑑,王影,冷强奎. 基于最近邻子空间搜索的两类文本分类方法［J］. 计算机工程与科学, 2015,37(1):168-172.
［12］陈翠平. 基于深度信念网络的文本分类算法［J］. 计算机系统应用, 2015,24(2):121-126.
［13］冯永,李华,钟将,等. 基于自适应中文分词和近似SVM的文本分类算法［J］. 计算机科学, 2010,37(1):251-254.
［14］顾益军,樊孝忠,王建华,等. 中文停用词表的自动选取［J］. 北京理工大学学报, 2005,25(4):337-340.
［15］施聪莺,徐朝军,杨晓江. TFIDF算法研究综述［J］. 计算机应用, 2009,29(S1):167-170.
［16］耿丽娟,李星毅. 用于大数据分类的KNN算法研究［J］计算机应用研究, 2014,31(5):1343-1344.
［17］宗成庆. 统计自然语言处理［M］. 北京:清华大学出版社, 2008:352-353.

[1]	胡崇佳, 刘金洲, 方立. 基于无监督域适应的室外点云语义分割[J]. 计算机与现代化, 2024, 0(01): 74-79.
[2]	林威. 基于自监督学习和数据回放的新闻推荐模型增量学习方法[J]. 计算机与现代化, 2023, 0(12): 1-6.
[3]	周成诚, 曾庆军, 杨康, 胡家铭, 韩春伟. 基于高效通道注意力模块的运动想象脑电识别[J]. 计算机与现代化, 2023, 0(12): 19-23.
[4]	梁天恺, 黄康华, 刘凯航, 兰岚, 曾碧. 基于双向同态加密的深度联邦图片分类方法[J]. 计算机与现代化, 2023, 0(12): 36-40.
[5]	邱凯星, 冯广. 基于双重特征注意力的多标签图像分类模型[J]. 计算机与现代化, 2023, 0(12): 41-47.
[6]	张伯泉, 麦海鹏, 陈嘉敏, 逄锦聚. 基于高灰度值注意力机制的脑白质高信号分割[J]. 计算机与现代化, 2023, 0(12): 67-75.
[7]	马泽宇, 叶宁, 徐康, 王甦, 王汝传, . 基于FMCW雷达和ResNeSt-GRU的行为识别方法[J]. 计算机与现代化, 2023, 0(11): 101-107.
[8]	贾潇瑶, . 融合CatBoost和SHAP的乳腺癌预测及特征分析[J]. 计算机与现代化, 2023, 0(10): 32-38.
[9]	李延满, 王必恒, 赵羚焱. 基于轻量化YOLOv5的安全帽检测[J]. 计算机与现代化, 2023, 0(10): 59-64.
[10]	黎世达, 项剑文. 一种提高图像识别模型鲁棒性的弱化强化方法[J]. 计算机与现代化, 2023, 0(10): 70-76.
[11]	沈加炜, 陆一鸣, 陈晓艺, 钱美玲, 陆卫忠, . 基于深度学习的人体行为检测方法研究综述[J]. 计算机与现代化, 2023, 0(09): 1-9.
[12]	刘付琪, 张达, 宋建华, 王海东. 基于CNN-BiLSTM的液压系统故障诊断[J]. 计算机与现代化, 2023, 0(09): 10-19.
[13]	吴甜, 刘海华, 童顺延. 基于深度反馈的卷积神经网络的图像分类[J]. 计算机与现代化, 2023, 0(09): 82-86.
[14]	刘禅奕, 黄丹, 薛林雁, 王涛, 朱桃, . 改进EfficientNet网络的COVID-19 X光分类[J]. 计算机与现代化, 2023, 0(09): 94-99.
[15]	马国祥, 杨凌菲, 严传波, 张志豪, 孙彬, 王晓荣. 基于深度DenseNet网络的肝包虫病超声影像诊断方法[J]. 计算机与现代化, 2023, 0(09): 100-104.

基于卷积神经网络的互联网短文本分类方法

Internet Short-text Classification Method Based on CNNs

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价