计算机与现代化

• 数据挖掘 • 上一篇    下一篇

基于fastText的中文文本分类

  

  1.   (广西大学计算机与电子信息学院,广西南宁530004)
  • 收稿日期:2017-10-18 出版日期:2018-06-13 发布日期:2018-06-13
  • 作者简介:代令令(1991-),女,河南驻马店人,广西大学计算机与电子信息学院硕士研究生,研究方向:文本分类,情感分析; 蒋侃(1972-),男,湖北武汉人,教授,博士,研究方向:电子商务,传播计算。
  • 基金资助:
    国家自然科学基金资助项目(71362012)

Chinese Text Classification Based on fastText

  1.   (School of Computer and Electronic Information, Guangxi University, Nanning 530004, China)  
  • Received:2017-10-18 Online:2018-06-13 Published:2018-06-13

摘要: 在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。

关键词: 文本分类, fastText, 线性分类器, 快速文本分类模型

Abstract: A goal of text classification is to shorten the classification time under the premise of ensuring the accuracy of classification. In order to solve the problem that the current text classification process is complex and time-consuming, fastText, a library for efficient learning of word representations and sentence classification proposed by Facebook is applied to Chinese text classification field to test its effect. Compared with the mainstream text classification method, fastText can guarantee the classification accuracy and greatly shorten the classification time. At the same time, this paper further studies and analyzes the classification accuracy and parameters and gets some optimization rules.

Key words: text classification, fastText, linear classifier, fast text classification model

中图分类号: