计算机与现代化

• 人工智能 • 上一篇    下一篇

维吾尔文情感语料库的构建与分析

  

  1. 新疆大学信息科学与工程学院,新疆乌鲁木齐830046
  • 收稿日期:2016-09-01 出版日期:2017-04-20 发布日期:2017-05-08
  • 作者简介:伊尔夏提·吐尔贡(1990-),男(维吾尔族),新疆阿克陶人,新疆大学信息科学与工程学院硕士研究生,研究方向:自然语言处理,社会舆情分析; 吾守尔·斯拉木(1941-),男(维吾尔族),中国工程院院士,博士生导师,研究方向:自然语言处理; 热西旦木·吐尔洪太(1980-),女(维吾尔族),博士研究生,研究方向:自然语言分析; 于清(1973-),女,副教授,研究方向:自然语言分析。
  • 基金资助:
    国家重点基础研究发展计划项目(2014CB340506)

Construction and Analysis of Uighur Emotional Corpus

  1. College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China
  • Received:2016-09-01 Online:2017-04-20 Published:2017-05-08

摘要: 针对维吾尔文情感语料库标注体系不规范、语料库规模小、没有合适的标注平台等问题,分析英文和中文比较著名情感语料库的优点,结合维吾尔语文本的特点,建立维吾尔文情感语料标注规范,利用Python语言构建集数据采集与标注为一体的情感标注平台,最后构建在舆情分析和舆情监控中可以应用的维吾尔文情感语料库。实验结果表明,该标注规范具有可扩展性和实用性,标注平台可以有效地减轻标注人员的工作量,提高情感语料库的质量,情感语料库可以用于舆情分析任务。

关键词: 计算机应用, 自然语言处理, 情感分析, 维吾尔文, 情感语料库

Abstract: For the problems of lacking standardization on criterion of Uighur sentiment corpus, small scale corpus, and no suitable tagging system, we built a tagging criterion for Uighur sentiment corpus by analyzing the advantages of famous sentiment corpuses in English and Chinese and combining the characteristics of Uighur text. We also developed a tagging system which can collect data from the Internet using Python language and built a Uighur sentiment corpus. The corpus can be used in the analysis of public opinion. Experimental results show that the tagging criterion is of expandability and practicability, the tagging system can effectively reduce the workload and improve the quality of sentiment corpus, and the sentiment corpus can be used for the public opinion analysis task.

Key words: computer application, natural language processing, sentiment analysis, Uighur, sentiment corpus

中图分类号: