维吾尔文情感语料库的构建与分析

doi:10.3969/j.issn.1006-2475.2017.04.014

计算机与现代化 ›› 2017, Vol. 0 ›› Issue (4): 67-72.doi: 10.3969/j.issn.1006-2475.2017.04.014

维吾尔文情感语料库的构建与分析

新疆大学信息科学与工程学院,新疆乌鲁木齐830046

收稿日期:2016-09-01 出版日期:2017-04-20 发布日期:2017-05-08
作者简介:伊尔夏提·吐尔贡(1990-),男(维吾尔族),新疆阿克陶人,新疆大学信息科学与工程学院硕士研究生,研究方向:自然语言处理,社会舆情分析; 吾守尔·斯拉木(1941-),男(维吾尔族),中国工程院院士,博士生导师,研究方向:自然语言处理; 热西旦木·吐尔洪太(1980-),女(维吾尔族),博士研究生,研究方向:自然语言分析; 于清(1973-),女,副教授,研究方向:自然语言分析。
基金资助:
国家重点基础研究发展计划项目(2014CB340506)

Construction and Analysis of Uighur Emotional Corpus

College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China

Received:2016-09-01 Online:2017-04-20 Published:2017-05-08

摘要/Abstract

摘要： 针对维吾尔文情感语料库标注体系不规范、语料库规模小、没有合适的标注平台等问题，分析英文和中文比较著名情感语料库的优点，结合维吾尔语文本的特点，建立维吾尔文情感语料标注规范，利用Python语言构建集数据采集与标注为一体的情感标注平台，最后构建在舆情分析和舆情监控中可以应用的维吾尔文情感语料库。实验结果表明，该标注规范具有可扩展性和实用性，标注平台可以有效地减轻标注人员的工作量，提高情感语料库的质量，情感语料库可以用于舆情分析任务。


关键词: 计算机应用, 自然语言处理, 情感分析, 维吾尔文, 情感语料库

Abstract: For the problems of lacking standardization on criterion of Uighur sentiment corpus, small scale corpus， and no suitable tagging system, we built a tagging criterion for Uighur sentiment corpus by analyzing the advantages of famous sentiment corpuses in English and Chinese and combining the characteristics of Uighur text. We also developed a tagging system which can collect data from the Internet using Python language and built a Uighur sentiment corpus. The corpus can be used in the analysis of public opinion. Experimental results show that the tagging criterion is of expandability and practicability, the tagging system can effectively reduce the workload and improve the quality of sentiment corpus, and the sentiment corpus can be used for the public opinion analysis task.


Key words: computer application, natural language processing, sentiment analysis, Uighur, sentiment corpus

中图分类号:

TP319

伊尔夏提·吐尔贡,吾守尔·斯拉木,热西旦木·吐尔洪太,于清. 维吾尔文情感语料库的构建与分析[J]. 计算机与现代化, 2017, 0(4): 67-72.

TUERGONG, Wushouer SILAMU, Rexidan TUSERHONGTAI, YU Qing. Construction and Analysis of Uighur Emotional Corpus[J]. Computer and Modernization, 2017, 0(4): 67-72.

参考文献

1］赵妍妍,秦兵,刘挺. 文本情感分析［J］. 软件学报, 2010,21(8):1834-1848.
［2］ Pang Bo, Lee L. Movie Review Data［DB/OL］. http://〖JP4〗www.cs.cornell.edu/people/pabo/movie-review-data/, 2012-04-01．
［3］ Berardinelli J. Berardinelli电影评论语料库［DB/OL］. http://www.reelviews.net/, 2016-08-01．
［4］徐琳宏,林鸿飞,赵晶．情感语料库的构建和分析［J］．中文信息学报， 2008,22(1):116-122．
［5］ Yang Hongwu, Meng H M, Wu Zhiyong, et al． Modeling the global acoustic correlates of expressivity for Chinese text-to-speech synthesis ［C］// IEEE/ACL 2006 Workshop on Spoken Language Technology. 2006:10-13．
［6］罗亚伟,田生伟,禹龙,等．细粒度意见挖掘中维吾尔语文本情感分析研究［J］．中文信息学报， 2016,30(1):140-148．
［7］于斯音·于苏普,艾斯卡尔·艾木都拉．基于情感词典的维吾尔语文本句子情感分类［J］．电脑知识与技术(学术交流)， 2014,10(4):2371-2374．
［8］王科,夏睿．情感词典自动构建方法综述［J］. 自动化学报， 2016,42(4):495-507.
［9］禹龙,田生伟,冯冠军．维吾尔语情感词汇自动识别［J］．计算机工程， 2011,37(7):213-215．
［10］江腾蛟,万常选,刘德喜,等．基于语义分析的评价对象-情感词对抽取［J］．计算机学报， 2017,40(3):617-633.
［11］唐涛．基于大数据的网络舆情分析方法研究［J］．现代情报， 2014,34(3):3-6．
［12］亚森·伊斯马伊力,吐尔根·依布拉音,卡哈尔江·阿比的热西提．基于用户关系的维吾尔文微博数据获取方法的研究［J］．新疆大学学报（自然科学版）， 2015,32(1):74-79．
［13］力提甫·托乎提．现代维吾尔语参考语法［M］．北京:中国社会科学出版社， 2012．
［14］早克热·卡德尔,艾山·吾买尔，吐尔根·依布拉音,等．混合策略的维吾尔语名词词干提取系统［J］．计算机工程与应用， 2013,49(1):171-175．

[1]	李璐, 朱焱. 基于知识提示微调的事件抽取方法[J]. 计算机与现代化, 2024, 0(07): 36-40.
[2]	张可1, 艾中良2, 刘忠麟3, 顾平莉1, 刘学林4. 基于多元组匹配损失的司法论辩理解方法[J]. 计算机与现代化, 2024, 0(06): 115-120.
[3]	李诗月, 孟佳娜, 于玉海, 李雪莹, 许英傲. 基于知识增强的方面级情感分析方法[J]. 计算机与现代化, 2023, 0(10): 1-8.
[4]	王浩畅, 刘如意. 基于预训练模型的关系抽取研究综述[J]. 计算机与现代化, 2023, 0(01): 49-57.
[5]	周慧, 徐名海, 许晓东. 基于Attention-BIGRU-CRF的中文分词模型[J]. 计算机与现代化, 2022, 0(08): 7-12.
[6]	姚春华, 张学磊, 宋馨宇, 张举, 蔡佳志, 冯翱. 一种基于图卷积神经网络和依存分析的财经新闻情感分析方法[J]. 计算机与现代化, 2022, 0(05): 33-39.
[7]	王天星, 袁家斌, 刘昕. 基于同等注意力图网络的视觉问答方法[J]. 计算机与现代化, 2021, 0(11): 1-6.
[8]	冯茹嘉, 张海军, 潘伟民. 基于情感分析和Transformer模型的微博谣言检测[J]. 计算机与现代化, 2021, 0(10): 1-7.
[9]	王镇宇, 郑扬飞. 基于排序学习算法的智能检索系统[J]. 计算机与现代化, 2021, 0(10): 35-40.
[10]	郑新月, 任俊超. 基于BERT-FNN的意图识别分类[J]. 计算机与现代化, 2021, 0(07): 71-76.
[11]	尼格拉木·买斯木江, 艾孜尔古丽·玉素甫. 基于BERT及双向GRU模型的慕课用户评论情感倾向性分析[J]. 计算机与现代化, 2021, 0(04): 20-26.
[12]	高逸凡, 王勇. 一种基于目标检测与词性分析的图像描述算法[J]. 计算机与现代化, 2021, 0(03): 108-114.
[13]	徐龙. 基于自注意力和胶囊网络的短文本情感分析[J]. 计算机与现代化, 2020, 0(07): 61-64.
[14]	丁岩1,2，鲍焱1,2，胡晓1,2. 基于多媒体信息的双向LSTM情感分析方法[J]. 计算机与现代化, 2019, 0(02): 88-.
[15]	沈然，林恺丰，吴慧. 一种用于供电服务评估的多模态多任务框架[J]. 计算机与现代化, 2018, 0(12): 51-.

维吾尔文情感语料库的构建与分析

Construction and Analysis of Uighur Emotional Corpus

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价