面向军事领域的中文分词技术研究

doi:10.3969/j.issn.1006-2475.2018.11.020

计算机与现代化 ›› 2018, Vol. 0 ›› Issue (11): 115-.doi: 10.3969/j.issn.1006-2475.2018.11.020

面向军事领域的中文分词技术研究

（陆军工程大学石家庄校区模拟训练中心，河北石家庄050000）

收稿日期:2018-04-03 出版日期:2018-11-22 发布日期:2018-11-23
作者简介:李健龙（1993-），男，吉林榆树人，陆军工程大学石家庄校区模拟训练中心硕士研究生，研究方向：自然语言处理；王盼卿（1965-），男，河北石家庄人，教授，研究方向：自然语言处理。

Research on Chinese Word Segmentation Technology for Military Field

(Simulation Training Center, Army Engineering University, Shijiazhuang 050000, China)

Received:2018-04-03 Online:2018-11-22 Published:2018-11-23

摘要/Abstract

摘要： 在分词模型跨领域分词时，其性能会有明显的下降。由于标注军队遗留系统开发文档语料的工作比较复杂，本文提出n-gram与词典相结合的中文分词领域自适应方法。该方法通过提取目标语料的n-gram特征训练适应特征领域的分词模型，然后利用领域词典对分词结果进行逆向最大匹配的校正。实验结果表明，在军队遗留系统相关文档语料上，该方法训练的分词模型将F值提高了12.4%。

关键词: 条件随机场, n-gram特征, 领域词典

Abstract: When the word segmentation model cross-field word segmentation, the performance will be significantly reduced. Due to the complexity of annotating the corpus work of the legacy system development documents of the army, this paper proposes an adaptation method of Chinese word segmentation in combination with n-gram and domain dictionary. By extracting the n-gram features of the target corpus, the method adapts to the word segmentation model in the feature domain. Then, the domain dictionary is used to perform reverse maximum matching correction on the word segmentation results. Experimental results show that in the corpus of documents related to the legacy system of the army, the word segmentation model trained by this method improves the F-measure by 12.4%.

Key words: , n-gram characteristics； domain dictionary

中图分类号:

TP391

李健龙，王盼卿，韩琪宇. 面向军事领域的中文分词技术研究[J]. 计算机与现代化, 2018, 0(11): 115-.

LI Jian-long， WANG Pan-qing， HAN Qi-yu. Research on Chinese Word Segmentation Technology for Military Field[J]. Computer and Modernization, 2018, 0(11): 115-.

参考文献

［1］ GUO Z, ZHANG Y J, SU C, et al. Exploration of N-gram Features for the Domain Adaptation of Chinese Word Segmentation［M］. Springer Berlin Heidelberg, 2012:121-131.
［2］朱艳辉,刘璟,徐叶强,等. 基于条件随机场的中文领域分词研究［J］. 计算机工程与应用, 2016,52(15):97-100.
［3］姜锋. 基于条件随机场的中文分词研究［D］. 大连:大连理工大学, 2006.
［4］邓丽萍,罗智勇. 基于半监督CRF的跨领域中文分词［J］. 中文信息学报, 2017,31(4):9-19.
［5］ JIANG H X, DONG Z. An Double Hidden HMM and an CRF for Segmentation Tasks with Pinyins Finals［EB/OL］. ［2018-04-03］.http://www.anthology.aclweb.org/W/W10/W10-4129.pdf.
［6］许华婷. 基于Active Learning的中文分词领域自适应方法的研究［D］. 北京:北京交通大学, 2015.
［7］韩冬煦,常宝宝. 中文分词模型的领域适应性方法［J］. 计算机学报, 2015,38(2):272-281.
［8］ JIN K L, NG H T, GUO W Y. A maximum entropy approach to Chinese word segmentation［C］// Proceedings of the 4th Sighan Workshop on Chinese Language Processing. 2005.
［9］ WANG Y O, KAZAMA J, TSURUOKA Y, et al. Improving Chinese word segmentation and POS tagging with semi-supervised methods using large auto-analyzed data［C］// Proceeding of the 5th International Joint Conference on Natural Language Processing. 2013.
［10］李庆虎,陈玉健,孙家广. 一种中文分词词典新机制——双字哈希机制［J］. 中文信息学报, 2003,17(4):13-18.
［11］费洪晓,康松林,朱小娟,等. 基于词频统计的中文分词的研究［J］. 计算机工程与应用, 2005,41(7):67-68.
［12］丁洁. 基于Lucene的中文分词系统设计与实现［J］. 自动化与仪器仪表, 2016(5):208-210.
［13］沈翔翔,李小勇. 使用无监督学习改进中文分词［J］. 小型微型计算机系统, 2017,38(4):744-748.
［14］徐浩煜,任智慧,施俊,等. 基于链式条件随机场的中文分词改进方法［J］. 计算机应用与软件, 2016,33(12):211-213.
［15］江华丽. 中文分词算法研究与分析［J］. 物联网技术, 2016(1):87-89.
［16］李书豪,陈宇,吕淑宝,等. 基于N-gram模型的中文分词前k优算法［J］. 智能计算机与应用, 2016,6(6):31-35.
［17］孙铁利,刘延吉. 中文分词技术的研究现状与困难［J］. 信息技术, 2009(7):187-189.

[1]	赵盾1, 佘学兵2, 邬昌兴3. 基于BERT-BiLSTM-CRF党建领域命名实体识别[J]. 计算机与现代化, 2024, 0(09): 91-94.
[2]	乔璐, 孙有朝, 吴红兰. 面向飞机故障文本的信息抽取[J]. 计算机与现代化, 2024, 0(03): 61-66.
[3]	王谭, 陈金广, 马丽丽. 融合词典信息和句子语义的中文命名实体识别[J]. 计算机与现代化, 2024, 0(03): 24-28.
[4]	王子琛, 瞿有利. 基于CRF的分区倒排索引压缩算法[J]. 计算机与现代化, 2024, 0(02): 36-42.
[5]	郑立瑞, 肖晓霞, 邹北骥, 刘彬, 周展. 基于BERT的电子病历命名实体识别[J]. 计算机与现代化, 2024, 0(01): 87-91.
[6]	周慧, 徐名海, 许晓东. 基于Attention-BIGRU-CRF的中文分词模型[J]. 计算机与现代化, 2022, 0(08): 7-12.
[7]	王运乾, 王以松, 陈攀峰, 邹龙. 融合注意力机制的药用植物文本命名实体识别[J]. 计算机与现代化, 2021, 0(11): 100-105.
[8]	许梦笛, 王金华. 基于深度学习和语法规约的需求文档命名实体识别[J]. 计算机与现代化, 2021, 0(01): 105-110.
[9]	邵诗韵, 周宇, 杨蕾, 钟茂生, 戴芮, 赵家乐. 基于条件随机场的电力工程标书文本实体识别方法[J]. 计算机与现代化, 2020, 0(12): 72-77.
[10]	张诗林. 基于Bi-LSTM和CRF的中文网购评论中商品属性提取[J]. 计算机与现代化, 2019, 0(02): 93-.
[11]	程树东，胡鹰. 基于BI-LSTM-CRF模型的限定领域知识库问答系统[J]. 计算机与现代化, 2018, 0(07): 53-.
[12]	张磊. 特定领域的命名实体识别方法的研究[J]. 计算机与现代化, 2018, 0(03): 60-.
[13]	张剑，吴青，羊昕旖，王彬聪，吴宣为，徐向英，吕强. 基于条件随机场的农业命名实体识别[J]. 计算机与现代化, 2018, 0(01): 123-126.
[14]	贾遂民，张玉,张腾飞. 一种基于介词用法的灾难事件信息抽取方法[J]. 计算机与现代化, 2015, 0(7): 116-.
[15]	姜文志;顾佼佼;胡文萱;栗飞. 条件随机场模型的应用研究及改进[J]. 计算机与现代化, 2011, 1(11): 55-4.

面向军事领域的中文分词技术研究

Research on Chinese Word Segmentation Technology for Military Field

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价