计算机与现代化

• 应用与开发 • 上一篇    

基于条件随机场的农业命名实体识别

  

  1. 扬州大学信息工程学院,江苏扬州225000
  • 收稿日期:2017-05-04 出版日期:2018-01-23 发布日期:2018-01-24
  • 作者简介:张剑(1996-),男,江苏苏州人,扬州大学信息工程学院本科生,研究方向:自然语言处理; 吴青(1996-),男,江苏无锡人,本科生,研究方向:自然语言处理; 羊昕旖(1996-),女,本科生,研究方向:自然语言处理; 王彬聪(1996-),女,本科生,研究方向:自然语言处理; 吴宣为(1977-),男,讲师,硕士,研究方向:自然语言处理; 徐向英(1979-),讲师,硕士,研究方向:农业信息化; 吕强(1985-),讲师,博士,研究方向:人工智能,机器学习,自动规划与调度。
  • 基金资助:
    国家自然科学基金青年基金资助项目(61502412); 江苏省自然科学基金青年基金资助项目(BK20150459); 扬州大学生科技创新基金资助项目(X20160418)

Chinese Agricultural Named Entity Recognition Based on Conditional Random Fields

  1. College of Information Engineering, Yangzhou University, Yangzhou 225000, China
  • Received:2017-05-04 Online:2018-01-23 Published:2018-01-24

摘要: 为满足农业命名实体领域中多样而精确的需求,本文采用基于条件随机场的命名实体识别,将农业命名实体分为病虫害、作物、化肥及农药4种命名实体,并用自定义标注集对其进行标注,以ICTCLAS分词系统来对收集到的语料进行分词,通过添加多种不同的特征以提高识别率。最终训练得到的模型对各命名实体识别的准确率达到了93%以上,召回率达到了84%以上,证明对农业命名实体细致划分为多个实体是可行的。

关键词: 中文命名实体识别, 条件随机场, 农业

Abstract: To meet the requirement of diversification, the paper introduces named entities model based on conditional random fields, divides agricultural named entities into 4 classes, which are diseases and pests, crops, chemical fertilizer, pesticide and annotates. These entities are labeled with custom annotation set. It is segmented collected corpus with ICTCLAS segment system and added features to raise the recognition rate. Ultimately, the accuracy rate reaches over 93% and the recalling rate reaches over 84%. This result confirms that recognizing multiple entities after classifying them is feasible.

Key words: Chinese named entity recognition, conditional random field, agriculture

中图分类号: