计算机与现代化 ›› 2023, Vol. 0 ›› Issue (05): 13-19.

• 人工智能 • 上一篇    下一篇

基于小样本学习的藏文命名实体识别

  

  1. (1.西藏大学信息科学技术学院,西藏 拉萨 850000; 2.西藏大学西藏自治区藏文信息技术人工智能重点实验室,西藏 拉萨 850000;
    3.西藏大学藏文信息技术教育部工程研究中心,西藏 拉萨 850000)
  • 出版日期:2023-06-06 发布日期:2023-06-06
  • 作者简介:于韬(1998—),男,辽宁沈阳人,硕士研究生,研究方向:自然语言处理和知识图谱,E-mail: yt_tibet@163.com; 张英(1999—),女,四川资阳人,硕士研究生,研究方向:自然语言处理和预训练语言模型,E-mail: zy375747485@163.com; 通信作者:拥措(1974—),女(藏族),教授,博士,研究方向:藏语自然语言处理,藏文古籍数字化及知识挖掘,E-mail: yongtso@163.com。
  • 基金资助:
    国家重点研发计划重点专项(2017YFB1402200);西藏自治区科技创新基地自主研究项目(XZ2021JR002G);西藏大学研究生高水平人才培养计划项目(2020-GSP-S179)

Tibetan Named Entity Recognition Based on Small Sample Learning

  1. (1. College of Information Science and Technology, Tibet University, Lhasa 850000, China; 2. Key Laboratory of Tibetan Information Technology and Artificial Intelligence of Tibet Autonomous Region,Tibet University, Lhasa 850000, China; 3. Engineering Research Center of Tibetan Information Technology, Ministry of Education,Tibet University, Lhasa 850000, China)
  • Online:2023-06-06 Published:2023-06-06

摘要: 藏文命名实体识别是藏文自然语言处理领域的一项关键技术,其目的是识别文本中的人名、地名及组织机构名。在目前的研究中,深度学习方法需要大量的标注数据是制约模型性能的主要因素,因此本文提出基于小样本学习的藏文命名实体识别方法。针对小样本数据量少导致模型无法充分学习实体特征的问题,本文提出实体特征信息融合方法,在训练过程中将实体位置信息、分词信息与藏文音节信息以维度拼接的方式进行特征融合,通过辅助信息增强实体特征,使得模型可以较好地学习藏文长实体的边界信息,并设计消融实验探究不同特征信息对模型效果的影响。实验结果表明,本文提出的方法有效提高了藏文小样本命名实体识别模型的准确率,相较于基线实验F1值总体提升了22.22~38个百分点。

关键词: 小样本学习, 藏文, 命名实体识别, 实体特征信息融合

Abstract: The task of Tibetan named entity recognition is to identify the names of people, places and organizations in the text. This paper proposed a Tibetan named entity recognition method based on small sample learning. In the training process, the feature fusion of entity location information, word segmentation information and Tibetan syllable information in the form of dimensional splicing could better represent the boundary information of Tibetan long entities. Ablation experiments were designed to explore the effect of different feature information on model performance. The experimental results show that our method is effective, and the F1 value is improved by 22.22~38 percentage points compared with the baseline experiment.

Key words: small sample learning, Tibetan, named entity recognition, entity feature information fusion