%0 Journal Article
%A 李健
%A 张克亮
%A 唐亮
%A 夏榕璟
%A 任静静
%T 面向中文命名实体识别任务的数据增强
%D 2022
%R 
%J 计算机与现代化
%P 1-6
%V 0
%N 04
%X 在低资源自然语言处理(NLP)任务中，现有的数据不足以训练一个理想的深度学习模型，文本数据增强是提高此类任务训练效果的有效方法。针对中文命名实体识别任务，提出一组基于实例替换的数据增强方法。将训练样本中的命名实体替换为另一个同类实体而保持标签不变，具体算法包括：1）实体之间交叉互换；2）实体内部同义替换；3）中文人名自动生成。分别在PeopleDailyNER和CLUENER2020数据集上应用上述方法，并对BERT+CRF模型进行增强训练。实验结果表明，仅添加与原始数据等量的增强数据，在小样本条件下能使模型F1值在2个数据集上分别提升约10%和7%，随着样本数据的增加，训练效果仍有明显提升。<br>
<div>
	<br>
</div>
%U http://www.c-a-m.org.cn/CN/abstract/article_5610.shtml