计算机与现代化 ›› 2024, Vol. 0 ›› Issue (06): 19-24.doi: 10.3969/j.issn.1006-2475.2024.06.004
摘要:
摘要:针对目前在藏汉机器翻译中使用传统数据增强方法会导致数据的语法和语义损失等问题,本文在传统数据增强方法的基础上,提出将句子困惑度与语义相似度相结合的伪数据筛选方法,通过困惑度降低伪数据的语法错误率,同时通过语义相似度减少伪数据的语义偏差,以更好地缓解低资源下平行数据质量欠佳和稀缺等问题。本文使用伪数据筛选方法在藏汉、英汉2对双向语种上进行实验,结果比传统的数据增强方法的BLEU值分别提升了0.11、0.53、1.18、1.08。由此表明,本文提出的伪数据筛选方法有效地改善了翻译模型在语法和语义上的缺陷,从而增强了翻译系统的性能以及提升了翻译模型的泛化能力,验证了本文方法的有效性。
中图分类号: