计算机与现代化 ›› 2025, Vol. 0 ›› Issue (07): 69-76.doi: 10.3969/j.issn.1006-2475.2025.07.010
摘要: 摘要:FreeVC模型在语音克隆技术领域表现出色。但是由于语音序列中包含复杂的语音特征变化和信息,例如音色、风格等,FreeVC模型中的Speaker Encoder模块只使用单一的LSTM网络难以准确地提取和表示说话人信息,这会导致模型处理语音序列的性能下降,影响声音转换质量和准确性。并且FreeVC模型使用传统的解码器,其中上采样(反卷积)操作细节丢失,导致重建还原的音频咬字细节会模糊不清,从而产生音频伪影。针对这些问题,本文提出一种基于自注意力机制的说话人编码器与SA-Decoder的语音克隆方法FreeVC-SA。该方法将说话人的梅尔谱作为输入,在LSTM网络上加入自注意力机制有助于模型更好地捕捉长距离依赖关系,更为准确地提取说话人的音色、风格等特征。使用SA-Decoder可以很好地解决局部感受野限制问题,使得重建生成的语音克隆效果更加真实、清晰。实验结果表明,与所有基线模型相比,FreeVC-SA语音克隆的自然度相似性和情感相似性均有明显提升,字错误率和字符错误率均有明显下降。
中图分类号: