计算机与现代化 ›› 2024, Vol. 0 ›› Issue (09): 20-24.doi: 10.3969/j.issn.1006-2475.2024.09.004
摘要: 语音增强的主要目的是去除语音信号中的噪声等无关信号,是许多语音处理任务的前端处理部分,在视频会议、视频直播等领域都有着重要的作用。然而目前大多数语音增强的研究主要集中在语音帧的长期上下文依赖关系建模上,没有考虑语音在时频域上的能量分布特征。本文提出一种基于时频域的自注意力模块,使得在模型建模过程中可以显式引入对语音分布特性的先验思考,并与残差时序卷积网络相结合,构成基于时频域自注意力的残差时序卷积网络模型。为了验证该模型的有效性,本文使用语音增强领域中常用的2个训练目标IRM和PSM进行实验,实验结果表明,该模型显著提高了语音增强领域中4种常用的客观评价指标,明显优于其他基准模型。
中图分类号: