计算机与现代化 ›› 2025, Vol. 0 ›› Issue (06): 28-33.doi: 10.3969/j.issn.1006-2475.2025.06.005
摘要: 摘要:在语音处理领域,多通道语音分离技术旨在从多通道混合语音中有效分离出不同说话人的语音信号。然而,现有方法在处理多通道特征点间长距离依赖关系时存在不足。针对此问题,本文提出一种新颖的基于自我引导的Transformer(SG-former)的多通道语音分离方法,旨在构建一个自适应细粒度的全局注意力机制。SG-former的核心机制在于通过显著性图对Token进行重分配。在此框架下,显著区域能够细粒度地提取关键信息,而次要区域则采取粗粒度提取方式以降低计算成本。显著性图的生成依赖于混合尺度的自注意机制,该机制能够准确捕捉多通道特征点间的长距离依赖关系。为了验证所提方法的有效性,在空间化的WSJ0-2MIX数据库上进行了实验。实验结果显示,SG-former方法相较于基线Beam-Guided TasNet方法,在信号失真比提升(Signal-to-Distortion Ratio Improvement, SDRi)上取得了显著的优势,达到了20.34 dB的提升。这一结果充分表明了SG-former在处理多通道语音分离问题中,特别是在建立长距离依赖关系方面的优越性,且在性能上优于现有技术,为多通道语音分离领域的研究提供了新的思路和方法。
中图分类号: