复杂噪声环境下语音识别研究

计算机与现代化 ›› 2021, Vol. 0 ›› Issue (09): 68-74.

复杂噪声环境下语音识别研究

(1.青海师范大学计算机学院,青海西宁810008;2.藏文信息处理教育部重点实验室,青海西宁810008)

出版日期:2021-09-14 发布日期:2021-09-14
作者简介:张允耀(1998—),男,山西原平人,硕士研究生,研究方向:模式识别与智能系统,E-mail: 1016751809@qq.com; 黄鹤鸣(1969—),男(藏),青海乐都人,教授,博士,研究方式:模式识别与智能系统,E-mail: 1021489068@qq.com; 张会云(1993—),女,甘肃庆阳人,博士研究生,研究方向:模式识别与智能系统,E-mail: 1406043513@qq.com。
基金资助:
国家自然科学基金资助项目(62066039)

Speech Recognition in Complex Noise Environment

(1. School of Computer Science, Qinghai Normal University, Xining 810008, China;
2. Key Laboratory of Tibetan Information Processing, Ministry of Education, Xining 810008, China)

Online:2021-09-14 Published:2021-09-14

摘要/Abstract

摘要： 语音识别是人机交互的重要方式，针对传统语音识别系统对含噪语音识别性能较差、特征选择不恰当的问题，提出一种基于迁移学习的深度自编码器循环神经网络模型。该模型由编码器、解码器以及声学模型组成，其中，声学模型由堆栈双向循环神经网络构成，用于提升识别性能；编码器和解码器均由全连接层构成，用于特征提取。将编码器结构及参数迁移至声学模型进行联合训练，在含噪Google Commands数据集上的实验表明本文模型有效增强了含噪语音的识别性能，并且具有较好的鲁棒性和泛化性。

关键词: 语音识别, 迁移学习, 自编码器, 联合训练

Abstract: Speech recognition is an important way of human-computer interaction. Aiming at the poor performance of traditional speech recognition systems for noisy speech recognition and inappropriate feature selection, a deep autoencoder recurrent neural network model based on transfer learning is proposed. The model consists of encoder, decoder and acoustic model. Among them, the acoustic model is composed of stack bidirectional recurrent neural network, which is used to improve the recognition performance. The encoder and decoder are composed of full connected layers for feature extraction. The structure and parameters of the encoder are transferred to the acoustic model for joint training, the experimental results on noisy Google commands dataset show that the proposed model can effectively enhance the recognition performance of noisy speech and has good robustness and generalization.

Key words: speech recognition, transfer learning, auto-encoder, joint training

张允耀, 黄鹤鸣, 张会云, . 复杂噪声环境下语音识别研究[J]. 计算机与现代化, 2021, 0(09): 68-74.

ZHANG Yun-yao, HUANG He-ming, ZHANG Hui-yun, . Speech Recognition in Complex Noise Environment[J]. Computer and Modernization, 2021, 0(09): 68-74.

参考文献

［1］刘伟波,曾庆宁,罗瀛,等. 低信噪比环境下语音识别的鲁棒性方法研究［J］. 声学技术, 2019,38(6):650-656.
［2］侯一民,周慧琼,王政一. 深度学习在语音识别中的研究进展综述［J］. 计算机应用研究, 2017,34(8):2241-2246.
［3］许春冬,许瑞龙,周静. 基于自动编码生成对抗网络的语音增强算法［J］. 计算机工程与设计, 2019,40(9):2578-2583.
［4］易江燕,陶建华,刘斌,等. 基于迁移学习的噪声鲁棒语音识别声学建模［J］. 清华大学学报(自然科学版), 2018,58(1):55-60.
［5］ KIM J, EL-KHAMY M, LEE J. Bridgenets: Student-teacher transfer learning based on recursive neural networks and its application to distant speech recognition［C］// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. 2018:5719-5723.
［6］王俊超,黄浩,徐海华,等. 基于迁移学习的低资源度维吾尔语语音识别［J］. 计算机工程, 2018,44(10):281-285.
［7］秦晨光,王海,任杰,等. 基于多任务学习的方言语种识别［J］. 计算机研究与发展, 2019,56(12):2632-2640.
［8］ ZHANG H Y, LIU C G, INOUE N, et al. Multi-task autoencoder for noise-robust speech recognition［C］// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. 2018:5599-5603.
［9］李鹏,杨元维,高贤君,等. 基于双向循环神经网络的汉语语音识别［J］. 应用声学, 2020,39(3):464-471.
［10］ZHANG S C, DO C T, DODDIPATLA R, et al. Learning noise invariant features through transfer learning for robust end-to-end speech recognition［C］// 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. 2020:7024-7028.
［11］李云红,梁思程,贾凯莉,等. 一种改进的DNN-HMM的语音识别方法［J］. 应用声学, 2019,38(3):371-377.
［12］袁非牛,章琳,史劲亭,等. 自编码神经网络理论及应用综述［J］. 计算机学报, 2019,42(1):203-230.
［13］赵淑芳,董小雨. 基于改进的LSTM深度神经网络语音识别研究［J］. 郑州大学学报(工学版), 2018,39(5):63-67.
［14］舒帆,屈丹,张文林,等. 采用长短时记忆网络的低资源语音识别方法［J］. 西安交通大学学报, 2017,51(10):120-127.
［15］白雅雯,古丽拉· 阿东别克. 基于转移的神经网络哈萨克语句法分析［J］. 计算机工程与应用, 2019,55(24):159-163.
［16］傅依娴,芦天亮,马泽良. 基于One-Hot的CNN恶意代码检测技术［J］. 计算机应用与软件, 2020,37(1):304-308.
［17］周文,张世琨,丁勇,等. 面向低维工控网数据集的对抗样本攻击分析［J］. 计算机研究与发展, 2020,57(4):736-745.
［18］聂凡杰. 基于端到端的深度学习目标检测算法研究［D］. 北京:北京邮电大学, 2018.
［19］侯一民,李永平. 基于卷积神经网络的孤立词语音识别［J］. 计算机工程与设计, 2019,40(6):1751-1756.
［20］张钰莎,蒋盛益. 基于MFCC特征提取和改进SVM的语音情感数据挖掘分类识别方法研究［J］. 计算机应用与软件, 2020,37(8):160-165.
［21］史燕燕. 面向语音识别的抗噪听觉特征提取及优化［D］. 太原:太原理工大学, 2019.
［22］叶硕. 复杂噪声环境下语音识别研究［D］. 武汉:武汉邮电科学研究院, 2020.
［23］高扬. 耳蜗滤波器倒谱特征在语音识别中的应用［D］. 太原:太原理工大学, 2011.

[1]	吕美静1, 年梅1, 张俊1, 2, 付鲁森1. 基于自编码器的网络流量异常检测[J]. 计算机与现代化, 2024, 0(12): 40-44.
[2]	王海洋, 弓同鑫, 杨锦涛, 陈再龙. 多尺度时间编码的工业园区短期负荷预测[J]. 计算机与现代化, 2024, 0(12): 59-65.
[3]	杨骏1, 胡为1, 朱文福2. 基于改进MobileNetV3的视觉SLAM回环检测算法[J]. 计算机与现代化, 2024, 0(10): 21-26.
[4]	何若男1, 范翔2, 陈益1, 姜羽菲1, 曹辉1. 比例优势逻辑回归优化嗓音障碍指数算法[J]. 计算机与现代化, 2024, 0(08): 1-4.
[5]	马永, 王俊, 张子健, 赵煜阳, 张靖, 周明. 面向智慧运维系统的改进YOLOv8行为检测算法[J]. 计算机与现代化, 2024, 0(08): 43-48.
[6]	胡美辰1, 2, 刘敦龙1, 2, 桑学佳1, 2, 张少杰3, 陈乔4. 面向摄像头视频监控的泥石流发生场景智能识别方法[J]. 计算机与现代化, 2024, 0(03): 41-46.
[7]	曾钟静昕, 甘刚. 基于卷积自编码器的侧信道分析[J]. 计算机与现代化, 2024, 0(03): 110-114.
[8]	马彩莎, 焦立男, 柳有权, 李欣. 基于扩张卷积融合时序特征异常行为检测[J]. 计算机与现代化, 2024, 0(02): 75-80.
[9]	胡崇佳, 刘金洲, 方立. 基于无监督域适应的室外点云语义分割[J]. 计算机与现代化, 2024, 0(01): 74-79.
[10]	唐诗琪, 周瑞平, 谢仕斌, 刘梦赤, 肖文, . 基于栈式降噪编码器的跨语言多标签情感分类[J]. 计算机与现代化, 2023, 0(11): 6-12.
[11]	张志霞, 谢宝强. 基于FCGA-LSTM与迁移学习的天然气负荷预测[J]. 计算机与现代化, 2023, 0(07): 7-12.
[12]	杨骏, 王劲林, 倪宏, 盛益强, . 工控网络异常检测中基于灵敏度的动态迁移算法[J]. 计算机与现代化, 2023, 0(05): 46-51.
[13]	刘路瑶, 韩培胜. 基于堆叠降噪自编码器的跨项目软件缺陷数量预测方法[J]. 计算机与现代化, 2023, 0(04): 32-38.
[14]	陈晓雯, 石慧. 基于DWT-SVD与迁移学习的水印检测模型[J]. 计算机与现代化, 2023, 0(04): 111-117.
[15]	白旭光, 刘成忠, 韩俊英, 高嘉蒙, 陈俊康. 基于SE-ResNeXt的苹果叶片分类方法[J]. 计算机与现代化, 2023, 0(01): 18-23.