基于DNN与基音周期的说话人识别

doi:10.3969/j.issn.1006-2475.2020.01.023

计算机与现代化 ›› 2020, Vol. 0 ›› Issue (01): 122-.doi: 10.3969/j.issn.1006-2475.2020.01.023

• 模式识别 • 上一篇

基于DNN与基音周期的说话人识别

(上海工程技术大学机械与汽车工程学院,上海201620)

收稿日期:2019-05-20 出版日期:2020-02-13 发布日期:2020-02-13
作者简介:张学祥(1993-)，男，安徽芜湖人，硕士研究生,研究方向：深度学习，语音识别，E-mail: 2259934085@qq.com；雷菊阳(1966-)，男，副教授，博士，研究方向：分布式控制，智能控制及贝叶斯推理，E-mail: leijuyang@sina.com。

Speaker Recognition Based on DNN and Pitch Period

(School of Mechanical and Automobile Engineering, Shanghai University of Engineering Science, Shanghai 201620, China)

Received:2019-05-20 Online:2020-02-13 Published:2020-02-13

摘要/Abstract

摘要： 传统说话人识别框架大多建立在高斯混合模型（GMM）上的，然而这种浅层学习模型不能有效地表征数据特征之间的高阶相关性，识别效果较差。本文提出一种基于深度神经网络（Deep Neural Network， DNN）与基音周期（Pitch Period， PP）相结合的说话人识别方法，模型主线识别以对数梅尔滤波器组特征参数作为DNN的输入，通过训练DNN模型提取说话人的声纹特征；针对DNN模型阈值设定人的主观性影响，利用动态时间规整技术匹配说话人基音周期进行辅助识别。实验结果表明，这种双重识别方法等错误率可以达到1.6%，较DNN系统与EM-GMM系统等错误率分别降低了1.2%和2.4%，并且在噪声环境中仍具有较好的鲁棒性。

关键词: 深度神经网络, 基音周期；说话人识别；动态时间规整, 双重识别

Abstract: Traditional speaker recognition frameworks are mostly based on the Gauss mixture model (GMM), but this shallow learning model can not effectively represent the high-order correlation between data features, thus the recognition effect is poor. In this paper, a speaker recognition method based on Deep Neural Network (DNN) and Pitch Period (PP) is proposed. The logarithmic Meier filter bank feature parameters are used as the input of DNN for mainline identification, and the voiceprint characteristics of the speaker are extracted through training DNN model. To eliminate the subjective influence of threshold setting in DNN model, dynamic time warping technology is used to match pitch period of the speaker for assistant recognition. The experimental results show that equal error rate (EER) of this dual recognition method reaches 1.6%, which decreases respectively by 1.2% and 2.4% compared with DNN system and EM-GMM system, and this method still has good robustness in noise environment.

Key words: deep neural network, pitch period, speaker recognition, dynamic time warping, dual recognition

中图分类号:

TP39

张学祥，雷菊阳. 基于DNN与基音周期的说话人识别[J]. 计算机与现代化, 2020, 0(01): 122-.

ZHANG Xue-xiang, LEI Ju-yang. Speaker Recognition Based on DNN and Pitch Period[J]. Computer and Modernization, 2020, 0(01): 122-.

参考文献

［1］徐珑婷. 基于稀疏分解的说话人识别技术研究［D］. 南京：南京邮电大学, 2017.
［2］方祥. 基于多信息融合的说话人识别［D］. 哈尔滨：哈尔滨理工大学, 2018.
［3］李浩,鲍鸿,张晶. 基于深度神经网络的说话人识别模型研究［J］. 电脑与信息技术, 2018,26(5):1-3.
［4］曾霞霞,徐戈,吴征远. 基于MFCC特征组合参数的说话人识别研究［J］. 集美大学学报(自然科学版), 2016,21(4):317-320.
［5］陈爱月,徐波,申子健. 基于高斯混合模型及TIMIT语音库的说话人身份识别［J］. 信息通信, 2017,30(7):51-52.
〖HJ1.6mm〗
［6］俞利强. 基于ANN的SR技术研究及在信息安全中的应用［D］. 西安：西安电子科技大学, 2009.
［7］ LECUN Y, BENGIO Y， HINTON G E. Deep learning［J］. Nature, 2015,521(11):436-444.
［8］邱晓康. 深度学习的发展与应用［J］. 科技展望, 2016,26(33):93,95.
［9］王应晨,段修生. 深度学习及其在装备故障诊断中的研究进展［J］. 战术导弹技术, 2018,38(5):25-30.
［10］关健,王敏. 基于深度神经网络和多元损失的说话人识别［J］. 电子测量技术, 2019,42(5):39-43.
［11］MOHAMED A R, HINTON G, PENN G. Understanding how deep belief networks perform acoustic modelling［C］// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. 2012:4273-4276.
［12］LI J, YU D, HUANG J T, et al. Improving wideband speech recognition using mixed-bandwidth training data in CD-DNN-HMM［C］// IEEE Spoken Language Technology Workshop. 2012:131-136.
［13］张景扩,彭龑. 一种基于倒谱法的基音周期检测改进算法［J］. 电声技术, 2017,41(Z2):113-116.
［14］陈超,陈善继. 一种基音周期检测中减小中值平滑误差的方法［J］. 新疆师范大学学报(自然科学版), 2016,34(2):75-79.
［15］孙婷婷,章小兵. 一种基于小波包变换加权自相关的基音检测算法［J］. 计算机工程与科学, 2017,39(8):1525-1529.
［16］王晨. 非特定人语音识别特征提取算法的研究［D］. 合肥：安徽工业大学, 2018.
［17］俞栋,邓力. 解析深度学习:语音识别实践［M］. 俞凯,钱彦旻,译. 北京:电子工业出版社, 2016:129-130.
［18］HINTON G E. Learning multiple layers of representation［J］. Trends in Cognitive Sciences, 2007,11(10):428-434.
［19］HINTON G E. A practical guide to training restricted Boltzmann machines［M］// Neural Networks:Tricks of the Trade. Springer, Berlin, Heidelberg, 2012:599-619.
［19］周炳良,邓立新,洪民. 一种新的基于DTW的孤立词语音识别算法［J］. 计算机技术与发展, 2018,28(4):119-123.
［20］邵妍,霍春宝,金曦. 基于改进的高斯混合模型算法的说话人识别［J］. 辽宁工业大学学报(自然科学版), 2010,30(1):8-10.
［21］赵立辉,毛竹,霍春宝，等. 基于GMM-SVM的说话人识别系统研究［J］. 工矿自动化, 2014,41(5):49-53.
［22］〖JP2〗吴明辉,胡群威,李辉. 一种基于深度神经网络的话者确认方法［J］. 计算机应用与软件, 2016,33(6):159-162.
［23］王昕,张洪冉. 基于DNN处理的鲁棒性I-Vector说话人识别算法［J］. 计算机工程与应用, 2018,54(22):167-172.

[1]	陈子健, 段春红. 面向在线学习情境的认知情绪面部表情识别[J]. 计算机与现代化, 2023, 0(10): 92-98.
[2]	崔少国, 张岗, 王奥迪. 基于感知注意力的深度交叉网络推荐模型[J]. 计算机与现代化, 2023, 0(07): 54-60.
[3]	刘玉航１, 曲媛１, 徐英豪１, 朱习军１, 于岩. 基于改进深度神经网络的心血管疾病预测[J]. 计算机与现代化, 2022, 0(06): 75-79.
[4]	卢悦, 曹春萍. 融合用户历史传播信息的微博谣言检测[J]. 计算机与现代化, 2022, 0(06): 37-42.
[5]	甄超, 田宇, 季坤, 张征凯, 黄道友. 基于FFT与DNN的齿轮箱油温数据预测[J]. 计算机与现代化, 2022, 0(04): 17-20.
[6]	王建华, 冉煜琨. 适用于便携式设备的深度神经网络眼动跟踪[J]. 计算机与现代化, 2021, 0(08): 58-63.
[7]	彭路1,朱君2,邹云峰2. 基于深度神经网络的电力客户诉求预判[J]. 计算机与现代化, 2020, 0(05): 22-.
[8]	杨永娇,唐亮亮. 一种基于深度Encoder-Decoder神经网络的智能#br# 电网数据服务器流量异常检测算法[J]. 计算机与现代化, 2019, 0(10): 66-.
[9]	更藏措毛1,2,黄鹤鸣1,2. 双向循环神经网络在语音识别中的应用[J]. 计算机与现代化, 2019, 0(10): 1-.

基于DNN与基音周期的说话人识别

Speaker Recognition Based on DNN and Pitch Period

PDF (PC)

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 9

编辑推荐

Metrics

本文评价