混合多尺度卷积结合双层LSTM语音情感识别

计算机与现代化 ›› 2023, Vol. 0 ›› Issue (01): 63-68.

混合多尺度卷积结合双层LSTM语音情感识别

（新疆师范大学计算机科学技术学院，新疆乌鲁木齐 830054）

出版日期:2023-03-02 发布日期:2023-03-02
作者简介:梁科晋（1995—），男，山西晋城人，硕士研究生，研究方向:自然语言处理，情感倾向性分析，E-mail: 1762429844@qq.com；通信作者: 张海军（1973—），男，吉林四平人，教授，硕士生导师，博士，研究方向:自然语言处理，情感计算，人工智能，E-mail: ustczhj@qq.com；刘雅情（1996—），女，辽宁大连人，硕士研究生，研究方向:自然语言处理，E-mail: 1109701435@qq.comq；张昱（1995—），女，陕西商洛人，硕士研究生，研究方向:自然语言处理，E-mail: 605178537@qq.com；王月阳（1996—），男，河北沧州人，硕士研究生，研究方向:自然语言处理，E-mail: 1609166606@qq.com。
基金资助:
新疆维吾尔自治区创新环境建设专项（人才专项计划天山雪松计划）（2019XS08）；国家自然科学基金-新疆联合基金重点项目(U1703261)

Speech Emotion Recognition of Hybrid Multi-scale Convolution Combined with Dual-layer LSTM

（College of Computer Science and Technology， Xinjiang Normal University， Urumqi 830054， China）

Online:2023-03-02 Published:2023-03-02

摘要/Abstract

摘要： 针对深度学习算法在语音情感特征提取方面的不足以及识别准确率不高的问题，本文通过提取语音数据中有效的情感特征，并将特征进行多尺度拼接融合，构造语音情感特征，提高深度学习模型对特征的表现能力。传统递归神经网络无法解决语音情感识别长时依赖问题，本文采用双层LSTM模型来改进语音情感识别效果，提出一种混合多尺度卷积与双层LSTM模型相结合的模型。实验结果表明，在中科院自动化所汉语情感数据库（CASIA）和德国柏林情感公开数据集（Emo-DB）下，本文所提语音情感识别模型相较于其他情感识别模型在准确率方面有较大提高。

关键词: 语音情感识别, 深度学习, 神经网络, 多尺度卷积, 长短时序网络

Abstract: Aiming at the deficiencies of deep learning algorithms in the extraction of speech emotion features and the low recognition accuracy， the effective emotion features in the speech data are extracted, and the features are spliced and merged at multiple scales to construct speech emotion features and improve the deep learning model’s performance. Traditional recurrent neural networks cannot solve the long-term dependence problem of speech emotion recognition. The dual-layer LSTM model is used to improve the effect of speech emotion recognition， and a model combining hybrid multi-scale convolution and dual-layer LSTM model is proposed. Experimental results show that under the Chinese Emotion Database（CASIA） of the Institute of Automation of the Chinese Academy of Sciences and the Berlin Emotion Open Data Set（Emo-DB）， compared with other emotion recognition models， the speech emotion recognition model proposed in this article has a great improvement in accuracy.

Key words: speech emotion recognition, deep learning, neural network, multi-scale convolution, long and short time series network

梁科晋, 张海军, 刘雅情, 张昱, 王月阳. 混合多尺度卷积结合双层LSTM语音情感识别[J]. 计算机与现代化, 2023, 0(01): 63-68.

LIANG Ke-jin, ZHANG Hai-jun, LIU Ya-qing, ZHANG Yu, WANG Yue-yang. Speech Emotion Recognition of Hybrid Multi-scale Convolution Combined with Dual-layer LSTM[J]. Computer and Modernization, 2023, 0(01): 63-68.

参考文献

［1］高帆，张雪英，黄丽霞，等. 基于DBM-LSTM的多特征语音情感识别［J］. 计算机工程与设计， 2020，41（2）:465-470.
［2］黄永明，章国宝，李雄，等. 全局特征及弱尺度融合策略的小样本语音情感识别［J］. 声学学报， 2012，37（3）:330-338.
［3］张林娟. 面向语音情感识别的有效组合特征的分析与模型验证［D］. 天津:天津大学， 2018.
［4］刘明珠，李晓琴，陈洪恒. 基于支持向量机的语音情感识别算法研究［J］. 哈尔滨理工大学学报， 2019，24（4）:118-126.
［5］王胜. 基于隐马尔可夫模型的语音情感识别［J］. 黑龙江科技信息， 2010（28）:2.
［6］叶吉祥，涂晴宇. 基于重要性评分的多级随机森林网络语音情感识别［J］. 长沙理工大学学报（自然科学版）， 2019，16（3）:77-83.
［7］任浩，叶亮，李月，等. 基于多级SVM分类的语音情感识别算法［J］. 计算机应用研究， 2017，34（6）:1682-1684.
［8］吕惠炼，胡维平. 基于端到端深度神经网络的语音情感识别研究［J］. 广西师范大学学报（自然科学版）， 2021，39（3）:20-26.
［9］姜芃旭，傅洪亮，陶华伟. 一种基于卷积神经网络特征表征的语音情感识别方法［J］. 电子器件， 2019，42（4）:998-1001.
［10］刘芳，吴志威，杨安喆，等. 基于多尺度特征融合的自适应无人机目标检测［J］. 光学学报， 2020，40（10）：127-136.
［11］周悦，曾上游，杨远飞，等. 基于分组模块的卷积神经网络设计［J］. 微电子学与计算机， 2019，36（2）:68-72.
［12］张会云，黄鹤鸣. 基于异构并行神经网络的语音情感识别［J］. 计算机工程， 2022，48（4）:113-118.
［13］胡德生，张雪英，张静，等. 基于主辅网络特征融合的语音情感识别［J］. 太原理工大学学报， 2021，52（5）:769-774.
［14］王怡，王黎明，柴玉梅. 融合多特征的语音情感识别方法［J］. 小型微型计算机系统， 2022，43（6）:1232-1239.
［15］ YOON S， BYUN S， JUNG K. Multimodal speech emotion recognition using audio and text［C］// IEEE SLT 2018. 2018. DOI:10.1109/SLT.2018.8639583.
［16］陈永，郭红光，艾亚鹏. 基于多尺度卷积神经网络的单幅图像去雾方法［J］. 光学学报， 2019，39（10）：141-150.
［17］张威，翟明浩，黄子龙，等. SE-MCNN-CTC的中文语音识别声学模型［J］. 应用声学， 2020，39（2）:223-230.
［18］周晓云. 基于多尺度卷积神经网络的出行目的地预测技术研究［D］. 北京：北京邮电大学， 2019.
［19］李雁群. 中文嵌套命名实体识别及其关系抽取［D］. 苏州:苏州大学， 2018.
［20］周永生. 基于多尺度CNN特征的人体行为识别算法研究［D］. 重庆:西南大学， 2018.
［21］曾润华，张树群. 改进卷积神经网络的语音情感识别方法［J］. 应用科学学报， 2018，36（5）:837-844.
［22］缪裕青，邹巍，刘同来，等. 基于参数迁移和卷积循环神经网络的语音情感识别［J］. 计算机工程与应用， 2019，55（10）:135-140.
［23］冯天艺，杨震. 采用多任务学习和循环神经网络的语音情感识别算法［J］. 信号处理， 2019，35（7）:1133-1140.
［24］ CHEN M Y， HE X J， YANG J， et al. 3-D convolutional recurrent neural networks with attention model for speech emotion recognition［J］. IEEE Signal Processing Letters， 2018，25（10）：1440-1444.
［25］ JERMSITTIPARSERT K， ABDURRAHMAN A， SIRIAT-
TAKUL P， et al. Pattern recognition and features selection for speech emotion recognition model using deep learning［J］. International Journal of Speech Technology，2020，23（4）：799-806.
［26］ ZSEVEN T. A novel feature selection method for speech emotion recognition［J］. Applied Acoustics， 2019，146（146）：320-326.
［27］乔栋，陈章进，邓良，等. 改进语音处理的卷积神经网络中文语音情感识别［J］. 计算机工程， 2022，48（2）:281-290.

[1]	何思达, 陈平华. 基于意图的轻量级自注意力序列推荐模型[J]. 计算机与现代化, 2024, 0(12): 1-9.
[2]	张晓东1, 白广芝1, 李敏1, 李昊洋2. 基于经验小波变换的油气井产量预测模型 [J]. 计算机与现代化, 2024, 0(12): 53-58.
[3]	刘宝宝, 杨菁菁, 陶露, 王贺应. 基于注意力的DSMSC的遥感图像场景分类[J]. 计算机与现代化, 2024, 0(12): 72-77.
[4]	陈亮, 李诚, 易伟, 熊伟, 汪晓帆, 唐海东. 基于毫米波雷达与视觉融合的电力现场安全帽佩戴检测[J]. 计算机与现代化, 2024, 0(12): 100-107.
[5]	祁贤, 刘大铭, 常佳鑫. 基于改进自注意力机制的多视图三维重建[J]. 计算机与现代化, 2024, 0(11): 106-112.
[6]	陈凯1, 李宜汀1, 2, 全华凤1 . 基于改进YOLOv8的河道废弃瓶检测方法[J]. 计算机与现代化, 2024, 0(11): 113-120.
[7]	杨骏1, 胡为1, 朱文福2. 基于改进MobileNetV3的视觉SLAM回环检测算法[J]. 计算机与现代化, 2024, 0(10): 21-26.
[8]	王莹莹, 郝潇. 基于Res2Net和递归门控卷积的细粒度图像分类[J]. 计算机与现代化, 2024, 0(10): 74-79.
[9]	史星宇1, 李强2, 庄莉3, 梁懿3, 王秋琳3, 陈锴3, 伍臣周3, 常胜1. 一种面向工业部署的目标检测模型蒸馏技术[J]. 计算机与现代化, 2024, 0(10): 93-99.
[10]	马钰, 杨勇, 任鸽, 帕力旦·吐尔逊. 基于GCN和微调BERT的作文自动评分方法[J]. 计算机与现代化, 2024, 0(09): 33-37.
[11]	陈雪松1, 李衡1, 王浩畅2. 结合注意力机制和Mengzi模型的短文本分类[J]. 计算机与现代化, 2024, 0(09): 101-106.
[12]	张泽1, 张建权2, 3, 周国鹏2, 3. 基于改进YOLOv8s的摄像头模组缺陷检测[J]. 计算机与现代化, 2024, 0(09): 107-113.
[13]	程亚子1, 雷亮1, 2, 陈瀚1, 赵毅然1. 基于转置注意力的多尺度深度融合单目深度估计[J]. 计算机与现代化, 2024, 0(09): 121-126.
[14]	程萌, 李浩. 改进YOLOv5s的落叶树鸟巢检测方法[J]. 计算机与现代化, 2024, 0(08): 24-29.
[15]	王梦溪, 李峻. 老年人跌倒检测技术研究综述[J]. 计算机与现代化, 2024, 0(08): 30-36.