针对传统的音乐情感分类因特征提取困难而导致模型分类准确率不高和人工工作量大等问题,提出一种基于优化深度残差网络的多模态音乐情感分类方法。该方法首先利用多模态翻译将难以提取特征的音乐音频模态转换为易于操作的图像模态;同时在深度残差网络的基础上对网络输入层的卷积核大小和残差块的快捷连接进行优化改进,减少了信息流失,缩短了计算时间;此外,为了缓解Softmax分类器存在类内离散、类间聚集这一弊端,引入了Center loss函数的变体来提升Softmax分类函数的性能。实验结果表明了本文优化后的残差网络模型的有效性和鲁棒性,相比于原始的残差网络,其对音乐情感的分类准确率提升了4.27个百分点。