计算机与现代化 ›› 2025, Vol. 0 ›› Issue (04): 1-5.doi: 10.3969/j.issn.1006-2475.2025.04.001
• 人工智能 • 下一篇
摘要: 采用CNN与Transformer相结合的方法,利用Transformer能获取全局特征信息的优势,提高模型上下文信息感知能力,从而改善模型精度。本文提出一种新颖的基于混合Transformer的视线估计模型ResNet-MHSA (RN-SA),该模型将ResNet18中部分3×3空间卷积层替换为由一个1×1的空间卷积层和MHSA(Multi-Head Self-Attention)层组合而成的块,并在模型结构中添加DropBlock机制,以增加模型的鲁棒性。实验结果表明,RN-SA模型在减少参数量的同时改善了模型的精度,与目前较好的模型GazeTR-Hybrid相比,在参数数量减少15.8%的情况下,在EyeDiap和Gaze360数据集上精度分别提高了4.1%和3.7%。因此,CNN与Transformer相结合的方式能有效应用于视线估计任务中。
中图分类号: