计算机与现代化 ›› 2025, Vol. 0 ›› Issue (04): 42-49.doi: 10.3969/j.issn.1006-2475.2025.04.007
摘要: 在多智能体环境中,强化学习模型在应对对抗攻击方面存在安全漏洞,容易遭受对抗攻击。其中基于对抗策略的对抗攻击由于不直接修改受害者的观测,对其进行防御的难度更大。为解决这一问题,本文提出一种基于图神经网络的对抗策略检测算法,旨在有效识别智能体间的恶意行为。通过在智能体协作过程中采用替代对抗策略训练图神经网络作为对抗策略检测器,根据智能体局部观测计算其他智能体的信任分数来检测对抗策略。本文的检测方法提供2种粒度的检测:对局级别的对抗检测以非常高的精度检测对抗策略;时间步级别的对抗检测可以在对局初期进行对抗检测,及时发现对抗攻击。在星际争霸平台上进行一系列实验,实验结果表明,本文所提出的检测方法在检测最先进的基于对抗策略的对抗攻击时最高可以达到1.0的AUC值,优于最先进的检测方法。本文检测方法比现有的方法能够更快地检测出对抗策略,最快可以在第5个时间步检测出对抗攻击。将本文检测方法应用于对抗防御,使受攻击对局提升最高61个百分点的胜率。此外实验结果显示了本文的算法具有很强的泛化性,本文的检测方法无需再次训练,可以直接用来检测基于观测的对抗攻击。因此,本文提出的方法为多智能体环境中的强化学习模型提供了一种有效的对抗攻击检测机制。
中图分类号: