计算机与现代化 ›› 2025, Vol. 0 ›› Issue (01): 86-93.doi: 10.3969/j.issn.1006-2475.2025.01.014
摘要: 棋类游戏一直是深度强化学习的研究热点,因为棋盘和棋类游戏规则具备较高复杂度,寻求棋类游戏的最优解需要耗费大量时间。现阶段的棋类游戏算法采用的基于动作概率分布的动作选择方法导致自我对弈效率低下,且策略和价值需要独立的神经网络计算,样本利用率低、训练耗时长。本文就上述问题提出一种融合策略价值网络的高效棋类游戏算法,以耿贝尔最大值方法替代原本的动作选择方法,且采用ε-greedy算法和模拟退火算法平衡动作搜索中探索与利用的关系。实验结果表明:相较于各种经典棋类游戏算法,本文提出的算法在对战传统算法时胜率达到90%以上。在蒙特卡洛模拟次数较小的情况下,引入耿贝尔最大值采样训练得到的模型的埃洛等级分远高于传统动作选择方法。在训练达到3000埃洛等级分的前提下,本文提出的算法能节约50%的时间。
中图分类号: