计算机与现代化

• 信息安全 • 上一篇    下一篇

基于最优初始值Q学习的电力信息网络防御策略学习算法

  

  1. (1.国网江苏省电力有限公司苏州供电分公司,江苏苏州215004;
    2.苏州大学计算机科学与技术学院,江苏苏州215006)
  • 收稿日期:2018-04-26 出版日期:2018-11-22 发布日期:2018-11-23
  • 作者简介:景栋盛(1981-),男,江苏苏州人,国网江苏省电力有限公司苏州供电分公司高级工程师,研究方向:智能信息系统,信息安全; 杨钰(1978-),男,江苏盐城人,高级工程师,研究方向:智能信息系统,信息安全; 薛劲松(1977-),男,江苏常熟人,高级工程师,研究方向:信息安全,计算机应用; 朱斐(1978-),男,江苏苏州人,苏州大学计算机科学与技术学院副教授,博士,研究方向:机器学习,人工智能,智能信息系统; 吴文(1994-),男,江苏苏州人,硕士研究生,研究方向:强化学习,人工智能。
  • 基金资助:
    国家自然科学基金资助项目(61303108, 61373094); 江苏省高校自然科学研究项目重大项目(17KJA520004)

A Defense Policy Learning Algorithm for Power Information Networks Based on Optimal Initial Value Q-learning

  1. (1. Suzhou Power Supply Branch, State Grid Jiangsu Electric Power Limited Company, Suzhou 215004, China;
    2. School of Computer Science and Technology, Soochow University, Suzhou 215006, China)
  • Received:2018-04-26 Online:2018-11-22 Published:2018-11-23

摘要: 电力信息网络的安全与稳定是当今社会发展的重要保障,随着电力信息网络越来越庞大和复杂,如何高效合理地建立电力信息防护网络成为研究人员关注的重点之一。在自动化电力信息网络中,其防御策略通常缺乏统筹管理,只能针对少数设备进行防护,存在着更新速度慢、更新周期长、无法自动更新和资源分配不均等问题。本文提出一种基于最优初始值Q学习的电力信息网络防御策略学习算法,该算法以强化学习中的Q学习算法为框架,利用生成对抗网络思想,通过攻击智能体和防御智能体的模拟对抗学习安全策略。算法中的防御智能体使用Q学习方法更新其防御策略,利用历史防御经验在线改进防御策略,避免了人为手动操作。在训练中引入最优初始值极大加快了系统防御性能的训练速度。实验结果验证了算法的有效性。

关键词: 电力信息网络, 最优初始值, Q学习, 网络防御

Abstract:  Maintaining the security and stability of the power information network is an important guarantee for today’s social development. With the development of the power information network, the researchers now focus on how to establish an efficient and stable power information protection network. The defense strategy used in an automated power information network system used to have problems such as slow update speed, long update cycle, inability to update automatically, and uneven resource allocation. The paper proposed a power information network defense algorithm based on optimal initial value Q learning. The method uses the classical reinforcement learning algorithm. Defensive strategy is obtained through simulated confrontation. Defensive agent uses Q-learning algorithm in order to utilize the historical experience. The optimistic initial values could greatly accelerate the training speed of the system’s defensive performance. The experiment verifies the effectiveness of the algorithm.

Key words: power information network, optimal initial values, Q-learning, network defense

中图分类号: