基于最优初始值Q学习的电力信息网络防御策略学习算法

doi:10.3969/j.issn.1006-2475.2018.11.004

计算机与现代化 ›› 2018, Vol. 0 ›› Issue (11): 18-.doi: 10.3969/j.issn.1006-2475.2018.11.004

基于最优初始值Q学习的电力信息网络防御策略学习算法

（1．国网江苏省电力有限公司苏州供电分公司，江苏苏州215004；
2．苏州大学计算机科学与技术学院，江苏苏州215006）

收稿日期:2018-04-26 出版日期:2018-11-22 发布日期:2018-11-23
作者简介:景栋盛（1981-），男，江苏苏州人，国网江苏省电力有限公司苏州供电分公司高级工程师，研究方向：智能信息系统，信息安全；杨钰（1978-），男，江苏盐城人，高级工程师，研究方向：智能信息系统，信息安全；薛劲松（1977-），男，江苏常熟人，高级工程师，研究方向：信息安全，计算机应用；朱斐（1978-），男，江苏苏州人，苏州大学计算机科学与技术学院副教授，博士，研究方向：机器学习，人工智能，智能信息系统；吴文（1994-），男，江苏苏州人，硕士研究生，研究方向：强化学习，人工智能。
基金资助:
国家自然科学基金资助项目(61303108, 61373094); 江苏省高校自然科学研究项目重大项目(17KJA520004)

A Defense Policy Learning Algorithm for Power Information Networks Based on Optimal Initial Value Q-learning

(1. Suzhou Power Supply Branch, State Grid Jiangsu Electric Power Limited Company, Suzhou 215004, China;
2. School of Computer Science and Technology, Soochow University, Suzhou 215006, China)

Received:2018-04-26 Online:2018-11-22 Published:2018-11-23

摘要/Abstract

摘要： 电力信息网络的安全与稳定是当今社会发展的重要保障，随着电力信息网络越来越庞大和复杂，如何高效合理地建立电力信息防护网络成为研究人员关注的重点之一。在自动化电力信息网络中，其防御策略通常缺乏统筹管理，只能针对少数设备进行防护，存在着更新速度慢、更新周期长、无法自动更新和资源分配不均等问题。本文提出一种基于最优初始值Q学习的电力信息网络防御策略学习算法，该算法以强化学习中的Q学习算法为框架，利用生成对抗网络思想，通过攻击智能体和防御智能体的模拟对抗学习安全策略。算法中的防御智能体使用Q学习方法更新其防御策略，利用历史防御经验在线改进防御策略，避免了人为手动操作。在训练中引入最优初始值极大加快了系统防御性能的训练速度。实验结果验证了算法的有效性。

关键词: 电力信息网络, 最优初始值, Q学习, 网络防御

Abstract: Maintaining the security and stability of the power information network is an important guarantee for today’s social development. With the development of the power information network, the researchers now focus on how to establish an efficient and stable power information protection network. The defense strategy used in an automated power information network system used to have problems such as slow update speed, long update cycle, inability to update automatically, and uneven resource allocation. The paper proposed a power information network defense algorithm based on optimal initial value Q learning. The method uses the classical reinforcement learning algorithm. Defensive strategy is obtained through simulated confrontation. Defensive agent uses Q-learning algorithm in order to utilize the historical experience. The optimistic initial values could greatly accelerate the training speed of the system’s defensive performance. The experiment verifies the effectiveness of the algorithm.

Key words: power information network, optimal initial values, Q-learning, network defense

中图分类号:

TP393

景栋盛1，杨钰1，薛劲松1，朱斐2，吴文2. 基于最优初始值Q学习的电力信息网络防御策略学习算法[J]. 计算机与现代化, 2018, 0(11): 18-.

JING Dong-sheng1， YANG Yu1， XUE Jing-song1， ZHU Fei2， WU Wen2. A Defense Policy Learning Algorithm for Power Information Networks Based on Optimal Initial Value Q-learning[J]. Computer and Modernization, 2018, 0(11): 18-.

参考文献

［1］薛禹胜,赖业宁. 大能源思维与大数据思维的融合(一)大数据与电力大数据［J］. 电力系统自动化, 2016,40(1):1-8.
［2］余贻鑫,刘艳丽. 智能电网的挑战性问题［J］. 电力系统自动化, 2015，39(2):1-5.
［3］汤奕,陈倩,李梦雅,等. 电力信息物理融合系统环境中的网络攻击研究综述［J］. 电力系统自动化, 2016,40(17):59-69.
［4］王栋,陈传鹏,颜佳,等. 新一代电力信息网络安全架构的思考［J］. 电力系统自动化, 2016,40(2):6-11.
［5］靳丹,马志程,杨鹏,等. 电力信息系统动态风险评估方法研究［J］. 现代电子技术, 2016,39(14):162-165.
［6］张振安,黄少伟,梁易乐,等. 基于主从博弈的交直流混联系统主动防御策略设计［J］. 电工电能新技术, 2015,34(10):10-16.
［7］黄天恩,孙宏斌,郭庆来,等. 基于电网运行大数据的在线分布式安全特征选择［J］. 电力系统自动化, 2016，40(4):32-40.
［8］ ANWAR A, MAHMOOD A N. Anomaly detection in electric network database of smart grid: Graph matching approach［J］. Electric Power Systems Research, 2016,133:51-62.
［9］金鑫,李龙威,苏国华,等. 基于Spark框架和PSO优化算法的电力通信网络安全态势预测［J］. 计算机科学, 2017,44(s1):366-371.
［10］ZHU F, LIU Q, FU Y C, et al. Segmentation of neuronal structures using SARSA (λ)-based boundary amendment with reinforced gradient-descent curve shape fitting［J］. PLoS One, 2014,9(3):1-19.
［11］秦蕊,曾帅,李娟娟,等. 基于深度强化学习的平行企业资源计划［J］. 自动化学报, 2017,43(9):1588-1596.
［12］朱斐,朱海军,刘全,等. 一种解决连续空间问题的真实在线自然梯度AC算法［J］. 软件学报, 2018,29(2):267-282.
［13］SUTTON R S, BARTO A G. Reinforcement learning: An introduction［J］. IEEE Transactions on Neural Networks, 2005,16(1):285-286.
［14］BUSONIU L, BABUSKA R, SCHUTTER B D, et al. Reinforcement Learning and Dynamic Programming Using Function Approximators［M］. CRC Press, 2010.
［15］WIERING M, OTTERLO M V. Reinforcement Learning［M］. Springer Berlin Heidelberg, 2012.
［16］肖峻,甄国栋,祖国强,等. 配电网安全域法的改进及与N-1仿真法的对比验证［J］. 电力系统自动化, 2016,40(8):57-63.
［17］何耀,周聪,郑凌月,等. 基于扩展卡尔曼滤波的虚假数据攻击检测方法［J］. 中国电力, 2017,50(10):35-40.
［18］陈小军,时金桥,徐菲,等. 面向内部威胁的最优安全策略算法研究［J］. 计算机研究与发展, 2014,51(7):1565-1577.
［19］陈学通,凌超,薛峰,等. 一种基于贪心算法的紧急控制策略优化搜索方法［J］. 电力系统保护与控制, 2017,45(23):74-81.
［20］AUER P, CESA-BIANCHI N, FREUND Y, et al. The non-stochastic multi-armed bandit problem［J］. Siam Journal on Computing, 2011,32(1):48-77.

[1]	刘行1, 2, 郭靓1, 2, 王正琦1, 2, 韦小刚1, 2, 徐雪菲1, 2, 刘京3. 基于Q学习的安全服务功能链编排算法[J]. 计算机与现代化, 2024, 0(11): 34-40.
[2]	吴水明, 吉志远, 王震宇, 景栋盛. 基于Dueling-DDQN的电力信息网络入侵检测算法[J]. 计算机与现代化, 2021, 0(12): 43-47.
[3]	刘祎豪. 基于生成式对抗网络的拟态蜜罐特征生成方法[J]. 计算机与现代化, 2021, 0(07): 120-126.
[4]	胡宇，刘美玲，周子昂，张敏. 基于Q学习的单路口交通信号协调控制[J]. 计算机与现代化, 2020, 0(05): 96-.
[5]	陈鹏. 一种基于Q学习的图像阈值确定方法[J]. 计算机与现代化, 2013, 1(6): 113-115.
[6]	胡健. 基于Q学习的无线传感器网络路由协议[J]. 计算机与现代化, 2013, 1(3): 131-134.

基于最优初始值Q学习的电力信息网络防御策略学习算法

A Defense Policy Learning Algorithm for Power Information Networks Based on Optimal Initial Value Q-learning

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 6

编辑推荐

Metrics

本文评价