基于秩的Q-路由选择算法

doi:10.3969/j.issn.1006-2475.2018.10.001

计算机与现代化 ›› 2018, Vol. 0 ›› Issue (10): 1-.doi: 10.3969/j.issn.1006-2475.2018.10.001

• 算法设计与分析 • 下一篇

基于秩的Q-路由选择算法

(1.国网江苏省电力有限公司苏州供电分公司,江苏苏州215004;
2.苏州大学计算机科学与技术学院,江苏苏州215006)

收稿日期:2018-04-03 出版日期:2018-10-26 发布日期:2018-10-26
作者简介:王月娟(1981-)，女，江苏苏州人，国网江苏省电力有限公司苏州供电分公司工程师，硕士，研究方向：智能信息系统，机器学习，智能网络通信；张苏宁(1973-)，女，江苏南通人，高级工程师，研究方向：智能网络通信，计算机应用，机器学习；吴水明（1970-），男，江苏苏州人，工程师，研究方向：智能网络通信，智能信息系统，机器学习；朱斐(1978-)，男，江苏苏州人，苏州大学计算机科学与技术学院副教授，硕士生导师，博士，研究方向：机器学习，人工智能，智能信息系统。
基金资助:
国家自然科学基金资助项目(61303108,61373094); 江苏省高校自然科学研究项目重大项目(17KJA520004); 苏州大学高校省级重点实验室项目(KJS1524)

A Rank-based Q-routing Algorithm

(1. Suzhou Power Supply Branch， State Grid Jiangsu Electric Power Limited Company, Suzhou 215004, China;
2. School of Computer Science and Technology, Soochow University, Suzhou 215006, China)

Received:2018-04-03 Online:2018-10-26 Published:2018-10-26

摘要/Abstract

摘要： 如何在动态变化的复杂网络中实现高效的路由选择是当前的研究热点之一。Q-学习是一种常用的强化学习算法，通过与环境的不断交互来解决未知环境中最优控制问题，能有效地完成在线式学习任务。本文提出一种基于秩的Q-路由选择(Rank-based Q-routing, RQ routing)算法。RQ routing算法在Q-学习的框架下，保留了Q-路由选择(Q-routing)算法的高效性，引入能动态计算的秩函数，用于表示当前状态在场景中的优先级，用以求解路由选择的最优解，避免等待队列过长，减少网络拥堵，提高传输速度。RQ routing算法中的秩函数具有灵活性，使用不同的秩函数即可满足各种场景的需求，保证了算法具有更好的泛化能力，克服了传统Q-routing应用场景单一的不足。实验验证了本文算法的有效性。

关键词: 强化学习, Q-学习, Q-路由选择, QoS路由, 计算机网络

Abstract: How to achieve efficient routing in the dynamical and complex network is one of current research hotspots. Q-learning, a frequently used reinforcement learning method, which can solve the optimal control problem in unknown environment by continuously interacting with the environment, is able to achieve on-line learning task. A rank-based Q-routing algorithm (RQ routing) is proposed. RQ routing algorithm, taking Q-learning algorithm as learning framework, and preserving the efficiency of the Q-routing algorithm, introduces the rank function that can be dynamically calculated to represent the priority of the current state in the scene, so as to solve the optimal solution of the route selection, which can avoid long waiting queue, reduce network congestion and improve the transmission speed. The rank function in the RQ routing algorithm is flexible. People can use different rank functions to meet the needs of various scenes, ensure the better generalization ability of the algorithm, and overcome the inflexibility of the traditional Q-routing application scene. The experiment verifies the effectiveness of the algorithm.

Key words: reinforcement learning, Q-learning, Q-routing, QoS routing, computer network

中图分类号:

TP393

王月娟1,张苏宁1,吴水明1,朱斐2. 基于秩的Q-路由选择算法[J]. 计算机与现代化, 2018, 0(10): 1-.

WANG Yue-juan1, ZHANG Su-ning1, WU Shui-ming1, ZHU Fei2. A Rank-based Q-routing Algorithm[J]. Computer and Modernization, 2018, 0(10): 1-.

参考文献

［1］李芳芳,刘栋,高宪文,等. 基于多目标规划的WSN路径动态选择算法［J］. 东北大学学报(自然科学版), 2013,34(8):1082-1085.
［2］蔡文哲，王斌君. 一种QoS平面蚁群路由算法的设计与实现［J］. 计算机与现代化, 2015(12):15-18.
［3］朱斐,许志鹏,刘全,等. 基于可中断Option的在线分层强化学习方法［J］. 通信学报, 2016,37(6):65-74.
［4］陈兴国,俞扬. 强化学习及其在电脑围棋中的应用［J］. 自动化学报, 2016,42(5):685-695.
［5］刘全，于俊，王辉，等. 一种基于随机投影的贝叶斯时间差分算法［J］. 电子学报, 2016,44(11):2752-2757.
［6］ WATKINS C J C H, DAYAN P. Technical note: Q-learning［J］. Machine Learning, 1992,8(3-4):279-292.
［7］张岩,兰巨龙,王鹏,等. 一种基于马尔科夫决策过程的多态路由派生方法［J］. 电信科学, 2015,31(6):64-70.
［8］ BOYAN J A, LITTMAN M L. Packet routing in dynamically changing networks: A reinforcement learning approach［C］// International Conference on Neural Information Processing Systems. 1993:671-678.
［9］ THRUN S B. Efficient Exploration In Reinforcement Learning［R］. Technical Report CMU-CS-92-102, Carnegie Mellon University, Pittsburgh, 1992.
［10］方君,闫文君,邓向阳,等. 基于Q-学习和行为树的CGF空战行为决策［J］. 计算机与现代化, 2017(5):37-39.
［11］吴毓双,陈筱语,马静雯,等. 基于一般化斜投影的异策略时序差分学习算法［J］. 南京大学学报(自然科学版), 2017,53(6):1052-1062.
［12］王蕾. 一种基于示例轨迹的抽象动作树构造方法［J］. 计算机与现代化, 2016(6):85-90.
［13］GHAVAMZADEH M, MANNOR S, PINEAU J, et al. Bayesian reinforcement learning: A survey［J］. Foundations & Trends in Machine Learning, 2016,8(5-6):359-483.
［14］SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction［M］. Cambridge: MIT Press, 2018.
［15］XIANG Y, MENG J, MA D. A Q-routing based self-regulated routing scheme for network-on-chip［C］// IEEE International Conference on Communication Software and Networks. 2017:177-181.
［16］冯陈伟,张璘. 一种基于Q学习的网络接入控制算法［J］. 计算机工程, 2015,41(10):99-104.
［17］崔平付,任智,曹建玲. 基于博弈的DTMSN路由选择和信任决策［J］. 计算机科学, 2016,43(s1):268-271.
［18］王庆文,史浩山,戚茜. Ad Hoc网络Q学习稳定蚁群路由算法［J］. 哈尔滨工业大学学报, 2012,44(7):120-125.
［19］SHIN W Y, CHUNG S Y, LEE Y H. Parallel opportunistic routing in wireless networks［J］. IEEE Transactions on Information Theory, 2013,59(10):6290-6300.
［20］王志明,曾孝平,刘学,等. 一种异构网络TCP拥塞控制算法［J］. 电子与信息学报, 2016,38(4):780-786.
［21］FANG Q, YANG Z, SHU Y. The research of protection for PBT network［J］. Optical Communication Technology, 2009,33(3):22-24.

[1]	赵花蕊. STRL：基于强化学习的测试算法[J]. 计算机与现代化, 2024, 0(08): 5-10.
[2]	李爽1, 2, 叶宁1, 2, 徐康1, 2, 王甦1, 王汝传1, 2. 面向智慧养老的边缘计算卸载方法[J]. 计算机与现代化, 2024, 0(06): 95-102.
[3]	王健铭1, 王欣1, 李养辉2, 王殿龙1. 基于改进D3QN算法的泊车机器人路径规划[J]. 计算机与现代化, 2024, 0(03): 7-14.
[4]	李鹏, 徐珞. 一种面向城市战场的智能车自主导航方法[J]. 计算机与现代化, 2024, 0(01): 92-98.
[5]	张国有, 宋世峰. 基于D3QN的交通灯控制优化[J]. 计算机与现代化, 2023, 0(07): 30-35.
[6]	张志国. 一种基于强化学习的铁路通信基站天线覆盖自优化方法[J]. 计算机与现代化, 2023, 0(07): 69-72.
[7]	赖建彬, 冯刚. 一种基于混合样本的经验回放策略[J]. 计算机与现代化, 2023, 0(06): 33-38.
[8]	丁忠林, 李洋, 曹委, 谈宇浩, 徐波. 基于深度Q学习的电力物联网任务卸载研究[J]. 计算机与现代化, 2022, 0(11): 75-80.
[9]	马瑞, 欧阳权, 吴兆香, 丛玉华, 王志胜. 基于深度强化学习的多无人机电力巡检任务规划[J]. 计算机与现代化, 2022, 0(01): 98-102.
[10]	吴水明, 吉志远, 王震宇, 景栋盛. 基于Dueling-DDQN的电力信息网络入侵检测算法[J]. 计算机与现代化, 2021, 0(12): 43-47.
[11]	刘露, 申国伟, 郭春, 崔允贺, 蒋朝惠, 伍大勇. 一种基于深度强化学习的Spark Streaming参数优化方法[J]. 计算机与现代化, 2021, 0(10): 49-56.
[12]	李蒙, 韩立新. 基于深度强化学习的黑盒对抗攻击算法[J]. 计算机与现代化, 2021, 0(04): 117-121.
[13]	王海红, 刘莉. 基于分层和强化学习的改进路径搜索算法[J]. 计算机与现代化, 2020, 0(11): 77-82.
[14]	王鹏勇, 陈龚涛, 赵江烁. 基于深度强化学习的机场出租车司机决策方法[J]. 计算机与现代化, 2020, 0(08): 94-99.
[15]	袁雯，刘惠义. 基于深度Q网络的仿人机器人步态优化[J]. 计算机与现代化, 2019, 0(04): 47-.

基于秩的Q-路由选择算法

A Rank-based Q-routing Algorithm

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价