[1] 李芳芳,刘栋,高宪文,等. 基于多目标规划的WSN路径动态选择算法[J]. 东北大学学报(自然科学版), 2013,34(8):1082-1085.
[2] 蔡文哲,王斌君. 一种QoS平面蚁群路由算法的设计与实现[J]. 计算机与现代化, 2015(12):15-18.
[3] 朱斐,许志鹏,刘全,等. 基于可中断Option的在线分层强化学习方法[J]. 通信学报, 2016,37(6):65-74.
[4] 陈兴国,俞扬. 强化学习及其在电脑围棋中的应用[J]. 自动化学报, 2016,42(5):685-695.
[5] 刘全,于俊,王辉,等. 一种基于随机投影的贝叶斯时间差分算法[J]. 电子学报, 2016,44(11):2752-2757.
[6] WATKINS C J C H, DAYAN P. Technical note: Q-learning[J]. Machine Learning, 1992,8(3-4):279-292.
[7] 张岩,兰巨龙,王鹏,等. 一种基于马尔科夫决策过程的多态路由派生方法[J]. 电信科学, 2015,31(6):64-70.
[8] BOYAN J A, LITTMAN M L. Packet routing in dynamically changing networks: A reinforcement learning approach[C]// International Conference on Neural Information Processing Systems. 1993:671-678.
[9] THRUN S B. Efficient Exploration In Reinforcement Learning[R]. Technical Report CMU-CS-92-102, Carnegie Mellon University, Pittsburgh, 1992.
[10]方君,闫文君,邓向阳,等. 基于Q-学习和行为树的CGF空战行为决策[J]. 计算机与现代化, 2017(5):37-39.
[11]吴毓双,陈筱语,马静雯,等. 基于一般化斜投影的异策略时序差分学习算法[J]. 南京大学学报(自然科学版), 2017,53(6):1052-1062.
[12]王蕾. 一种基于示例轨迹的抽象动作树构造方法[J]. 计算机与现代化, 2016(6):85-90.
[13]GHAVAMZADEH M, MANNOR S, PINEAU J, et al. Bayesian reinforcement learning: A survey[J]. Foundations & Trends in Machine Learning, 2016,8(5-6):359-483.
[14]SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge: MIT Press, 2018.
[15]XIANG Y, MENG J, MA D. A Q-routing based self-regulated routing scheme for network-on-chip[C]// IEEE International Conference on Communication Software and Networks. 2017:177-181.
[16]冯陈伟,张璘. 一种基于Q学习的网络接入控制算法[J]. 计算机工程, 2015,41(10):99-104.
[17]崔平付,任智,曹建玲. 基于博弈的DTMSN路由选择和信任决策[J]. 计算机科学, 2016,43(s1):268-271.
[18]王庆文,史浩山,戚茜. Ad Hoc网络Q学习稳定蚁群路由算法[J]. 哈尔滨工业大学学报, 2012,44(7):120-125.
[19]SHIN W Y, CHUNG S Y, LEE Y H. Parallel opportunistic routing in wireless networks[J]. IEEE Transactions on Information Theory, 2013,59(10):6290-6300.
[20]王志明,曾孝平,刘学,等. 一种异构网络TCP拥塞控制算法[J]. 电子与信息学报, 2016,38(4):780-786.
[21]FANG Q, YANG Z, SHU Y. The research of protection for PBT network[J]. Optical Communication Technology, 2009,33(3):22-24. |