基于ANN的改进Spark系统在空管大数据处理中的应用

计算机与现代化 ›› 2020, Vol. 0 ›› Issue (12): 78-82.

基于ANN的改进Spark系统在空管大数据处理中的应用

（中国民用航空飞行学院空中交通管理学院，四川广汉618307）

出版日期:2021-01-07 发布日期:2021-01-07
作者简介:潘卫军(1968—)，男，湖北黄冈人，教授，博士，研究方向：空中交通管理，民航运行安全，E-mail: panatc@sina.com；刘皓晨（1994—），男，河南洛阳人，硕士研究生，研究方向：空中交通管理，民航运行安全，E-mail: cohc1103@163.com。
基金资助:
国家自然科学基金重点项目(U1733203)；民航局安全能力建设项目（TM2018-9-1/3）；民航华东空管局科技计划基金资助项目（KJ1802）；中国民用航空飞行学院面上基金资助项目（J2019-042）

Application of Improved Spark System Based on ANN in Big Data Processing of Air Traffic Management#br#

(Air Traffic Management College, Civil Aviation Flight University of China, Guanghan 618307, China)

Online:2021-01-07 Published:2021-01-07

摘要/Abstract

摘要： 针对Spark系统参数量巨大且手动调整参数具有耗时、效率低下等问题，提出一种基于人工神经网络（Artificial Neural Network, ANN）的方法来对Spark系统的配置参数进行自动调整，保障在处理空管大数据时的速度和性能。使用Dell PowerEdge T430服务器测试了空管大数据中5种常用的不同大小的数据集，以验证该方法。研究表明，与默认参数配置相比，该方法可将Spark系统的性能平均提高约35％。随着数据集大小的增加，性能呈现进一步提高的趋势。该方法可以有效地保障Spark系统的参数调整效率，达到高效处理空管大数据的目的。

关键词: 大数据, Spark, 人工神经网络, 数据处理, 空管

Abstract: A new method based on artificial neural network (ANN) was proposed to automatically adjust the configuration parameters of the Spark system to improve the performance of the Spark system in processing ATM big data and solving time-consuming and inefficient issues. The Dell PowerEdge T430 server was used to test 5 commonly used datasets of different sizes in air traffic control big data to verify the method. Research shows that compared with the default parameter configuration, this method can improve the performance of the Spark system by about 35% on average. As the size of the dataset increases, the performance shows a trend of further improvement. This method can effectively guarantee the parameter adjustment efficiency of the Spark system and achieve the purpose of efficiently processing the ATM big data.

Key words: big data, Spark, ANN, data processing, ATM

潘卫军, 刘皓晨, 王润东, 胡博文. 基于ANN的改进Spark系统在空管大数据处理中的应用[J]. 计算机与现代化, 2020, 0(12): 78-82.

PAN Wei-jun, LIU Hao-chen, WANG Run-dong, HU Bo-wen. Application of Improved Spark System Based on ANN in Big Data Processing of Air Traffic Management#br#[J]. Computer and Modernization, 2020, 0(12): 78-82.

参考文献

［1］ ANAGNOSTOPOULOS I, ZEADALLY S, EXPOSITO E. Handling big data: Research challenges and future directions［J］. Journal of Supercomputing, 2016,72(4):1494-1516.
［2］王润东,任杰,陈晓光,等. 基于QMS的空管服务质量评价指标体系研究［J］. 交通运输研究, 2019,5(3):49-56.
［3］ SINGH R, KAUR P J. Analyzing performance of Apache Tez and MapReduce with hadoop multinode cluster on Amazon cloud［J］. Journal of Big Data, 2016,3(1): Article No. 19. DOI: 10.1186/s40537-016-0051-6.
［4］须成杰,肖喜荣,张敬谊,等. 基于Spark的大数据分析平台的设计和应用［J］. 中国卫生信息管理杂志, 2019,16(5):633-637.
［5］丁飞,庄毅. Storm平台下基于稀疏ADtree的贝叶斯网络分布式学习算法［J］. 小型微型计算机系统, 2018,39(10):2209-2215.
［6］石慧,陈恩. Spark平台的分布式阶段自适应关联规则挖掘算法［J］. 计算机与现代化, 2019(12):31-38.
［7］黄廷辉,王玉良,汪振,等. 基于Spark的分布式交通流数据预测系统［J］. 计算机应用研究, 2018,35(2):405-409.
［8］胡俊,胡贤德,程家兴. 基于Spark的大数据混合计算模型［J］. 计算机系统应用, 2015,24(4):214-218.
［9］王芮,韩锐,贾玉祥. 基于Spark的分布式大数据机器学习算法［J］. 计算机与现代化, 2018(11):119-126.
［10］温贺平,鲍晶晶,柯居鑫,等. 基于Hadoop的Lorenz超混沌加密算法设计［J］. 计算机与现代化, 2018(3):108-111.

［11］宋阳,石鸿雁. 基于MapReduce框架下的K-means聚类算法的改进［J］. 计算机与现代化, 2019(8):28-32.

［12］李果,袁小凯,许爱东,等. 基于MapReduce的人工蜂群算法在大数据中的应用［J］. 计算机与数字工程, 2020,48(1):124-129.
［13］夏靖波,韦泽鲲,付凯,等. 云计算中Hadoop技术研究与应用综述［J］. 计算机科学, 2016,43(11):6-11.
［14］李耘书,滕飞,李天瑞. 基于微操作的Hadoop参数自动调优方法［J］. 计算机应用, 2019,39(6):1589-1594.
［15］韦泽鲲,夏靖波,付凯,等. 并行MapReduce模型下的一种改进型KNN分类算法［J］. 空军工程大学学报(自然科学版), 2017,18(1):92-98.
［16］卞琛,于炯,英昌甜,等. 并行计算框架Spark的自适应缓存管理策略［J］. 电子学报, 2017,45(2):278-284.
［17］胡德敏,龚燕. 基于Spark的混合推荐算法研究［J］. 计算机应用研究, 2017,34(12):3585-3588.
［18］刘欢,陈能成,陈泽强. 基于Apache Spark的MODIS海表温度反演方法［J］. 计算机系统应用, 2018,27(9):112-117.
［19］宋杰,孙宗哲,毛克明,等. MapReduce大数据处理平台与算法研究进展［J］. 软件学报, 2017,28(3):514-543.
［20］陈天宇,张龙信,李肯立,等. Spark框架中RDD缓存替换策略优化［J］. 小型微型计算机系统, 2019,40(6):1248-1253.
［21］王子玲,贾舒宜,修建娟,等. 基于人工神经网络的多模型目标跟踪算法［J］. 海军航空工程学院学报, 2019,34(4):343-348.
［22］李龙,魏靖,黎灿兵,等. 基于人工神经网络的负荷模型预测［J］. 电工技术学报, 2015,30(8):225-230.
［23］陈侨安,李峰,曹越,等. 基于运行数据分析的Spark任务参数优化［J］. 计算机工程与科学, 2016,38(1):11-19.

[1]	杜猛俊1, 李昂1, 童俊1, 钱锦1, 康恺1, 王若丁1, 靳文星2. 基于改进极限学习算法的电力信息数据融合模型[J]. 计算机与现代化, 2024, 0(10): 61-64.
[2]	邱玲1, 2, 宋智1, 2, 吕爽1, 2, 杨雪1, 2. 数据同步技术在气象大数据云平台对外服务中的应用[J]. 计算机与现代化, 2024, 0(07): 76-81.
[3]	韩坤, 王政, 段俊勇, 杨化林. 基于雾计算的制造物联网数据处理技术综述[J]. 计算机与现代化, 2024, 0(01): 13-20.
[4]	周明升, 张雯. 一种面向多源数据的智慧园区管理平台[J]. 计算机与现代化, 2023, 0(05): 68-74.
[5]	邱金水, 庄会富, 金涛. 面向海量植物图像的智能检索系统设计[J]. 计算机与现代化, 2022, 0(10): 62-67.
[6]	单珂, 张一鸣, 刘瑞霞, . 面向中原城市群的科技服务资源池研究与设计[J]. 计算机与现代化, 2022, 0(07): 91-96.
[7]	黄安琪, 苗放, 杨文晖, 倪雅婷, 蒋媛. 基于数据架构的结构化数据注册引擎设计[J]. 计算机与现代化, 2022, 0(05): 82-89.
[8]	曹禹, 李晓辉, 刘忠麟, 贾贺, 费志伟. 云环境大数据工作流编排管理系统研究综述[J]. 计算机与现代化, 2022, 0(01): 41-53.
[9]	刘亚南, 郭南, 赵阳, 余贶琭, . 基于WOA优化神经网络的BOTDA传感信息提取[J]. 计算机与现代化, 2021, 0(12): 19-26.
[10]	张小芳, 冯慧芳. 基于轨迹大数据的动态最优路径规划[J]. 计算机与现代化, 2021, 0(11): 82-88.
[11]	李明, 陈积富, 易小荣, 刘书铭. 基于JFinal框架的洞庭湖环境监测系统[J]. 计算机与现代化, 2021, 0(10): 41-48.
[12]	刘露, 申国伟, 郭春, 崔允贺, 蒋朝惠, 伍大勇. 一种基于深度强化学习的Spark Streaming参数优化方法[J]. 计算机与现代化, 2021, 0(10): 49-56.
[13]	魏云东. 基于大数据技术的人才智能推荐方法[J]. 计算机与现代化, 2021, 0(07): 60-64.
[14]	雷鸣, 姜罕盛, 武国良, 赵玉娟, 梁健. 基于HBase的大数据架构下负载平衡技术[J]. 计算机与现代化, 2021, 0(06): 91-95.
[15]	李梓龙, 吕勇, 谭国平, 严勤, . 基于纹理特征的超声图像乳腺肿块识别[J]. 计算机与现代化, 2021, 0(02): 1-6.