计算机与现代化

• 算法设计与分析 • 上一篇    下一篇

基于卷积神经网络的敏感文件检测方法

  

  1. (1.南瑞集团有限公司(国网电力科学研究院),江苏南京211106;2.国网江苏省电力公司信息通信分公司,江苏南京210024)
  • 收稿日期:2017-10-30 出版日期:2018-08-23 发布日期:2018-08-27
  • 作者简介:林学峰(1988-),男,江苏靖江人,南瑞集团有限公司(国网电力科学研究院)工程师,硕士,研究方向:信息安全;夏元轶(1988-),男,江苏无锡人,国网江苏省电力公司信息通信分公司工程师,硕士,研究方向:信息安全;郭金龙(1991-),男,安徽亳州人,硕士研究生,研究方向:网络安全,信息安全;于晓文(1990-),女,江苏连云港人,工程师,硕士,研究方向:信息安全。
  • 基金资助:
    国家电网公司科技项目(SGJSXT00JFJS1700101)

SensitiveFileDetectionMethodBasedonCNN

  1. (1.NARIGroupCorporation/StateGridElectricPowerResearchInstitute,Nanjing211106,China;
     2.Information&TelecommunicationBranch,StateGridJiangsuElectricPowerCo.Ltd.,Nanjing210024,China)
  • Received:2017-10-30 Online:2018-08-23 Published:2018-08-27

摘要: 近几年,电力行业信息化建设取得了巨大成就。企业办公文件、项目方案、项目合同等涉及行业秘密的文件越来越多地在互联网中传输,导致企业级敏感文件泄露。传统敏感文件识别方法基于敏感词库进行特征检测,检测速度快,但是存在较高的漏报率和误报率。本文提出一种基于深度学习的敏感文件检测方法,引入词向量及卷积神经网络算法,实现敏感文件精准分类。本文提出的识别企业级敏感文件的检测方法优点是不再依赖于特征关键字,降低了漏报率和误报率。

关键词: 敏感词库, 词向量, 卷积神经网络, 深度学习, 敏感文件检测

Abstract: Inrecentyears,thepowerindustryinformationconstructionhasmadegreatachievements.Moreandmoreofficedocuments,projectdocuments,projectcontractsandotherdocumentsinvolvingindustrysecrettransmitonInternet,onthetransmissionprocess,enterprise-classsensitivedocumentsmayhavebeenleaked.Traditionalsensitivedatarecognitionmethodbasedonsensitivelexiconforfeaturedetectioncangetdetectionresultquickly,butthereisalowaccuracy,highfalsenegativesrateandfalsepositivesrate.ThispaperproposesasensitivefiledetectionmethodbasedonDeepLearning.Themethodreferstowordembeddingandconvolutionneuralnetworkalgorithmtorealizetheaccurateclassificationofsensitivedocuments.Theapproachinthispapermakesenterprisesensitivefilesdetectionindependentoffeaturekeywords,andreducesthefalsenegativerateandfalsepositiverate.

Key words: sensitivewordtable, wordembedding, convolutionneuralnetwork, deeplearning, sensitivefiledetection

中图分类号: