Please wait a minute...

当期目录

    2022年 第0卷 第09期    刊出日期:2022-09-22
    数据库与数据挖掘
    基于HISPAC医疗数据隐私保护模型
    姚征
    2022, 0(09):  1-12. 
    摘要 ( 228 )   PDF (3711KB) ( 101 )  
    参考文献 | 相关文章 | 计量指标
    当今时代是计算机的时代,更是人工智能和大数据蓬勃发展的时代,与其相关行业的出现引发了各行各业的变革。作为国内主要的服务行业,医疗产业也在悄然改变,同时医疗隐私的保护技术也在持续研究和发展中。随着数据量的激增,各类患者身份信息、病例信息以及医疗诊断信息泄露的情况层出不穷。本文针对医疗隐私保护问题,构建一套医疗隐私保护模型,该模型包括2个部分:1)借助循环神经网络RNN和模糊推理理论构建一个自适应神经网络隐私风险评估模型,给用户行为活动设置一个信用标签,并借此来计算隐私泄露风险值;2)围绕模型得到的用户信用风险值建立一套个性化的隐私数据访问权限控制机制,即医院信息系统隐私控制模型。经过实验验证,该机制具有良好的隐私保护效果,可以有效解决医疗数据隐私泄露的问题。
    基于多词汇特征增强的中文事件检测方法
    缪梓敬, 梅欣
    2022, 0(09):  13-18. 
    摘要 ( 157 )   PDF (907KB) ( 69 )  
    参考文献 | 相关文章 | 计量指标
    事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。
    基于均值聚类的员工行为分析方法
    李春生, 冯阳宵, 富 宇, 张可佳, 吴润桐
    2022, 0(09):  19-24. 
    摘要 ( 128 )   PDF (1945KB) ( 75 )  
    参考文献 | 相关文章 | 计量指标
    针对大量异构数据下企业员工潜在行为规律挖掘问题,提出一种基于均值聚类的行为分析方法。以某科研院所员工行为数据为基础,建立行为分析模型,对企业员工门禁刷卡数据和专业日常办公软件数据进行行为特征提取和选择,采用K-Means聚类分析方式分析行为特征。最终从工作态度上,大致可以将员工分为勤奋型、散漫性和普通型;从岗位特征上,大致可以将员工分为普通类、专业类和管理类。并且通过对聚类结果分析,挖掘出员工一些隐藏的行为特征规律。通过对现场相关人员调研,并结合员工真实工作性质、岗位特点,验证了在此场景下应用员工行为所产生的数据,结合聚类算法,在企业员工行为分析方面可以取得较理想的效果。
    算法分析与设计
    基于FPGA的分子动力学模拟交互控制系统
    王鑫, 吴俊辉,
    2022, 0(09):  25-31. 
    摘要 ( 161 )   PDF (1273KB) ( 66 )  
    参考文献 | 相关文章 | 计量指标
    在分子动力学模拟系统中,实现分子间短程力的计算需要频繁地传输与大量的粒子数据访问。为了减轻CPU的计算负载,可以使用FPGA加速计算。但是,在基于FPGA的分子动力学模拟系统中,短程力计算模块面临巨大的数据传输压力以及访存冲突问题。针对这些问题,基于FPGA上有限的硬件资源,提出一种交互控制系统。该系统由取数控制模块与粒子数据解析模块组成。整个系统通过合理的数据编排以及2个模块的协同工作,实现粒子数据从片上存储到短程力计算模块的快速可靠的传输。通过硬件仿真和板级实验验证了该系统在处理粒子数据过程中的有效性和可靠性。
    算法设计与分析
    基于改进YOLOv4的汽车钢铁零件表面缺陷检测
    彭露露, 朱媛媛, 金文倩, 王笑梅
    2022, 0(09):  32-39. 
    摘要 ( 189 )   PDF (2766KB) ( 61 )  
    参考文献 | 相关文章 | 计量指标
    针对YOLOv4在自建的汽车钢铁零件表面缺陷数据集中检测精度不足的问题,利用深度学习的优势,提出一种基于改进YOLOv4的汽车钢铁零件表面缺陷检测方法。首先采用加权K-means算法确定初始anchors预选框,增强anchors框和特征图尺寸的匹配精度,提高检测效率;然后在YOLOv4主干网络的残差单元中引入SE模块,增加有用特征的权重,抑制无效特征的权重来提高检测精度;最后在76×76的特征图后连接RFB-s模块,增强对小目标信息的特征提取能力。实验结果表明,针对自建汽车零件表面缺陷数据集有无缺陷单类检测问题,改进算法比原始YOLOv4的mAP50值提高了4.3个百分点,对小目标具有更好的检测效果。这说明改进算法能满足针对特定的汽车钢铁零件表面缺陷检测问题下的检测速度和精度要求,有效解决了实际问题。针对COCO数据集多分类问题,改进后模型的mAP50值比原始YOLOv4提高了0.2个百分点,FPS值达到20,说明改进算法能够迁移到其他数据集,验证了该算法的泛化性。
    人工智能
    基于多任务学习的电子病历实体识别方法
    于鹏, 陈钰枫, 徐金安, 张玉洁
    2022, 0(09):  40-50. 
    摘要 ( 136 )   PDF (1633KB) ( 80 )  
    参考文献 | 相关文章 | 计量指标
    中文电子病历NER是医疗信息抽取的难点。本文提出一种多任务学习的实体识别方法,联合实体识别和分词训练模型,使用基于Bi-LSTM的私有层提取专有信息,融合注意力网络作为共享层并增加通用特征增强机制来筛选全局信息,降低过拟合风险并增强模型的泛化能力。此外提出均衡样本过采样方法扩充数据集,有效解决实体类别不平衡所带来的问题。使用CCKS2017/CCKS2020电子病历实体识别语料和Medicine医药分词语料联合训练,实验结果显示本文提出的模型整体性能提升明显,同时也显著提高了Medicine语料的分词实验效果,F1值较基线提升了3个百分点。实验表明本文提出的模型能够有效改善因电子病历中数据不规范、无结构或专有名词等原因造成的实体切分错误等问题。
    模型剪枝算法综述
    李屹, 魏建国, 刘贯伟
    2022, 0(09):  51-59. 
    摘要 ( 508 )   PDF (1096KB) ( 151 )  
    参考文献 | 相关文章 | 计量指标
    模型剪枝算法利用不同的标准或方式对深度神经网络中冗余神经元进行裁剪,在不损失模型精度的情况下对模型进行最大程度的压缩,从而可以减少存储并提升速度。首先,对模型剪枝算法的研究现状与主要研究方向进行总结并归类。主要研究方向包括剪枝的尺度、剪枝元素重要性评估的方法、剪枝的稀疏度、剪枝的理论基础及对于不同任务的剪枝等方面。然后对近年来具有代表性的剪枝算法进行详细描述。最后对此领域的研究提出未来展望。
    基于Retinanet的轮毂焊缝检测定位方法
    李鑫, 任德均, 任秋霖, 曹林杰, 闫宗一
    2022, 0(09):  60-67. 
    摘要 ( 127 )   PDF (2927KB) ( 62 )  
    参考文献 | 相关文章 | 计量指标
    提出一种基于深度学习方法的轮毂焊缝实时检测定位方法,设计轮毂焊缝视觉检测硬件平台,阐述多规格轮毂焊缝的检测定位原理,细述基于卷积神经网络的目标检测算法Retinanet以及基于Transformer架构的目标检测算法CoTNet的原理,优化Cot结构,提出CoTx结构,从而实现便捷替换卷积神经网络中通用的卷积层。在Pytorch框架下,简化Retinanet网络,通过CoTx结构和Retinanet网络的融合对比实验来优化Retinanet网络在轮毂焊缝数据集上的检测性能。实验结果表明,用CoTx结构替换Retinanet最后的几个特征提取层,可以得到更好的检测效果。在生产现场,进行为期30天的轮毂焊缝在线实时检测,平均检测精度为99.71%,单张检测时间为7 ms,达到企业生产的要求。
    DNeStCount:数据相关的拆分注意力机制的编码器-解码器结构的人群计数方法
    孟晓龙,
    2022, 0(09):  68-77. 
    摘要 ( 105 )   PDF (4745KB) ( 53 )  
    参考文献 | 相关文章 | 计量指标
    人群数量估计是人群管理系统的关键,对于预防踩踏事故和引导人群至关重要,已成为一个日益重要的任务和具有挑战性的研究方向。本文提出一种数据相关的拆分注意力机制的编码器-解码器结构的人群计数方法,称为DNeStCount。为应对视频监控的尺度变化和透视失真的挑战,将更密集的空洞采样比率应用到密集空洞空间金字塔池化模块DASPP设计中。为提升密度图估计的准确性,将可学习的、数据相关的上采样方法DUpsampling应用到特征聚合模块DFA设计中。为弥补欧几里德损失可能存在对离群值敏感、训练不稳定等缺点,采用Smooth L1损失设计损失函数。在具有挑战性的数据集上进行的实验和分析表明,本文提出的人群计数方法DNeStCount与其他主流方法相比更具有竞争力。
    图像处理
    基于改进YOLOv5的幽门螺杆菌免疫印迹图像识别
    王梦, 张鸿鑫, 刘庆华, 张东
    2022, 0(09):  78-84. 
    摘要 ( 186 )   PDF (3600KB) ( 56 )  
    参考文献 | 相关文章 | 计量指标
    针对幽门螺杆菌免疫印记图像重度依赖医生目测识别,存在效率低、速度慢等问题,提出一种基于改进YOLOv5的幽门螺杆菌免疫印迹图像检测模型。首先对YOLOv5的特征提取器进行优化,采用DenseNet作为新的特征提取器来解决梯度消失问题;然后通过限制最高下采样倍数,使得模型对小目标检测更加灵敏;最后引入Swish激活函数代替原YOLOv5中的LeakyReLU激活函数并改进IoU来获取更加准确的边界信息。在幽门螺杆菌免疫印记图像数据集上验证改进后的模型检测能力,实验结果表明,改进后模型的F1-score高达0.93、mAP@0.5达95.4%、mAP@0.5:0.95达75.6%、每秒检测帧数达54 fps,满足临床上检测时限要求。

    融合CNN与交互特征的多标签图像分类方法
    王盼红, 朱昌明
    2022, 0(09):  85-92. 
    摘要 ( 158 )   PDF (1578KB) ( 58 )  
    参考文献 | 相关文章 | 计量指标
    图像在日常生活中广泛存在,图像分类具有重要的现实意义。针对当前多标签图像分类中因神经网络模型复杂以及提取到的图像特征信息不足而导致分类准确率较低、计算复杂度高等问题,提出一种融合卷积神经网络与交互特征的多标签分类方法,即MLCNN-IF模型。MLCNN-IF模型主要分成2步,首先参考传统CNN基本结构搭建一个仅有9层的轻量级神经网络(MLCNN),用于处理图像数据并提取特征;其次基于MLCNN提取的特征,通过交互特征方法产生各独立特征的组合特征,以此获得新的更丰富的特征集。实验结果表明,MLCNN-IF模型对比AlexNet、GoogLeNet和VGG16在4种多标签图像数据集上取得了更好的分类结果,其准确率和精准率分别平均提高9%和4.8%;同时MLCNN网络结构相对更简洁,有效降低了模型参数量和时间复杂度。
    信息安全
    POF协议解析器
    储苏红, 刘磊,
    2022, 0(09):  93-98. 
    摘要 ( 91 )   PDF (1535KB) ( 62 )  
    参考文献 | 相关文章 | 计量指标
    针对SDN的安全问题,传统的防火墙、防病毒软件能在一定程度上防止外部非法入侵,但是对于防御非法修改交换机/控制器配置和流规则造成的重要信息泄露等内部威胁的效果甚微。POF协议作为SDN的南向接口协议,实现了控制器对网络的配置管理。通过解析POF消息可监控SDN网络通信内容,从而发掘内部安全问题。本文对POF协议进行详细的研究和分析,并基于网络安全审计系统设计POF协议解析器。该协议解析器能够在线解析识别POF消息类型及其关键字段,并生成会话日志和操作日志进行存储展示,有助于及时发掘非法行为,并可在网络安全事件发生后协助溯源取证。通过实验测试,系统集成POF协议解析器后在满足不丢包情况下至少能达到30000的每秒并发连接数、460 Mbps的吞吐以及每秒处理53万个数据包的性能。
    保护位置隐私的效用优化本地差分隐私机制
    冯立刚, 朱友文,
    2022, 0(09):  99-105. 
    摘要 ( 179 )   PDF (1015KB) ( 71 )  
    参考文献 | 相关文章 | 计量指标
    移动设备收集用户的地理位置数据用以提供个性化服务,同时也会产生数据泄露的潜在风险。现有地理位置差分隐私保护机制对于不同地理位置隐私保护级别等同对待,效用优化本地差分隐私(ULDP)考虑了对数据加以不同级别的隐私保护,但仅适用于类别型数据的频率估计,在地理位置隐私保护方面没有应用。考虑ULDP机制下的地理位置保护方案,将平方机制进行改造,提出效用优化的平方机制(USM)。该机制对于敏感地理位置满足本地差分隐私,对于非敏感地理位置不作安全性要求以提高整体效用。选取2种不同的真实地理位置数据集,在隐私预算相同的条件下将USM与平方机制进行对比实验,理论分析和实验结果表明USM在效用方面有显著提升。本文同时还展望了本机制进一步优化的可能方向。
    基于容器的安全接入虚拟化
    纪元, 郑卫波, 王梓,
    2022, 0(09):  106-110. 
    摘要 ( 106 )   PDF (1169KB) ( 62 )  
    参考文献 | 相关文章 | 计量指标
    面对电力系统中信息网络、互联网边界海量电力物联网终端的访问需求,针对传统安全接入边界各类装置实现方法资源分配不均、兼容性差、扩展性差以及性能瓶颈等问题,提出一种基于容器的安全接入虚拟化模型。该模型采用DPDK高性能数据包处理框架、成熟容器集群管理框架、服务计算节点编排等关键技术,将数据平面与控制平面完全分离,构建独立的数据虚拟化转发平面,并采用SR-IOV技术实现硬件资源的虚拟化和统一调度管理,将安全接入能力服务化。基于该模型的安全接入装置集群具有高性能、高可用、灵活编排、可扩展性强等优势。实验结果表明,该模型方法能够高效合理利用硬件资源,大幅提升电力系统边界安全接入的效率。
    基于改进混合采样和XGBoost算法的信用卡欺诈检测方法
    孙丹, 施炜利, 饶兰香, 孟莎莎, 郭晓明, 李逸伦
    2022, 0(09):  111-118. 
    摘要 ( 195 )   PDF (1685KB) ( 76 )  
    参考文献 | 相关文章 | 计量指标
    随着金融机构信用卡业务的快速发展,信用卡欺诈行为成为金融机构面临的严峻问题。针对金融机构信用卡数据分布不均衡问题,本文采用过采样、降采样、SMOTE+ENN、SMOTE+Tomeklin、改进的SMOTE+Tomeklin和改进的SMOTE+ENN混合采样这6种不同采样方法对不平衡数据进行平衡处理,然后将平衡数据集输入到多种分类算法模型中进行实验比对,最后提出一种基于改进的SMOTE+ENN混合采样和XGBoost算法的信用卡欺诈行为检测模型。通过5种评价指标验证该检测方法不仅提高了信用卡欺诈行为不平衡数据的区分度,同时提高了信用卡欺诈行为检测的准确性和可行性。
    融合注意力机制与并行混合网络的DGA域名检测
    刘立婷, 欧毓毅
    2022, 0(09):  119-126. 
    摘要 ( 133 )   PDF (1278KB) ( 74 )  
    参考文献 | 相关文章 | 计量指标
    基于统计特征的DGA域名检测方法依赖复杂的特征工程,而现有端到端的深度学习方法在DGA域名家族的多分类任务中性能表现不佳。针对上述问题,提出一种融合注意力机制与并行混合网络的DGA域名检测方法。首先,引入深层金字塔卷积神经网络,提取域名深层语义信息,并使用通道注意力块SENet进行改进构建DPCNN-SE,自适应学习通道间关系,抑制无用特征的传递;同时,将自注意力机制与双向长短时记忆网络结合构建BiLSTM-SA网络,捕获域名数据中最具代表性的全局时序特征;最后,融合2个网络提取的特征,输入softmax层输出分类结果。实验结果表明,该方法在域名家族的多分类任务中相比CNN、LSTM的单一模型,F1值分别提高了10.30个百分点、10.18个百分点;相较于现有的混合网络方法Bilbo和BiGRU-MCNN,F1值分别提高了5.97个百分点、4.87个百分点,并且具有更低的计算复杂度。