计算机与现代化 ›› 2024, Vol. 0 ›› Issue (02): 75-80.doi: 10.3969/j.issn.1006-2475.2024.02.012
摘要: 摘要:本文提出一个基于扩张卷积的多尺度融合行人原型和时空特征的深度自编码器网络。为了更好地利用视频中行人的时序特征,在编码器和解码器的潜在空间处添加一个双分支结构,分别是预测时空特征的递归神经网络分支和保存行人正常模式的记忆存储模块。为了增强行人特征提取,忽略背景信息影响,增加模型的泛化能力,在编码器中加入改进的空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模块,并在卷积块中使用混合扩张卷积(Hybrid Dilated Convolution,HDC)原则,解决行人大小变化的问题,同时在解码器中引入多级残差信道注意力机制,获取更多的上下文信息。模型在数据集USCD Ped2,CUHK Avenue的曲线下面积(Area Under the Curve,AUC)分别达到了0.982,0.928。
中图分类号: