计算机与现代化 ›› 2024, Vol. 0 ›› Issue (09): 121-126.doi: 10.3969/j.issn.1006-2475.2024.09.020
• 图像处理 • 上一篇
摘要: 单目深度估计是计算机视觉领域中一项基础任务,其目标是通过单张图像预测深度图,并获取每个像素位置的深度信息。本文提出一种新的单目深度估计网络结构,旨在进一步提高网络的预测准确性。转置注意力机制在降低参数量和计算量的同时引入了自注意力机制,以关注图像中的特定区域,并结合不同通道之间的信息。这种机制能够有效地关注到图像中的细小区域和边缘信息,并进行学习。本文还提出一种改进的转置注意力机制,以更少的参数量保留语义信息。多尺度深度融合根据不同通道提取不同深度特征的特点,计算每个通道的平均深度,以增强模型的深度感知能力。此外,它能够建模垂直距离的长距离关系,有效地分离物体之间的边缘,有助于减少细粒度信息的损失。最后,本文在NYU Depth V2数据集和KITTI数据集上进行实验,验证了所提出模块的有效性,并取得了出色的性能表现。
中图分类号: