计算机与现代化 ›› 2021, Vol. 0 ›› Issue (09): 1-6.

• 图像处理 •    下一篇

多场景融合的细粒度图像描述生成算法

  

  1. (福州大学物理与信息工程学院, 福建福州350108)
  • 出版日期:2021-09-14 发布日期:2021-09-14
  • 作者简介:李欣晔(1994—),女,福建福安人,硕士研究生,研究方向:计算机视觉,E-mail: 598172095@qq.com; 张承强(1993—),男,硕士研究生,研究方向:深度学习,计算机视觉,E-mail: 2541594024@qq.com; 周雄图(1982—),男,教授,博士,研究方向:信息显示技术,E-mail: xtzhou@fzu.edu.cn; 郭太良(1963—),男,研究员,硕士,研究方向:物理电子学,E-mail: gtl_fzu@hotmail.com; 张永爱(1977—),男,研究员,博士,研究方向:信息显示技术,E-mail: yongaizhang@fzu.edu.cn。
  • 基金资助:
    国家自然科学基金资助项目(61775038); 国家自然科学青年基金资助项目(61904031)

Multi-scene Fusion Algorithm for Fine-grained Image Caption

  1. (College of Physics and Information Engineering, Fuzhou University, Fuzhou 350108, China)
  • Online:2021-09-14 Published:2021-09-14

摘要: 针对图像描述生成任务在不同场景下表现不佳的缺点,提出一种融合卷积神经网络和先验知识的多场景注意力图像描述生成算法。该算法通过卷积神经网络生成视觉语义单元,使用命名实体识别对图像场景进行识别和预测,并使用该结果自动调整自注意力机制的关键参数并进行多场景注意力计算,最后将得到的区域编码和语义先验知识插入Transformer文本生成器中指导句子的生成。结果表明,该算法有效解决了生成的描述缺少关键场景信息的问题。在MSCOCO和Flickr30k数据集上对模型进行评估,其中MSCOCO数据集的CIDEr得分达到1.210,优于同类图像描述生成模型。

关键词: 图像描述生成, 卷积神经网络, 命名实体识别, 多场景注意力, Transformer结构

Abstract: In terms of the poor performance of image caption task in different scenes, a multi-scene image caption generation algorithm based on convolutional neural network and prior knowledge is proposed. The algorithm generates visual semantic units by convolutional neural network, then uses named entity recognition to identify and predict image scenes, uses the result of classifying to adjust the focusing parameter of self-attention mechanism automatically, and calculate the multi-scene attention score. Finally, the obtained region coding and semantic prior knowledge are inserted into Transformer text generator to guide sentence generation. The results show that the algorithm can effectively solve the problem that the caption lacks the key scene information. Evaluation indicators are used to evaluate the model on the MSCOCO dataset and Flickr30k dataset, and the CIDEr score of MSCOCO dataset reaches 1.210, which is better than similar image description generation models.

Key words: image caption, CNN, NER, multi-scene attention, Transformer structure