计算机与现代化 ›› 2024, Vol. 0 ›› Issue (12): 15-23.doi: 10.3969/j.issm.1006-2475.2024.12.003
摘要: 服饰图案是人们展示个性与时尚的窗口。近年来,随着多模态技术的不断发展,基于文本的服饰图案生成得到了充分研究。但现有方法由于结合语义性较差和分辨率不高等问题并未得到很好的应用。大规模语言-图像预训练模型CLIP提出后,各种预训练扩散模型结合CLIP做文本图像生成任务已成为该领域的主流方法。但原始预训练模型对下游任务泛化能力较差,单纯依靠预训练模型并不能灵活准确控制服饰图案的颜色和结构,且其庞大的参数量很难从头重新训练。为解决上述问题,本文设计一个基于Stable Diffusion改进的网络FT-SDM-L(Fine Tuning-Stable Diffusion Model-Lion),该网络使用服饰图像文本数据集,对原模型中的交叉注意力模块进行权重更新。实验结果表明,微调后模型的ClipScore及HPS v2分数平均提高了0.08和1.22,验证了该模块在结合文本信息中的重要能力。随后为进一步增强模型在服饰领域的特征提取和数据映射能力,在该模块输出位置设计添加一个轻量级适配器Stable-Adapter,最大限度地感知输入提示的变化。该适配器仅额外增加0.75%的参数就可使模型的ClipScore及HPS v2分数进一步提高0.05、0.38。模型在服饰图案生成的保真度和语义一致性上均取得良好效果。
中图分类号: