Unknown Prompt, the only Lacuna: Unveiling CLIP’s Potential for Open Domain Generalization

Unknown Prompt, the only Lacuna: Unveiling CLIP’s Potential for Open Domain Generalization 现有的ODG解决方案由于传统CNN骨干网络的有限泛化能力

Unknown Prompt, the only Lacuna: Unveiling CLIP’s Potential for Open Domain Generalization

现有的ODG解决方案由于传统CNN骨干网络的有限泛化能力以及在缺乏先验知识的情况下检测目标开放样本的错误而面临限制。为了解决这些问题,我们提出了ODG-CLIP,利用视觉-语言模型CLIP的语义能力。我们的框架提出了三项主要创新:首先,与现有范式不同,我们将ODG概念化为一个多类分类挑战,涵盖已知和新类别。我们的方法的核心是建模一个独特的提示,专门用于检测未知类别样本,并为此,我们采用一个易于获取的稳定扩散模型,优雅地生成开放类别的代理图像。其次,旨在确保精度和简单性的平衡,我们设计了一种新的以视觉风格为中心的提示学习机制,以获得领域定制的分类(提示)权重。最后,我们将来自提示空间的类别区分知识注入图像,以增强CLIP视觉嵌入的保真度(嵌入的准确性和对类别特征的表达能力)。我们引入了一种新目标,以确保这种注入的语义信息在不同领域之间的连续性,特别是对于共享类别。

  • [dom] 领域标记是基于图像x的视觉特征嵌入(Fv(x))的均值和标准差计算得出的。这个标记的目的是将图像的领域信息编码为一个可以被模型理解和处理的形式。
  • 领域标记[dom]通过一个投影器Fdom映射到文本空间。这个投影器是一个可训练的模型组件,它将领域标记从视觉特征空间转换到文本特征空间,使得领域信息可以与文本提示(如类别名称)结合。
  • 除了领域标记和类别名称嵌入,模型还学习了一组通用标记(ν和ω)。这些标记是直接从数据中学习得到的,它们不特定于任何领域,而是用于捕捉更广泛的、跨领域的

发布者:admin,转转请注明出处:http://www.yc00.com/web/1754376487a5153412.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信