【论文阅读笔记】Tune-An-Ellipse: CLIP Has Potential to Find What You Want

来源:CVPR 2024 源码:GitHub - showlabTune-An-Ellipse: [CVPR 2024] Tune-An-Ellipse: CLIP Has Potential

来源:CVPR 2024

源码:GitHub - showlab/Tune-An-Ellipse: [CVPR 2024] Tune-An-Ellipse: CLIP Has Potential to Find What You Want

动机

①直接使用CLIP定位引用表达式中描述的对象是有一定的挑战性的

②只使用Grad-CAM也有局限性:容易产生错误的注意力,因此无法准确定位特定物体

创新点

提出了一种新颖、简单而有效的方法,即可区分的视觉提示,使 CLIP 本身能够定位引用表达式中描述的对象,而无需精确指定的对象提议

摘要

大型视觉语言模型(例如CLIP)的视觉提示具有有趣的零样本功能。手动绘制的红色圆圈通常用于突出显示,可以引导CLIP对周围区域的注意,以识别图像中的特定对象。但是,如果没有精确的object proposals,则不足以进行本地化。我们的新颖、简单而有效的方法,即可区分的视觉提示,使CLIP可以实现零样本定位:给定图像和一个描述对象的文本提示,我们首先通过视觉提示从图像网格上从均匀分布的锚椭圆中选择一个渲染的椭圆,然后使用三个损失函数调整椭圆系数,以逐渐封装目标区域这产生了有希望的实验结果,用于指代表达理解,而无需精确指定的object proposal。此外,我们系统地介绍了CLIP中固有的视觉提示的局限性,并讨论了潜在的解决方案。

方法

首先在图像上进行均匀的锚点采样,然后为每一个锚点生成M个椭圆框,通过计算椭圆框与文本的相似性,选择最佳的椭圆框,使用三个损失函数微调椭圆框的系数,直到椭圆框最接近真实目标区域

方法细节:

①如何得到椭圆(可区分的视觉提示):

根据主轴a、次轴b、旋转角度θ,可以椭圆中心点参数化为椭圆曲线,如公式(1);

然后给这个椭圆曲线一个网格,根据欧几里得距离,可以获得一个矩阵D(椭圆上的值为0);

将网格的欧氏距离D通过非正则化的高斯分布转变为近似椭圆曲线的矩阵C,如公式(2),其中µ和σ代表均值和方差。通过设置µ = 0和适当的σ,可以近似旋转的椭圆曲线,并用于在视觉上提示图像I到I'(如图2(e)到(b)所示);

通过反正切函数g(·)将D转换成近似二值化旋转椭圆的掩码模板M,如公式(3)【从图2(d)到图2(f)说明了这种转换】,其中,ϵ控制模糊性,g(·)可以是任何函数,例如Sigmoid函数,能够近似于Heaviside步骤函数。

②如何初始化椭圆(椭圆系数调整,获得目标区域的椭圆):一张图片N个锚点,每个锚点绘制M个椭圆,所以一张图片会有N*M个椭圆(提示图像),如图2(a)所示,计算每一个椭圆与指代表达式的相似度得分,并且使用grad-cam热力图计算一组平均激活值(用到了A、M;【通过在图像文本对(i,t)上应用grad-cam获得的激活图表示为A】【M就是旋转椭圆的掩码模板M】);然后选择平均激活值前K个平均激活值得提案初始化椭圆系数;

③如何优化椭圆:选用MLP模型调整椭圆的位置;设计了三个损失函数:1.基于相似度得分的匹配损失Lsim,如公式(4)   2.为了防止模型进入局部最优解:膨胀损失+挤压损失,分别如公式(5)、公式(6)

最终的算法如下图所示:

【注意】object proposal(目标提议或候选区域):是指在图像中生成的一组可能包含目标对象的候选区域。这些候选区域是图像中的一部分,通常通过某种算法生成,目的是帮助模型更高效地定位和识别图像中被自然语言表达所指代的对象。

发布者:admin,转转请注明出处:http://www.yc00.com/web/1754376564a5153417.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信