《Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation》论文解读

admin•2025-09-17 06:52:26•网站建设•阅读19

本文提出DiffewS框架旨在释放扩散模型在few-shot 语义分割中的潜力首先明确了将扩散模型应用于少射语义分割的四个关键问题：如何促进查询图像和支持图像之间的交互？如何有效地整合来自支持

本文提出DiffewS框架旨在释放扩散模型在few-shot 语义分割中的潜力

首先明确了将扩散模型应用于少射语义分割的四个关键问题：

如何促进查询图像和支持图像之间的交互？
如何有效地整合来自支持掩码的信息？
来自查询掩码的哪种形式的监督最合理？
如何设计一个有效的生成过程，将预先训练好的扩散模型转移到掩码预测任务中？

本文针对每个问题都提出若干解决方案并比较最后建立DiffewS

1、如何促进查询图像和支持图像之间的交互？

首先对于UNet中的第l层可以如下表示：
Xl+1=FFN(CrossAttn(SelfAttn(Xl),CLIPtext(t))) \mathbf{X}^{l + 1} = \text{FFN} \left( \text{CrossAttn} \left( \text{SelfAttn} \left( \mathbf{X}^l \right), \text{CLIP}_{text}(\mathbf{t}) \right) \right) Xl+1=FFN(CrossAttn(SelfAttn(Xl),CLIPtext(t)))
第一种方法为KV Fusion Self-Attention
Xq∗=FusionAttn(Xq,Xs)=Attention(Qq,Kqs,Vqs) \mathbf{X}_q^* = \text{FusionAttn}(\mathbf{X}_q, \mathbf{X}_s) = \text{Attention}(\mathbf{Q}_q, \mathbf{K}_{qs}, \mathbf{V}_{qs}) Xq∗=FusionAttn(Xq,Xs)=Attention(Qq,Kqs,Vqs)
其中KV为查询和支持concat

第二种方法为Tokenized Interaction Cross-Attention
Xq∗=CrossAttn(Xq,Flatten(CLIPimg(Is))) \mathbf{X}_q^* = \text{CrossAttn}(\mathbf{X}_q, \text{Flatten}(\text{CLIP}_{img}(\mathbf{I}_s))) Xq∗=CrossAttn(Xq,Flatten(CLIPimg(Is)))
使用CLIP的img编码并扁平化

2、如何有效地整合来自支持掩码的信息？

支持掩码转为RGB，随后经过VAE，与支持图像经过VAE的变量拼接再降维到对应维度
Is∗=Is⋅Ms\mathbf{I}_s^* = \mathbf{I}_s \cdot \mathbf{M}_sIs∗=Is⋅Ms，随后将Is∗\mathbf{I}_s^*Is∗经VAE
当作自注意力掩码
Is∗=0.5Is+0.5Ms\mathbf{I}_s^* = 0.5 \mathbf{I}_s + 0.5 \mathbf{M}_sIs∗=0.5Is+0.5Ms，随后将Is∗\mathbf{I}_s^*Is∗经VAE

经实验发现问题1、2均使用第一种方法最优

3、来自查询掩码的哪种形式的监督最合理？

White foreground + black background
Real foreground + black background
Black foreground + real background
Adding mask on real image

最后发现简单的White foreground + black background叠加三层就能最优（这也是问题二中方法1将掩码转RGB的方法）

4、如何设计一个有效的生成过程，将预先训练好的扩散模型转移到掩码预测任务中

Multi-step noise-to-mask generation (MN2M)

Multi-step image-to-mask generation (MI2M)

One-step image-to-mask generation (OI2M)

OI2M最优

上述设计针对one-shot，如何扩展到few-shot

仅推理时将多个1support image对应的kv拼接
训练时也考虑拼接

发现后者更优

实验结果

发布者：admin，转转请注明出处：http://www.yc00.com/web/1754376534a5153414.html

论文 Diffusion potential Unleashing Model

admin

网站建设
《论文阅读》Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memor
Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory 问题提出该问题面临的挑战本文创新点本文难题
admin
1月前
210
网站建设
《论文阅读》DialogXL: All-in-One XLNet for Multi-Party Conversation Emotion Recognition
《论文阅读》DialogXL: All-in-One XLNet for Multi-Party Conversation Emotion Recognition 简介思路出发点任务定义模型结构构造输入模型架构 Utterance
admin
1月前
200
网站建设
科研论文必须要了解的27个学术网站-人工智能机器学习
作者Toby，来源公众号：Python风控模型，科研论文必须要了解的27个学术网站各位同学大家好，我是Toby老师，今天介绍一
admin
1月前
230
网站建设
Stable Diffusion vs Midjunery的区别和选择
现在网上最多的关于AI绘画的工具莫过于stable diffusion（sd）和midjunery（mj）了，最近尝试了一番&am
admin
1月前
120
网站建设
如何快速翻译pdf英文论文(5分钟就可以翻译一篇几十页的英文论文)
一、问题：如何快速翻译pdf英文论文二、解决方法： 可以通过下面三个在线翻译来进行翻译pdf文档百度翻译有道翻译谷歌翻译方法：以有道翻译为例，
admin
1月前
170
网站建设
英文论文翻译免费工具哪个好？5款告别繁琐翻译
在浩瀚的学术海洋中，英文论文如同璀璨的星辰，引领着知识的探索之旅。但语言障碍往往让许多学者望而却步。不知道哪个软件能把英文论文翻译成中文？别担心，今天我
admin
1月前
200
网站建设
【Stable Diffusion】提示词自动翻译插件prompt-all-in-one
在Stable Diffusion中，我们输入的提示词只能识别英文的。如果使用的秋叶整合包的话，里面是已经包含了一个提示词联想插件的。比如我们输一个“1”，就能看到下方联想
admin
1月前
130
网站建设
【系统架构设计师】论文：论高可靠性系统中软件容错技术的应用
论文：论高可靠性系统中软件容错技术的应用文章目录论文一摘要正文总结论文二摘要正文总结论文三摘要正文总结论文一摘要 2022年3月，我所就职的国内某某知名互联网公司组织研发了一套分布式支付平台，该支付平台主要
admin
1月前
190
网站建设
论文阅读技巧
The note of "You are how you read" Harry ShumPaper typesIn computer scienceTile and levels of summarizationCri
admin
1月前
150
网站建设
SCI论文写作（二） | SCI论文的引言(Introduction)部分
引言部分在摘要之后。引言部分应向读者简要介绍您的主题以及进行研究的原因。介绍是设置场景并给人留下良好第一印象的完美场所。关于字数，引言一般占论文的10-15%，例如，如果你的
admin
1月前
260
网站建设
ESRGAN - Enhanced Super-Resolution Generative Adversarial Networks论文翻译——中英文对照
文章作者：Tyan 博客：noahsnail | CSDN | 简书声明：作者翻译论文仅为学习，如有侵权请联系作者删除博文&#xff
admin
1月前
180
网站建设
LLMs之Alpaca：《Alpaca: A Strong, Replicable Instruction-Following Model》翻译与解读
LLMs之Alpaca：《Alpaca: A Strong, Replicable Instruction-Following Model》翻译与解读导读：2023年3月13日发布Alpaca&
admin
1月前
220
网站建设
Stable Diffusion WebUI 中调度器（Schedule type）简单研究
??内容概要在近期，stable diffusion webui更新了1.9版本，其中包含的一项变化就是，把采样器和调度器（Schedule typ
admin
1月前
240
网站建设
polyhedral model schedule tree
前言当前主流的基于polyhedral model的deep learning compiler 例如Tensor Comprehensions（Tensor Comprehensions: Framework-A
admin
1月前
270
网站建设
012_SSS_ Improving Diffusion Model Efficiency Through Patching
Improving Diffusion Model Efficiency Through Patching本文主要是在思路上比较具有创新性. Diffusion需要成百上千的采样步, 这是Diffusion采样速度慢的重要原因. 因此,
admin
1月前
170
网站建设
Ultra Fast Structure-aware Deep Lane Detection论文解读
这是一篇ECCV2020的文章文章：https:arxivabs2004.11757 代码：GitHub - cfzdUltra-Fast-Lane-Detection: Ultr
admin
1月前
180
网站建设
论文笔记 StructCoder: Structure-Aware Transformer for Code Generation
目录简单介绍摘要相关模型结构的比较本文的贡献 StructCoder模型与设计符号表示 Code AST DFG 编码器Encoder 输入编码Input emdedding 具有结构感知力的自注意力机制
admin
1月前
210
网站建设
论文笔记《Spatio-Temporal Graph Structure Learning for Traffic Forecasting》
【论文】 Zhang Q, Chang J, Meng G, et al. Spatio-Temporal Graph Structure Learning for Traffic Forecasting[C]Proceedings o
admin
1月前
310
网站建设
大数据开发Stable Diffusion电脑千元配置清单
大数据开发电脑配置清单电脑型号HUANANZHI 台式电脑操作系统Windows 11 专业版 64位（Version 23H2DirectX 12）处理器英特尔 Xeon(至强) E5-2
admin
1月前
150
网站建设
第一课-前提-Stable Diffusion 教程
首先介绍下这个系列课程：Stable Diffusion 是一个流行的 Ai 绘图工具。简称 SD。这个课程将手把手教会你如何使用 SD 绘图。课程内容：学习完这个系列课程，
admin
1月前
210

发表回复

评论列表（0条）

暂无评论

《Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation》论文解读

本文提出DiffewS框架旨在释放扩散模型在few-shot 语义分割中的潜力

1、如何促进查询图像和支持图像之间的交互？

2、如何有效地整合来自支持掩码的信息？

3、来自查询掩码的哪种形式的监督最合理？

4、如何设计一个有效的生成过程，将预先训练好的扩散模型转移到掩码预测任务中

上述设计针对one-shot，如何扩展到few-shot

实验结果

发表回复

评论列表（0条）

联系我们

400-800-8888

《Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation》论文解读

本文提出DiffewS框架旨在释放扩散模型在few-shot 语义分割中的潜力

1、如何促进查询图像和支持图像之间的交互？

2、如何有效地整合来自支持掩码的信息？

3、来自查询掩码的哪种形式的监督最合理？

4、如何设计一个有效的生成过程，将预先训练好的扩散模型转移到掩码预测任务中

上述设计针对one-shot，如何扩展到few-shot

实验结果

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888