【Human
1 contributions
- 提出了一种感知人类的去模糊网络,可以区分前景和背景
- 首次集成了一种可区分、有监督的注意力机制,可专注于前景和背景。
- 提出了一种多头解码器,显式建模前景和背景的运动模糊,并综合各个领域的信息,进行全局去模糊
- 数据集
1.1 网络
1.1.1 可微分有监督注意力机制
这里的注意力机制的实现大致是这样的,用一个网络得到一张图片各个特征的重要性(也就是一个指标,去衡量是否要关注这个特征),本文是关注人类,并采用的是软注意力,就是对各个特征生成一个介于[0,1]之间的值,来衡量这个特征关键与否。进一步讲,就是在有人的地方这个值会较高,没人的话这个值会较低。
由于这个注意力机制注意的是人类,这个系数(权重)矩阵和原图片逐个元素相乘就得到了文中的FG(前景);更巧妙的是,由于这个系数介于[0,1],因此,背景BG的系数矩阵应该和前景FG的稀疏矩阵每个位置的值相加都为1,自然就得到了背景。
因此,说是可区分注意力机制,实际上只要注意到前景的内容,自然就得到了前景FG,背景BF,和全景三个尺度的信息,也就可以说注意到了三个尺度。
这个过程的实现,主要依赖于本文提出的HIDE数据集,这个数据集对每张图片人类的部分做了标注,使得神经网络可以学到如何定位到一张图片中人类所处的位置,这自然就得到了前景信息。
1.1.2 多头解码器
多头解码器,有着不同的输入,分别是前景FG信息,BG信息和全景信息,各个头解码器各司其职。在实现上,值得注意的是,网络的最终输出不是直接整合三头解码器的各个输出来得到的。而是在前景FG和背景BG解码过程中,将各个过程的信息都作为全局解码器信息的输入,这样有利于生成一张全局范围内和谐的图片。
文章还提到了本文提出的网络是具有多尺度结构。其一,是对图片进行粗调的去模糊处理(可能采用的是之前的去模糊网络,或者说是一些更简单的方法);注意力机制和原模糊图构成了第二第三个尺度。
1.2 数据集
同GoPro数据集类似,但是多了人类区域的标注。
2 knowledge
2.1 pixel、patch、image-wise
参考 图像分割的一些术语
概括为,对图像处理基于图像的单位(或者说单元、元素)不同,上三者分别是基于像素级、补丁块级、整个图像级,进行的处理。
2.2 自然图像先验
参考 自然图像先验
自然图像处理领域的很多问题大都是反问题,是ill-posed的(大都是解不唯一),因此需要一些假设与限制来对该问题进行约束,变换成well-posed问题,这些假设与限制来源于图像本身的性质,就是先验。
常用的自然图像先验有:局部平滑性、非局部相似性、非高斯性、统计特性、稀疏性。
2.3 soft与hard
同许多数学领域中的soft和hard相同,soft attention与hard attention的区别如字面意思,对于soft,
是由一个区间([0,1])里的连续值,作为系数,来刻画attention的轻重缓急;反之hard就是离散的0和1来
表示,注意与否。
2.4 全卷积
以前认为全卷积神经网络指的就是FCN,确忽略了整个名字本身的含义。
全卷积意味着网络架构中不存在全连接层,只有卷积层。
2.5 artifacts
3 心得与不足
3.1 心得
本文是笔者首次阅读有关运动模糊的文章,通篇阅读下来,整体感觉还不错,只是对于一些新提出的名词,尤其是在为介绍相关具体如何实现时,尤为懵圈。
如贯穿本文的Human-Aware就给我挺大的困扰,之前一直不知道这个词是什么意思,翻译为人类感知,最初一度以为,这种去模糊是基于人的感知来实现的;还有一个 differentiable and supervised attention mechanism,主要的疑问就在于这个differentiable,翻译为可微分的,可区分的。最初以为是微分,但最终根据用途,确定应该是区分。
还有一个疑问就是多尺度网络结构,以及网络架构图中的Result from prior coarse-level,不知从何而来。
去模糊问题是一个ill-posed的问题,那么需要采用的相应的假设进行限制本文就没有提到。那么问题来了,相对于一张人脸模糊的图片,在去模糊前基本难以辨别身份,在去模糊后就可以大致辨别身份了,这样看来它就没有说摆脱了ill-posed问题范围。
3.2 不足
- 本文聚焦于人类运动模糊的去除,相信这也恰恰局限了它在别的运动模糊上很难达到相同的效果
- 本文采用的数据集是合成数据集,这也必将导致在处理真实的模糊场景中出现问题,这也是很多工作的通病。纯粹的监督学习去模糊,可能都难以泛化于真实的场景
- Blind or Non-Blind,本文处理的模糊图片,均可知道是如何生成的,也就是说,这个模糊核是已知的,但是相信本文的处理方式应该是将这一条件当作未知进行的。也就是说,我们就算得到了一个不错的去模糊网络,也难以说明它是如何做到的,或者说无法显式表示模糊核(有无必要)
发布者:admin,转转请注明出处:http://www.yc00.com/news/1706327135a1450962.html
评论列表(0条)