[论文翻译] RGBD Salient Object Detection via Deep Fusion[未完待续]

发布时间:2022-07-03 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了[论文翻译] RGBD Salient Object Detection via Deep Fusion[未完待续]脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

基于深度融合的RGBD显著目标检测

此文为07-ECCV-Accurate RGB-D Salient Object detection via Collaborative Learning中所注明的RGB-D首例研究,故在此全文翻译

摘要:RGBD显著性检测设计了各种低水平的显著性线索,如颜色和深度对比度特征以及背景和颜色紧致度先验。然而,这些低水平的显著性线索如何相互作用,以及如何有效地结合它们来生成主显著性图仍然是一个具有挑战性的问题。在本文中,我们设计了一种新的卷积神经网络(CNN)来自动学习RGBD显著目标检测的交互机制。与现有的将原始图像像素直接输入到CNN的方法相比,该方法利用了传统显著性检测中获得的知识,采用了各种灵活且可解释的显著性特征向量作为输入。这将引导CNN学习现有特征的组合,以便更有效地预测显著性,与直接对像素进行操作相比,这是一个不太复杂的问题。然后,我们将基于超像素的拉普拉斯传播框架与经过训练的CNN相结合,利用输入图像的内在结构来提取空间一致的显著性图。对三个数据集的大量定量和定性实验评估表明,所提出的方法始终优于最先进的方法。 关键词:RGBD显著性检测,卷积神经网络,拉普拉斯传播(Laplacian PRopagation)。

I 导言

显著性检测是预测人类在图像中的位置的一种方法,近年来引起了广泛的研究兴趣。它是许多任务重要预处理步骤,如图像分类、图像重定目标和对象识别[1]、[2]、[3]、[4]。与RGB显著性检测不同,RGB显著性检测受到了大量的研究关注,但对RGBD案例的探索却很少。最近出现的传感技,如飞行时间传感器和Microsoft Kinect,在捕获RGBD图像方面提供了卓越的能力和灵活性[5],[6]。检测RGBD显著性已成为许多应用的必要条件,如3D内容监视、检索和图像识别[7]、[8]、[9]。在本文中,我们重点研究如何将RGB信息与附加深度信息结合起来进行RGBD显著性检测[10],[11]。

根据使用的显著性定义,显著性检测方法可分为两类:自顶向下方法和自底向上方法[17],[18]。自上而下的显著性检测是一个依赖于任务的过程,它结合了高级特征来定位显著对象。相比之下,自底向上的方法是无任务的,并且利用生物动机的低级特征来估计显著区域。现有的自底向上的显著性检测方法大多集中于设计各种低水平的线索来表示显著的对象。然后,基于这些低级特征生成的显著性图被融合到主显著性图中。由于人类的注意力优先被高对比度区域及其周围环境所吸引,因此基于对比度的特征(如颜色、边缘方向或纹理对比度)在显著对象的提取中起着至关重要的作用。背景[19]和颜色紧凑性优先[20]从不同角度考虑显著对象。前者利用了大多数显著对象远离图像边界的事实,而后者利用了显著对象的颜色紧凑性。除了RGB信息外,深度已被证明是提取显著性的实用线索[21]、[22]、[23]、[24]。大多数现有的3D显著性检测方法要么使用深度信息对RGB显著性贴图进行加权[21],[24],要么将深度线索视为独立的图像通道[22],[23]。

[论文翻译] RGBD Salient Object Detection via Deep Fusion[未完待续]

图1:示出各种显著图合并方法的问题的示例。(a) 原始RGB图像。(b) 原始深度图像。(c) 地面真实显著图。(d) 由LMH生成的显著性图[12]。(e) 由ACSD生成的显著性图[13]。(f) GP生成的显著性图[14]。(g) LBE生成的显著性图[15]。(h) 至(j)显示(d)、(e)、(f)和(g)的显著性图积分结果。(h) 线性组合(即平均值)。(i) MCA集成[16]。(j) 基于CNN的融合。(k) 通过提出的超特征融合方法生成显著性图。

尽管这些特性已经证明是成功的,但是没有一个特性对所有场景都有效,因为它们从不同的角度定义了显著性。不同功能的组合可能是一个很好的解决方案。然而,手动设计一种交互机制来集成本质上不同的显著性特征是一个具有挑战性的问题。例如,线性组合这些特征产生的显著性图不能保证改进的结果(如图1h所示)。[25]、[26]、[16]、[27]、[12]、[14]中还提出了其他几种更复杂的组合算法。Qinet等人[16]提出了一种多层元胞自动机方法(MCA,一种贝叶斯框架),通过利用每种显著性检测方法的优点来合并不同的显著性图。最近,已经设计了几种启发式算法,用于将2D相关显著性映射与深度诱导显著性映射相结合[12],[14]。然而,由于受计算显著值的限制,这些显著图组合方法无法纠正错误估计的显著区域。例如,在图1中,基于启发式的算法(图1d至1g)无法正确检测显著对象。当这些显著性图用于进一步融合时,简单线性融合(图1h)和MCA积分(图1i)都无法恢复显著对象。我们想知道是否可以通过进一步采用卷积神经网络技术来训练显著性图积分模型来开发一种好的积分方法来解决这个问题。图1j所示的结果图像表明,显著性图集成受到输入显著性图质量的强烈影响。基于这些观察,我们后退一步,考虑更为粗糙和灵活的显著性特征。

在本文中,我们提出了一个深度融合框架来自动学习RGB和深度诱导显著性特征之间的交互机制,用于RGBD显著性检测。所提出的方法利用CNN的表示学习能力,通过融合不同的手设计显著性特征来提取超特征,以检测显著对象(如图1k所示)。我们首先计算原始RGBD图像的几个特征向量,包括局部和全局对比度、背景先验和颜色紧致先验。然后,我们提出了一个CNN架构,将这些区域特征向量合并成更具代表性和统一的特征。与原始图像像素相比,这些提取的显著性特征设计良好,能够更有效地指导CNN的训练朝向显著性优化方向。由于产生的显著性映射可能会受到局部不一致和噪声误报的影响,我们进一步将基于超像素的拉普拉斯传播框架与所提出的CNN相结合。这种方法通过考虑颜色和深度一致性以及输入图像的固有结构[28],将高置信度显著性传播到其他区域;因此,可以去除噪声值并生成平滑的显著性贴图。采用带预条件的共轭梯度法快速收敛地求解拉普拉斯传播问题。实验评估表明,一旦我们的深度融合框架得到适当的训练,它就可以很好地推广到不同的数据集,而无需任何额外的训练,并且优于现有的方法。

本文的主要贡献总结如下:

  • 我们提出了一个简单而有效的深度学习模型来学习RGB和深度诱导显著性特征的交互机制,用于RGBD显著性检测。与现有的以原始图像像素为输入的深度网络相比,这种深度模型方法采用各种灵活且可解释的显著性特征向量作为输入,可以更有效地引导CNN的训练朝向显著性优化。
  • 我们采用一种基于超像素的拉普拉斯传播方法来细化生成的显著性映射,并快速收敛地求解。与CRF模型不同,我们的拉普拉斯传播框架不仅考虑了空间一致性,还利用了输入图像的固有结构[28]。大量的实验进一步证明,所提出的拉普拉斯传播技术能够细化现有方法生成的显著性图,因此可以作为后处理步骤被广泛采用。
  • 我们研究了显著性图集成的局限性,并证明了简单的特征融合能够获得优异的性能。

II 相关工作

在本节中,我们将简要介绍和回顾RGB和RGBD显著性检测方法。关于这些显著性检测方法的综合文献综述见[29],[12]。

RGB显著性检测:认知科学[30]研究表明,自下而上显著性是由低水平刺激特征驱动的。这一概念也被用于计算机视觉中的显著性建模。基于对比度的线索,尤其是颜色对比度,是以前作品中最广泛采用的特征。这些基于对比度的方法大致可分为两类:局部方法和全局方法。局部方法计算像素/区域相对于局部窗口的颜色、边缘方向或纹理对比度,以测量其显著性[31],[32]。在[31]中,作者提出了一种信息论方法来估计中心像素与其周围分布之间的对比度,用于显著目标检测。Xieet al.[32]提出了一种基于中心环境原理的贝叶斯显著性模型,用于估计显著性图。然而,仅基于局部对比度,这些方法可能过分强调突出对象的边界[20],并且对高频内容敏感[33]。与局部方法相比,全局方法通过估计整个图像的对比度来评估显著区域。Achanta等人[34]通过计算平均图像颜色的色差来模拟显著性。Chenget al.[35]提出了一种基于直方图的全局对比显著性方法,该方法考虑了空间加权一致性。尽管这些全局方法实现了优异的性能,但当背景与显著对象具有相似的颜色时,它们可能会被误导。背景和颜色紧致度先验值是对基于对比度的方法的补充[19],[36],[20]。这些方法建立在强有力的假设之上,在某些情况下可能无效。

由于每种类型的特性都有不同的优点,一些工作侧重于设计针对不同显著特性[25]、[36]、[26]、[37]的集成机制。Liuet al.[25]使用CRF从局部和全局的角度集成了三个不同的特性。Y anet al.[26]提出了一个层次结构框架来集成不同尺度的显著性地图,该框架可以很好地处理小的高对比度区域。与以往方法直接结合不同显著性线索获得的显著性映射不同,该方法以向量形式记录低水平显著性特征,并通过CNN联合学习其交互机制,生成超特征。

与本方法一样,其他一些工作也采用了cnn来提取层次特征表示,以检测显著区域[38],[39],[40],[41],[42],[43]。其中一些方法[39],[40],[42]主要计算分层特征表示,以多尺度方式进行显著性检测。相比之下,其他的[44],[45],[46]采用了深度网络在全卷积架构(即fcN[47])下进行显著目标检测。这些FCN方法将整个图像作为输入,直接输出全局显著性图。为了更好地捕捉目标边界,我们使用了各种后处理方法来细化fcs的输出,如CRF[48]、[49]、正则化非线性回归[46]和边缘感知侵蚀[45]。相对于大多数以原始图像像素为输入的深度网络方法,本文方法旨在设计一个CNN框架来学习不同显著性线索之间的交互机制。

RGBD显著性检测:相对于RGB显著性检测,RGBD显著性的研究较少[21],[24],[23],[22],[50]。Maki等人提出的[21]方法是一种基于深度的注意力的早期计算模型,它测量了视差、流动和运动。与颜色对比度方法类似,张等人设计了一种基于深度和运动对比度的3D视频[24]立体视觉注意算法。Desinghet al.[23]通过融合基于外观和深度线索独立生成的显著图来估计显著区域。这些方法要么使用深度信息对RGB显著性映射[21],[24]进行加权,要么将深度映射视为用于显著性检测的独立图像通道[22],[23]。相比之下,PEnget al.[12]提出了一个多阶段RGBD模型,该模型结合了深度和外观线索来检测显著性。Renet al.[14]直接将归一化深度先验和曲面方向先验与RGB显著性线索集成到RGBD显著性检测中。与深度先验不同,Fenget al.[15]引入了一种新的局部背景封闭特征,直接从深度信息中测量显著结构,然后利用深度和空间先验重新加权该特征。这些方法将深度诱导显著性映射与RGB显著性映射结合,直接[13]、[14]或分层方式,计算出最终的RGBD显著性映射[12]。然而,这种显著映射级别集成并不是最优的,因为它受到确定显著值的限制。相比之下,我们将不同的显著性线索合并,并通过CNN在特征级别融合它们。

III 我们的方法

如图2所示,本文提出的RGBD显著目标检测深度融合框架由三个模块组成。第一模块为每个超像素区域生成各种显著性特征向量。第二模块从获得的显著性特征向量中提取超特征表示。第三个模块是拉普拉斯传播框架,它有助于生成空间一致的显著性图。

[论文翻译] RGBD Salient Object Detection via Deep Fusion[未完待续]

图2:本文方法的流程。我们的方法由三个模块组成。首先,从RGBD输入图像中生成不同的RGB和基于深度的显著性特征向量。然后将这些生成的显著特征向量提供给CNN。CNN以一个超像素的显著性特征向量作为输入(重塑为维度32×32×6),输出显著性置信值(该超像素属于显著性区域的概率)。最后,对得到的概率进行拉普拉斯传播,提取最终的空间一致性显著性图。

A.显著性特征向量的提取

脚本宝典总结

以上是脚本宝典为你收集整理的[论文翻译] RGBD Salient Object Detection via Deep Fusion[未完待续]全部内容,希望文章能够帮你解决[论文翻译] RGBD Salient Object Detection via Deep Fusion[未完待续]所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。