摘要
- 作为各种视觉应用中的基本和关键任务,图像匹配可以从两个或多个图像中识别然后对应匹配相同或相似的结构/内容。在过去的几十年里,越来越多的图像匹配方法被提出,特别是随着近年来深度学习技术的发展。
- 不同的场景和任务要求,哪种方法适合特定应用,如何设计出更好的图像匹配方法,在准确性、鲁棒性和效率方面具有卓越的性能,是主要的几个问题。
- 文章将对经典(手工设计)和最新(深度学习)的技术进行全面和系统的回顾和分析。
- 按照基于特征的图像匹配管道,我们首先介绍了从手工方法到可训练方法的特征检测、描述和匹配技术,并对这些方法在理论和实践上的发展进行了分析。
- 其次,简要介绍几个典型的基于图像匹配的应用,以全面了解图像匹配的意义。此外,还通过在代表性数据集上的大量实验,对这些经典技术和最新技术进行了全面客观比较。
- 最后,对图像匹配技术的现状进行了总结,并对未来的工作进行了深刻的讨论和展望。
介绍
图像匹配(image matching),也称为图像配准或对应,旨在从两个或多个图像中识别然后对应相同或相似的结构/内容。该技术用于高维结构恢复以及信息识别和集成,如三维重建、视觉同步定位和映射(VSLAM)、图像镶嵌、图像融合、图像检索、目标识别和跟踪以及变化检测等。
图像匹配在配对两个对象方面具有丰富的意义,因此衍生出许多特定的任务,例如稀疏特征匹配、密集匹配(如图像配准和立体匹配)、补丁匹配(检索)、二维和三维点集配准以及图形匹配。
图像匹配一般由两部分组成,即匹配特征的性质和匹配策略,它们分别表示用于匹配的内容和如何匹配。最终的目标是将图像在几何上映射到参考图像的共同空间坐标系中,并将它们的共同区域进行像素对像素的对齐(即图像注册)。
-
直接法策略,也被称为基于区域的方法,通过使用原始图像像素强度的相似性测量或在预定大小的滑动窗口甚至整个图像的像素域变换后的信息来注册两个图像,而不试图检测任何突出的图像结构。
-
另一种经典且被广泛采用的管道(Pipeline)称为基于特征的方法,即特征检测和描述,特征匹配,变换模型估计,图像重采样和变换,因其灵活性和鲁棒性以及广泛的应用能力而广受欢迎。特别是,特征检测可以从图像中提取独特的结构,特征描述可以被视为一种图像表示方法,广泛用于图像编码和相似性测量,如图像分类和检索。
-
此外,由于深度学习技术在深度特征获取和非线性表达方面具有较强的能力,应用深度学习技术进行图像信息表示和/或相似性测量,以及图像对变换的参数回归是当今图像匹配界的热点,与传统方法相比,这些方法具有更好的匹配性能和更大的潜力。
在现实环境中,用于匹配的图像通常取自相同或相似的场景/对象,同时在不同时间、不同视点或成像模式拍摄。特别是,需要一种鲁棒和高效的匹配策略来建立正确的对应关系,从而刺激各种方法以实现更好的效率、鲁棒性和准确性。尽管几十年来已经设计了许多技术,但在以下方面开发统一框架仍然是一项具有挑战性的任务:
-
直接法通常依赖于适当的补丁相似性测量,以创建图像之间的像素级匹配。它们的计算成本可能很高,并且对图像失真、噪声引起的外观变化、不同的照明和不同的成像传感器敏感,这可能会对相似性测量和匹配搜索产生负面影响。因此,通常这些方法只能在小旋转、缩放和局部变形下才能很好地工作。
-
基于特征的匹配方法通常更有效,并且可以更好地处理几何变形。但它们基于显著特征检测和描述、特征匹配和几何模型估计,这也具有挑战性。一方面,在基于特征的图像匹配中,很难定义和提取现实世界中三维空间中属于相同位置的高比例和大量特征来保证匹配性。另一方面,将 N 个特征点与在另一个图像中检测到的 N 个特征点匹配将总共创建 N!可能的匹配,并且通常从高分辨率图像中提取数千个特征,并且点集中通常包含占主导地位的异常值和噪声,这给现有匹配方法带来了重大困难。尽管已经提出了各种局部描述符并结合检测到的特征来简化匹配过程,但使用局部外观信息将不可避免地导致歧义和大量错误匹配,特别是对于质量低、内容重复的图像以及经历严重非刚性变形和极端视点变化的图像。
-
通常需要预定义的变换模型来指示两个图像或点集之间的几何关系。但它可能会因不同的数据而异,并且事先是未知的,因此很难建模。对于涉及由地表波动和图像视点变化引起的非刚性变换、具有不同运动属性的多目标以及局部失真的图像对,简单的参数化模型通常是不够的。
-
深度学习的出现为解决图像匹配问题提供了一种新的方式,并显示出巨大的潜力。然而,它仍然面临一些挑战。当应用于宽基线图像立体或复杂严重变形下的配准时,从图像中学习直接配准或变换模型估计的选项受到限制。卷积神经网络 (CNN) 在稀疏点数据上进行匹配、配准和转换模型估计也很困难,因为要匹配的点(由于其无序和分散的性质而被称为非结构化或非欧几里得数据)使得操作和提取两个或多个点之间的空间关系变得困难(例如, 相邻元素、相对位置以及多点之间的长度和角度信息)使用深度卷积技术。
以下将会从特征检测、特征描述、特征匹配、应用、实验,分别展开讨论技术的演变与推进过程。
特征检测
早期的图像特征是手动注释的,这些特征仍然用于一些低质量的图像匹配。随着计算机视觉的发展和对自动匹配方法的需求,已经引入了许多特征检测方法来从图像中提取稳定且独特的特征。
特征检测器概述
检测到的特征表示图像或现实世界中的特定语义结构,可以分为角特征,斑点特征,线/边缘和形态区域特征。但是,用于匹配的最流行的功能是点(也称为关键点或兴趣点)。与线和区域特征相比,这些点易于提取和定义,简化形式可大致分为角和斑点。
一个好的关键点必须易于找到,并且最好是快速计算,因为一个好位置的兴趣点对于进一步的特征描述和匹配至关重要。为了促进可匹配性,后续应用的能力,以及匹配效率和降低存储要求,已经提出了许多可靠的特征提取所需的属性,包括可重复性、不变性、鲁棒性和效率。
特征检测的常见思想是构建特征响应,以区分突出点、线和区域,以及平坦和非独特的图像区域。这个想法随后可以分为梯度、强度、二阶导数、轮廓曲率、区域分割和基于学习的探测器。在下文中,我们将全面介绍使用这些方法的特征检测器,更多地关注基于学习的方法,以指导研究人员了解传统和可训练检测器的工作原理,并深入了解它们的优势和劣势。
角点特征
角点特征可以定义为两条直线的交叉点,其形式为“L”、“T”、“X”或轮廓的高曲率点。角点检测的常见思想是计算角点响应并将其与边缘、平面或其他不太明显的图像区域区分开来。传统的拐角搜索可以使用不同的策略,即基于梯度、强度和轮廓曲率的策略。
基于梯度的检测器
基于梯度的角响应倾向于使用图像中的一阶信息来区分角特征。最早的自动角点检测方法可以追溯到Moravec检测器(Moravec 1977),它首先引入了“兴趣点”的概念来定义不同的特征点,这些特征点是根据局部强度的自相关提取的。该方法从八个方向的偏移窗口计算并搜索每个像素的最小强度变化,如果最小值优于给定阈值,则检测兴趣点。
然而,由于不连续地比较方向和尺寸,Moravec探测器对方向或图像旋转并不是不变的。著名的 Harris探测器(Harris等人,1988)被引入来解决各向异性和计算复杂性问题。Harris 方法的目标是使用二阶矩矩阵或自相关矩阵找到最快和最低灰值变化的方向;因此,它不受方向和照明的影响,并具有可靠的可重复性和独特性。Harris在Shi和Tomasi(1993)中进一步改进,通过使特征更加“分散”和更准确地定位,以获得更好的跟踪性能。
基于强度的探测器
通过将周围像素的强度与中心像素的强度进行比较,提出了几种基于模板或强度比较的角探测器,以简化图像梯度计算。由于其二进制性质,它们广泛用于许多现代应用程序,特别是一些具有存储和实时要求的应用程序。
基于强度的角探测器,即最小单值段同化核(SUSAN)(Smith and Brady 1997),是基于局部半径区域像素与原子核之间的亮度相似性。SUSAN可以快速实现,因为它不需要梯度计算。
基于亮度比较的概念,最著名的是FAST探测器(Trajković和Hedley 1998)。FAST使用沿圆圈图案的每个像素与中心像素的二进制比较,然后使用机器学习(即ID3树Quinlan 1986)策略确定更可靠的角落特征,该策略在大量相似的场景图像上进行训练,可以生成角落选择的最佳标准。作为SUSAN的改进,FAST非常高效,具有高重复性,并且使用更广泛。
为了在不损失效率的情况下提高 FAST,引入了 FAST-ER(Rosten等人,2010年),通过基于以原子核为中心的进一步像素强度比较来概括探测器,从而提高可重复性。另一个改进是 AGAST(Mair等人,2010),其中定义了另外两个像素亮度比较标准,然后在扩展的配置空间中训练最佳和专门的决策树,从而使 FAST 探测器更加通用和自适应。
为了结合 FAST 的效率与 Harris 探测器的可靠性,Rublee等人(2011)提出了一种集成的特征检测器和用于匹配的描述符,称为 ORB。ORB 使用 Harris 响应选择一定数量的 FAST 角作为最终检测到的特征。局部面块的灰度质心和中心像素本身形成一个向量来表示ORB特征的主要方向,这有助于计算ORB中二进制描述符的相似性。
最近,有人提出了一种类似 Sadder 的探测器(Aldana-Iuit等人,2016年)来提取兴趣点。在该检测器中,通过对具有某些几何约束的两个同心环进行强度比较,可以有效地验证鞍座条件。与传统方法甚至现代可训练方法相比,Sadder 检测器可以实现更高的可重复性和更大的扩散范围(Komorowski 等人,2018 年)。
基于曲率的探测器
角特征提取的另一种策略是基于检测到的高级图像结构,例如边缘、轮廓和突出区域。角特征可以立即定义为中点/端点或来自边或等值线的稀疏采样(Belongie 等人,2002 年)。用于形状匹配或点配准,特别是对于纹理或二进制类型的图像对。基于曲率的策略旨在根据检测到的图像曲线状边缘提取具有最大曲率搜索的角点。该策略从边缘提取和选择方法开始,随后的两个步骤是曲线平滑和曲率估计。最后通过选择曲率极值点来确定角点。一般来说,在基于轮廓曲率的角落检测中,往往首先需要一个边缘检测器。
在曲线平滑中,由于曲线点的量化位置,斜率和曲率难以评估。曲线中的噪声和局部变形也可能导致对特征稳定性和独特性的严重影响。因此,应在曲率计算之前或期间实施平滑方法,以使曲率极值点与其他曲线点更明显。通常使用两种平滑策略,即直接和间接方法。直接平滑,如高斯平滑,去除了噪声,并可能在一定程度上改变曲线位置。相比之下,在间接平滑策略中,例如,支撑区域法或基于弦长的方法,可以保留曲线点位置。
对于曲率估计,对于平滑曲线的每个点,都需要一个显著性响应度量来进行角搜索,即曲率。曲率估计方法通常也分为直接和间接。前者基于代数或几何估计,例如余弦,局部曲率和切向挠度。后者以间接方式估计曲率,通常用作显著性度量,例如计算沿曲线通过几个移动矩形的曲线点的数量,使用从连接曲线两个端点到曲线点的弦的垂直距离,以及其他替代方案. 与间接估计方法相比,由于邻点考虑较少,直接估计方法对噪声和局部变化更敏感。
最后,可以使用阈值策略确定拐角以消除错误和不明显的点。可以从基于轮廓曲率的拐角测量中获得更多详细信息。此外,最近还提出了一种名为 MSFD(Mustafa等人,2018)的基于多尺度分割的角探测器,用于宽基线场景匹配和重建。使用现成的分割方法在三个或更多区域的边界交点检测 MSFD 中的特征点。MSFD可以生成丰富而准确的角特征,实现宽基线图像匹配和高重建性能。
总结
上述角特征检测器很容易定位在图像的轮廓或边缘结构中,并且受到两个图像之间的比例和仿射变换的限制。在3种类型的角点检测策略中,基于梯度的方法能够更准确地定位,而基于强度的方法显示出效率优势。基于轮廓曲率的方法需要更多的计算,但它们是处理无纹理或二值图像(例如红外和医学图像)的更好选择,因为基于图像提示的特征描述符不适用于这些类型的图像,并且基于点的描述符通常耦合用于匹配任务(即点集配准或形状匹配)。
斑点特征
斑点特征通常表示为局部封闭区域(例如,具有规则形状的圆形或椭圆形),其中像素被认为彼此相似,并且与周围的邻域不同。在过去的几十年中,已经引入了许多斑点特征检测器,它们可以大致分为基于二阶偏导数和区域分割的检测器。基于二阶偏导数的方法基于仿射不变量的拉普拉斯尺度选择和/或黑森矩阵计算。而基于分割的方法更喜欢通过首先分割形态区域来检测斑点特征,然后使用椭圆拟合估计仿射信息。与角特征相比,斑点特征对于精度要求较高的视觉应用更有用,因为更多的图像线索用于特征识别和表示,从而使斑点特征对图像变换更加准确和鲁棒。
基于二阶偏导数的探测器
在基于二阶偏导数的方法中,基于尺度空间理论应用了高斯拉普拉斯(LoG)。在这里,首先根据图像二阶微分中的过零点使用拉普拉斯算子进行边缘检测,然后应用高斯卷积滤波作为预处理来降低噪声。
LoG 可以检测局部极值点和由高斯核的圆对称性引起的归一化响应的区域。高斯函数的不同标准差可以通过搜索多尺度空间中的极值作为最终的稳定斑点特征来检测不同尺度上的尺度不变斑点。高斯的差分(DoG)(Lowe等人,1999;Lowe 2004)滤波器可用于近似LoG滤波器,并大大加快了计算速度。另一种经典的斑点特征检测策略是基于 Hessian(DoH)的行列式(Mikolajczyk和Schmid 2001,2004)。 这是更多的仿射不变性,因为第二个矩阵的特征值和特征向量可以应用于估计和校正仿射区域。
通过使用 DoG,DoH 和两者进行的兴趣点检测在最近的视觉应用中得到了广泛的应用。著名的 SIFT(Lowe等人,1999年;Lowe(2004)提取关键点作为DoG金字塔中的局部极值,使用局部强度值的 Hessian矩阵进行过滤(下一节将回顾相应的描述部分)。Mikolajczyk等人将 Harris和Hessian探测器与 Laplacian和Hessian矩阵相结合,用于尺度和仿射特征检测(Mikolajczyk和Schmid 2001,2004),即Harris/Hessian-Laplacian/仿射。 SURF(Bay等人,2006)通过使用 Haar小波计算和积分图像策略近似基于Hessian矩阵的探测器来加速SIFT,从而简化了二阶微分模板的构建。
一些基于 SIFT 和 SURF 的改进已经相继提出,以便在随后的应用中提供更好的性能。这些改进包括一个完全仿射不变的SIFT探测器(ASIFT)(Morel and Yu 2009),一个中心环绕极值(Agrawal等人,2008)策略特征检测器,其拉普拉斯计算近似于提议的双边滤波以提高效率,以及在 DART 中使用分段三角形滤波器有效逼近DoH(Marimon等人,2010 ).此外,在 SIFT-ER检测器中使用余弦调制高斯滤波器(Mainali等人,2013年),以最小的尺度空间定位误差获得高特征可检测性,其中滤波器组系统具有高精度的滤波器近似,没有任何图像子/上采样。基于边缘焦点的斑点检测器(Zitnick and Ramnath 2011)也被引入用于匹配任务。在此检测器中,边缘焦点定义为图像中与最近边缘大致等距且方向垂直于该点的点。
与圆状高斯响应函数不同,KAZA 探测器中应用了非线性偏微分方程,用于具有非线性扩散滤波的斑点特征搜索(Alcantarilla等人,2012)。一个名为 AKAZA(Alcantarilla和解决方案2011)的加速版本通过将快速显式扩散嵌入金字塔框架来实现,以显着加快非线性尺度空间中的特征检测。但是,它仍然受到高计算复杂性的影响。另一种方法是 WADE(Salti等人,2013),它通过波传播函数实现非线性特征检测。
基于分割的检测器
基于分割的斑点检测器从基于恒定像素强度或零梯度的不规则区域分割开始。最著名的基于区域分割的斑点特征之一是最大稳定极值区域(MSER)(Matas等人,2004)。它提取在大范围的强度阈值下保持稳定的区域。这种方法不需要额外的处理来进行尺度估计,并且对较大的视点变化具有鲁棒性。术语“最大稳定”描述了阈值选择过程,因为每个极值区域都是通过阈值化分水岭图像的连接分量。Kimmel等人(2011)引入了MSER的扩展,以利用形状结构线索。其他改进基于主曲率图像的分水岭区域(Deng 等人,2007 年;Ferraz and Binefa 2012)或将颜色信息视为更高的歧视(Forssén 2007)。
与MSER类似,其他基于分割的特征,例如基于强度和边缘的区域(Tuytelaars和Van Gool 2004),也用于仿射协变区域检测。然而,这种类型的特征检测对特征匹配的用处较小,并且逐渐向计算机视觉中的显著性检测和分割发展。具体方法调查和综合综述可以在Mikolajczyk等人(2005)和Li等人(2015)中找到。
可学习特征
近年来,基于数据驱动的学习方法在一般视觉模式识别任务中取得了重大进展,并已应用于图像特征检测。这个管道可以大致分为经典学习和深度学习的使用。
基于学习的经典探测器
在过去十年的早期,基于学习的经典方法,如决策树、支持向量机(SVM)和其他不同于深度学习的分类器,已经被用于手工制作的关键点检测(Trajković and Hedley 1998;斯特雷查等人,2009年;哈特曼等人,2014;理查森和奥尔森2013)。FAST(Trajković and Hedley 1998)探测器是首次尝试使用传统学习进行可靠和可匹配的点识别,类似的策略已应用于许多后续改进中(Mair et al. 2010;卢布等人,2011年)。Strecha等人(2009)训练Wald-Boost分类器在预对齐训练集上学习具有高重复性的关键点。
最近,Hartmann等人(2014)表明,可以从运动结构(SfM)管道中学习,以预测哪些候选点是可匹配的,从而显着减少兴趣点的数量,而不会丢失过多的真实匹配。同时,Richardson和Olson(2013)报告说,手工设计的检测器可以通过卷积滤波器空间中的随机采样来学习,并试图使用频域约束的学习策略找到最佳滤波器。然而,在深度学习出现之前,经典学习仅用于通过分类器学习进行可靠的特征选择,而不是直接从原始图像中提取感兴趣的特征。
基于深度学习的探测器
受手工特征检测器的启发,基于 CNN 的检测的一般解决方案是构建响应图以搜索监督中的兴趣点(Yi 等人,2016 年;Verdie 等人,2015 年;Zhang等人,2017b),自我监督(Zhang和Rusinkiewicz 2018;DeTone等人,2018年),或无监督方式(Lenc和Vedaldi 2016年;萨维诺夫等人,2017年;小野等人,2018;乔治基斯等人,2018年;巴罗佐-拉古纳等人,2019 年)。该任务通常被转换为回归问题,可以在变换和成像条件不变性约束下以可微分的方式进行训练。
监督方法已经显示出使用锚点(例如,从 SIFT 方法获得)来指导其训练的好处,但性能可能在很大程度上受到锚点构建方法的限制,因为锚点本身本质上难以合理定义,并且可能会阻止网络在附近不存在锚点的情况下提出新的关键点(Barroso-Laguna 等人,2019 年).
自监督和无监督方法无需任何人工标注即可训练探测器,优化指导只需要两幅图像之间的几何约束;有时需要简单的人类辅助进行预训练(DeTone 等人,2018 年)。此外,许多方法通过与特征描述和匹配联合训练,将特征检测集成到整个匹配管道中(Yi等人,2016;德通等人,2018;小野等人,2018;沈等, 2019;杜斯马努等人,2019年;蔡等人,2016;罗科等人,2018;杜斯马努等人,2019年;Revaud et al. 2019),可以增强最终匹配性能并以端到端的方式优化整个过程。
-
TILDE(Verdie等人,2015)训练多个分段线性回归模型,以在天气和照明条件的剧烈成像变化下检测可重复的关键点。首先,利用 DoG 采集训练集收集,在相同视点拍摄的多个训练图像中识别出好的候选关键点,然后训练一般回归器预测分数图,其非最大抑制(NMS)后的最大值可以被视为期望的兴趣点。
-
DetNet(Lenc and Vedaldi 2016)是第一个用于学习局部协变特征的完全通用公式;它将检测任务转换为回归问题,然后派生协方差约束以自动学习几何变换下的局部特征检测的稳定锚点。同时,Quad-net(Savinov 等人,2017 年)通过单个实值响应函数实现了变换不变分位数排序下的关键点检测,使其能够通过优化可重复的排序来完全从头开始学习检测器。Zhang和Rusinkiewicz(2018)中的类似探测器将这种“排名”损失与“峰值”损失相结合,并产生了更具可重复性的探测器。
-
Zhang等人(2017b)提出了TCDET检测器,它定义了基于“标准补丁”和“典型特征”新概念的新公式,以同等关注判别性和协变约束。所提出的检测器可以检测不同图像变换下的判别特征和可重复特征。Key.Net(Barroso-Laguna等人,2019)在浅层多尺度架构中结合了手工制作和学习的CNN滤波器,并提出了一种轻/高效的可训练探测器。手工制作的筛选器提供定位点结构,用于对提供给学习筛选器的可重复特征进行本地化、评分和排名。CNN 用于通过检测不同级别的关键点来表示尺度空间;定义损失函数是为了检测来自不同尺度的鲁棒特征点,并最大限度地提高重复性得分。基于仿射区域的兴趣点也是使用Mishkin等人(2017,2018)的CNN学习的。
-
将检测器集成到匹配管道中的方法类似于上面专门设计用于检测的方法。主要区别可能在于培训的方式,核心挑战是使整个过程可微分化。例如,Yi等人(2016)试图基于输入四个补丁来联合训练检测器,方向估计器和描述符。他们提出的 LIFT 可以被视为SIFT的可训练版本,并且需要SfM系统的监督来确定特征锚点。训练过程从描述符到检测器单独进行,可以使用学习的结果来指导检测器训练,从而提高可检测性。与 LIFT 不同,SuperPoint(DeTone 等人,2018 年)通过输入全尺寸图像并在一次正向传递中共同计算像素级兴趣点位置和相关描述符来引入全卷积模型;构建合成数据集进行伪真值生成和预训练,单应性自适应模块使其在提高检测重复性的同时实现自监督训练。
-
LF-Net(Ono 等人,2018 年)将端到端管道限制在一个分支上,以可区分的方式优化整个过程;它还使用在全尺寸图像上运行的全卷积网络来生成丰富的特征评分图,然后可用于提取关键点位置和特征属性,例如比例和方向;同时,它执行一种可微形式的NMS,即softargmax,用于亚像素定位,并提高关键点的准确性和显著性。
-
与LF-Net类似,RF-Net(Shen等人,2019)选择高响应像素作为多尺度上的关键点,但响应图是由感受特征图构建的。Bhowmik 等人(2020 年)指出,这些低级匹配分数的准确性提高并不一定转化为高级视觉任务的更好性能,因此他们将特征检测器嵌入到完整的视觉管道中,其中可学习的参数以端到端的方式进行训练。作者使用强化学习的原理克服了关键点选择和描述符匹配的离散性。Luo等人(2020)提出 ASFeat 通过共同学习局部特征检测器和描述符来探索特征点的局部形状信息并提高点检测的准确性。另一种与检测相关的基于学习的方法是估计方向(Moo Yi等人,2016),而空间变换网络(STN)(Jaderberg等人,2015)也可以成为基于深度学习的旋转不变性探测器的一个很好的参考(Yi等人,2016; 小野等人,2018 年)。
与局部特征描述符不同,对显著特征检测器几乎没有评论,特别是对于最近基于CNN的技术。据我们所知,最近的调查(Lenc和Vedaldi 2014)侧重于本地特征检测。它介绍了几种众所周知的方法的基本思想,从手工制作的探测器到加速和学习的探测器。
三维特征探测器
简而言之,现有的方法分为两类,固定尺度探测器和自适应尺度探测器。在这两个类别中,关键点被选为预定义显著性测量的局部极值。区别在于尺度特征的参与,它定义了对后续描述阶段的支持。固定尺度检测器倾向于在特定尺度级别搜索关键点,该关键点作为先验信息给出。自适应尺度检测器要么通过采用表面上定义的比例空间来扩展二维图像的比例概念,要么通过将三维数据嵌入二维平面来实现传统的尺度空间分析。
固定尺度探测器
Chen和Bhanu(2007)介绍了局部表面贴片(LSP)方法。LSP中一个点的显著性由其形状指数(Dorai and Jain 1997)测量,由该点的主曲率定义。Zhong(2009)介绍了内征形状特征(ISS)方法,其中显著性来自支撑区域散点矩阵的特征值分解。在这种方法中,特征值的比率用于修剪一些点,最终的显著性由特征向量确定。通过这种方式,可以识别沿每个主方向变化较大的点。与ISS类似,Mian等人(2010)也利用散点矩阵来修剪非独特的点,但具有不同的基于曲率的显著性测量。Sun等人(2009)提出了基于形状上热扩散过程特性的热核特征(HKS)方法。在这种方法中,显著性测量是通过将热核限制在时间域来定义的。热核由底层流形唯一决定,这使得HKS成为形状的紧凑表征。
自适应尺度探测器
在检测中,最好与标度自适应拟合。为此,Unnikrishnan和Hebert(2008)通过计算每个点周围增加的支撑的设计函数,提出了拉普拉斯-贝尔特拉米尺度空间。此函数由一个新运算符定义,该运算符反映基础形状的局部平均曲率并提供显著性信息。Zaharescu等人(2009)提出了MeshDoG方法,该方法类似于2-D情况下的DoG运算符(Lowe,2004);尽管如此,算子是根据流形上定义的标量函数计算的。DoG 运算符的输出表示关键点检测的显著性。Castellani等人(2008)也使用DoG运算符构建了比例空间,但直接在3D网格上。Mian等人(2010)提出了一种用于提取尺度不变特征的自动尺度选择技术。通过增加支撑尺寸来构建尺度空间,并且使用NMS沿尺度在每个关键点执行自动尺度选择。Bronstein和Kokkinos(2010)解决了HKS尺度敏感性的缺点,他们使用傅里叶变换幅度从HKS中提取尺度不变量,而无需执行尺度选择。Sipiran 和 Bustos (2011) 使用自适应尺度测定技术将著名的哈里斯算子 (1988) 扩展到 3D 数据中。读者可以参考Tombari等人(2013)对其他自适应尺度探测器的进一步讨论。Salti等人(2015)设计了一种基于学习的3-D关键点检测器,其中关键点检测问题被转换为二元分类问题,以确定谁的支持可以通过预定义的3-D描述符正确匹配。
总结
特征检测器的基本思想是通过响应值将兴趣特征与其他特征区分开来,从而解决两个问题:(i)如何定义图像中的判别模式,以及(ii)如何在不同的图像条件和图像质量下重复检测显着特征(Zhang等人,2017b).随着这些探测器的发展,主要改进和通用策略涉及四个方面,即特征响应类型和效率、鲁棒性和准确性的改进,这导致检测到的特征的匹配性提高,后续应用的性能得到提高。
对于传统方法,使用更多的图像线索可以带来更好的鲁棒性和可重复性,但通常需要更多的计算成本。除了使用低阶特征检测器外,还设计了几种策略,例如近似和预计算,以大大加快计算速度并保持可匹配性。为了确保鲁棒性,在搜索稳定特征时通常需要比例和仿射信息估计。而对于精度增强,在像素和尺度空间中搜索亚像素精度和NMS策略以避免局部收集特征是传统管道中的两种流行选择。
对于基于学习的检测器,可以根据CNN捕获的高级线索提取可重复和突出的关键点,但强度、梯度或二阶导数除外。虽然效率在很大程度上取决于网络结构,但早期的深度学习方法通常很耗时。最近提出的方法,如SuperPoint和 KeyNet,已经实现了良好的实时实现,同时保持了最先进的性能。多尺度采样或改变感受野将使这些基于深度学习的探测器在尺度上不变,其中尺度或旋转信息在网络中直接估计。它们可以取得有希望的结果,因为深度学习技术可以很容易地区分相同的结构,尽管图像存在明显的方差和几何变换。基于学习的方法的损失函数可以直接对精度进行优化,并且NMS的可微形式通常用于亚像素精度定位和重复性增强。
特征描述符
一旦从原始图像中检测到判别兴趣点,就需要为每个特征耦合一个局部补丁描述符,以便在两个或多个图像之间正确有效地建立特征对应关系。换句话说,特征描述符通常用于将兴趣点周围的原始局部信息转换为稳定的判别形式,通常作为高维向量,使两个对应特征在描述空间中尽可能接近,两个不对应的特征尽可能接近。
概述
特征描述的处理过程可分为三个步骤:局部低级特征提取、空间池化和特征归一化(Lowe 2004;卢布等人,2011年;布朗等人,2010 年)。首先,需要提取本地图像区域的低级信息。该信息由像素强度和梯度组成,或者从一系列可操纵的滤波器中获得。随后,将局部补丁分成几个部分,并将局部信息汇集在每个部分中,然后使用池化方法将它们连接起来,例如矩形网格化(Lowe 2004),极坐标网格化(Mikolajczyk和Schmid 2005),高斯采样(Tola等人,2010年)和其他(Rublee等人,2011年);联合特征表示被转换为更具判别性的表示,该表示可以以简化的形式保留重要信息,以获得更好的匹配性能。最后,从汇集的局部信息的归一化结果中获得描述符,旨在将聚合结果映射到浮点或二进制值的长向量中,以便于评估图像特征之间的相似性。
与特征检测器类似,现有描述符被提出并改进为解决图像匹配问题的高度鲁棒、高效和判别。估计裁剪图像补丁的良好大小和方向是特征描述和匹配任务中的核心问题。通过正确识别尺寸和方向,匹配方法可以对全局和/或局部变形(例如旋转和缩放)具有鲁棒性和不变性。特征描述的初衷是与使用原始图像信息的直接相似性测量相比,侧重于区分增强。许多精心设计的描述符可以通过使用池化参数优化、采样规则设计或使用机器学习和深度学习技术来提高判别和匹配性能。
特征描述引起了越来越多的关注。描述符可以被视为给定图像的可区分和鲁棒表示,不仅广泛用于图像匹配,还广泛用于图像检索、人脸识别和其他基于图像相似性测量的任务的图像编码。但是,使用原始图像信息对两个图像块进行直接相似性测量将被视为一种基于区域的图像匹配方法,这将在下一节中回顾。至于基于图像补丁的特征描述符,我们将根据数据类型来回顾传统的特征描述符,即浮动和二进制描述符。将为最近的数据驱动方法添加一个新的小节,包括经典的机器学习和新兴的基于深度学习的方法。我们将全面回顾手工制作和基于学习的特征描述方法,并展示这些方法之间的联系,为读者进一步研究提供有用的指导,特别是使用深度学习/CNN技术开发更好的描述方法。此外,我们还将回顾3-D特征描述符,其中特征通常从没有任何图像像素信息但具有空间位置关系的点数据中获得(例如,3-D点云配准)。
手工制作的特征描述符
手工制作的特征描述符通常依赖于专家先验知识,这些知识仍然广泛用于许多视觉应用程序中。遵循传统局部描述符的构建过程,第一步是提取低级信息,这些信息可以简要地分为图像梯度和强度。随后,应用常用的池化和规范化策略(例如统计和比较)来生成长而简单的向量,用于对数据类型(浮点数或二进制)进行判别性描述。因此,手工描述符大多依赖于作者的知识,描述策略可分为梯度统计、局部二元模式统计、局部强度比较和局部强度顺序统计方法。
基于梯度统计量的描述符
梯度统计方法通常用于形成浮点型描述符,例如 SIFT 中引入的定向梯度直方图 (HOG)(Dalal 和 Triggs 2005)(Lowe 等人,1999 年;Lowe,2004)及其改进版本(Bay等人,2006年;莫雷尔和俞敏洪 2009;董和索托 2015;Tola等人,2010),它们仍然广泛用于一些现代视觉任务。在 SIFT 中,特征尺度和方向分别通过DoG计算和从检测到的关键点周围的局部圆形区域确定梯度方向直方图中的最大箱,从而实现尺度和旋转不变性。在描述阶段,首先将检测到的特征的局部区域矩形划分为4×4基于归一化比例和旋转的非重叠网格,然后在每个单元格中执行具有 8 个箱的梯度方向直方图,并作为 SIFT 描述符嵌入到 128 维浮点向量中。
另一个代表性的描述符,即 SURF(Bay等人,2006),可以通过使用Haar小波的响应来近似梯度计算来加速SIFT算子;还应用积分图像来避免在Haar小波响应中重复计算,从而实现比SIFT更有效的计算。基于这两个方面的其他改进通常侧重于区分、效率、鲁棒性以及处理特定的图像数据或任务。例如,CSIFT(Abdel-Hakim和Farag 2006)使用额外的颜色信息来增强辨别力,而 ASIFT(Morel and Yu 2009)通过改变两个相机轴方向参数来模拟所有可以获得的图像视图,以实现完全仿射不变性。Mikolajczyk和Schmid(2005)使用梯度方向的极坐标划分和直方图统计。SIFT-rank(Toews and Wells 2009)已被提出用于研究基于现成SIFT的有序图像描述,以实现不变特征对应。已经研究了基于韦伯定律的方法(WLD)(Chen等人,2009年),通过编码某些位置的微分激励和方向来计算直方图。
Arandjelović和Zisserman(2012)使用平方根(Hellinger)核代替标准的欧几里得距离测量将原始SIFT空间转换为RootSIFT 空间,并在不增加处理或存储要求的情况下产生卓越的性能。Dong和Soatto(2015)通过汇集不同域大小的梯度方向和 DSP-SIFT 描述符来修改SIFT。另一种基于SIFT的宽基线立体的有效密集描述符,即 DAISY(Tola等人,2010),使用对数极性网格排列和高斯池化策略来近似梯度方向的直方图。受DAISY的启发,DARTs(Marimon等人,2010)可以有效地计算尺度空间并将其重用于描述符,从而提高效率。最近还提出了几种手工制作的浮子型描述符,并显示出有希望的性能;例如,局部引力局部描述符的模式(Bhattacharjee and Roy 2019)的灵感来自万有引力定律,可以看作是力的大小和角度的组合。
基于局部二进制模式统计的描述符
与类似SIFT的方法不同,在过去的几十年中,已经提出了几种基于强度统计的方法,这些方法的灵感来自局部二元模式(LBP)(Ojala等人,2002)。LBP具有有利于其在感兴趣区域描述中的使用的属性,例如对照明变化的容忍度和计算简单性。缺点是操作员生成相当长的直方图,并且在平面图像区域中不显着稳健。中心对称LBP (CS-LBP) (Heikkilä et al. 2009) (使用SVM进行分类器训练)是LBP的修改版本,结合了SIFT和LBP的优势来解决平坦面积问题。具体来说,CS-LBP使用类似SIFT的网格,并将梯度信息替换为基于LBP的特征。为了解决噪声,中心对称局部三元模式(CS-LTP)(Gupta等人,2010)建议使用补丁中相对顺序的直方图和LBP代码的直方图,例如相对强度的直方图。这两种基于 CS 的方法被设计为比以前考虑的描述符更能抵抗高斯噪声。RLBP(Chen等人,2013)通过改变编码位提高了LBP的鲁棒性;已经开发了LBP算子的完整建模和相关的完整LBP方案(Guo等人,2010)用于纹理分类。类似LBP的方法广泛用于纹理表示和人脸识别社区,其他细节可以在综述文献中找到(Huang等人,2011)。
基于局部强度比较的描述符
描述符的另一种形式是基于局部强度的比较,也称为二元描述符,核心挑战是比较的选择规则。由于它们的独特性有限,这些方法大多仅限于短基线匹配。Calonder等人(2010)提出了 BRIEF 描述符,该描述符是通过连接图像补丁中几个随机点对的强度的二进制测试结果来构建的。Rublee等人(2011)提出了旋转 BRIEF 与定 向FAST角 相结合,并在 ORB 算法中使用机器学习策略选择稳健的二进制测试,以减轻旋转和尺度变化的限制。Leutenegger等人(2011)使用半径增加的同心圆采样策略开发了 BRISK 方法。受视网膜结构的启发,Alahi 等人(2012 年)通过比较视网膜采样模式上的图像强度来提出 FREAK 描述符,以实现快速计算和匹配,同时保持对缩放、旋转和噪声的鲁棒性。手工制作的二进制描述符和经典的机器学习技术也被广泛研究,这些将在基于学习的小节中介绍。
基于局部强度顺序统计的描述符
到目前为止,已经设计了许多使用像素值数量而不是原始强度的方法,从而实现了更有希望的性能(Tang 等人,2009 年;图斯和威尔斯2009)。按强度阶数汇集对旋转和单调强度变化是不变的,并且还将有序信息编码为描述符;强度顺序池方案可以使描述符旋转不变,而无需估计参考方向为SIFT,这似乎是大多数现有方法的主要误差源。为了解决这个问题,Tang等人提出了有序空间强度分布(Tang等人,2009)方法,该方法使用有序和空间强度直方图对捕获的纹理信息和结构信息进行归一化;所提出的方法对任何单调增加的亮度变化都是不变的。
Fan等人(2011)根据局部特征在多个支撑区域的梯度和强度阶数汇集局部特征,并提出了基于多支撑区阶数的梯度直方图和多支撑区旋转和强度单调不变描述子方法。LIOP(Wang等人,2011,2015)中使用了类似的策略来编码每个像素的局部序号信息。 在这项工作中,总体序号信息用于将局部补丁划分为子区域,这些子区域用于累积LIOP。LIOP进一步改进为OIOP / MIOP(Wang等人,2015),然后可以编码噪声和失真鲁棒性的整体序号信息。他们还提出了一种基于学习的量化,以提高其独特性。
基于学习的特征描述符
如上所述,手工制作的描述符需要专业知识才能设计,并且可能会忽略隐藏在数据中的有用模式。这一要求促使了对基于学习的描述符的研究,这些描述符由于其数据驱动的属性和有前途的性能而最近变得非常流行。在下文中,我们将讨论一组在深度学习时代之前引入的基于学习的经典描述符。
基于经典学习的描述符
基于学习的描述符可以追溯到 PCA-SIFT(Ke et al. 2004),其中主成分分析(PCA)通过降低由局部图像梯度组成的向量的维数来形成稳健而紧凑的描述符。Cai等人(2010)研究了使用线性判别投影来降低维度并提高局部描述符的可辨别性。Brown et al. (2010) 引入了一个学习框架,其中包含一组构建块,通过使用鲍威尔最小化和线性判别分析 (LDA) 技术来寻找最佳参数来构建描述符。Simonyan等人(2014)提出了一种新的公式,将描述符学习中的空间池化和降维表示为基于Brown工作的凸优化问题(Brown等人,2010)。同时,Trzcinski等人(2012,2014)应用提升技巧从多个基于梯度的弱学习器学习增强的,复杂的非线性局部视觉特征表示。
除了上述浮点值描述符外,二进制描述符由于其有益的特性(例如低存储要求和高匹配速度)而在经典描述符学习中也非常感兴趣。获取二进制描述符的一种自然方法是从提供的浮点值描述符中学习它。这项任务通常通过散列方法完成,因此建议应该学习高维数据的紧凑表示,同时保持它们在新空间中的相似性。局部敏感哈希(LSH)(Gionis et al. 1999)可以说是一种流行的无监督哈希方法。此方法通过随机投影生成嵌入,并已用于许多大规模搜索任务。LSH的一些变体包括内核化LSH(Kulis and Grauman 2009),谱哈希(Weiss等人,2009),语义哈希(Salakhutdinov和Hinton 2009)和基于p稳定分布的LSH(Datar等人,2004)。 这些变体在设计上不受监督。
监督散列方法也得到了广泛的研究,其中提出了不同的机器学习策略来学习针对特定任务量身定制的特征空间。在这种情况下,已经提出了大量方法(Kulis and Darrell 2009;王等. 2010;斯特雷查等人,2012;刘等. 2012a;诺鲁兹和布莱 2011;龚等. 2013;Shakhnarovich 2005),其中图像匹配被认为是一项重要的实验验证任务。例如,在Strecha等人(2012)中利用LDA技术来帮助散列。Liu等人(2012a)和Wang等人(2010)提出了半监督顺序学习算法来寻找判别性投影。最小损失哈希(Norouzi and Blei 2011)提供了一种新的公式,可以在具有潜在变量的结构SVM的基础上学习二进制哈希函数。Gong et al. (2012)提出搜索零中心数据的旋转,以最小化将描述符映射到零中心二进制超立方体顶点的量化误差。
Trzcinski和Lepetit(2012)和Trzcinski等人(2017)报告说,开发二进制描述符的一种直接方法是直接从图像补丁中学习表示。在Trzcinski和Lepetit(2012)中,他们提出通过使用几个简单过滤器的线性组合将图像补丁投影到判别子空间,然后阈值它们的坐标以创建紧凑的二进制描述符。描述符(例如SIFT)在图像匹配过程中的成功表明非线性滤波器(例如梯度响应)比线性滤波器更适合。Trzcinski 等人(2017)提出学习与AdaBoost强分类器形式相同的哈希函数,即每个描述符位的非线性弱学习器的线性组合符号。这项工作比Trzcinski和Lepetit(2012)更普遍和强大,后者基于简单的阈值线性投影。Trzcinski等人(2017)建议生成每个补丁独立调整的二进制描述符。此目标是通过类间和类内对描述符进行在线优化来实现的。
基于深度学习的描述符
使用深度技术的描述符通常被表述为监督学习问题。目标是学习一种表示,可以使两个匹配的特征尽可能接近,而不匹配的特征在测量空间中相距很远(Schonberger 等人,2017 年)。描述符学习通常使用以检测到的关键点为中心的裁剪局部补丁进行;因此,它也被称为补丁匹配。一般来说,现有方法由两种形式组成,即度量学习(Weinberger and Saul 2009;扎戈鲁伊科和科莫达基斯 2015;韩等人,2015;Kedem 等人,2012 年;王等. 2017;温伯格和索尔 2009)和描述符学习(Simo-Serra 等人,2015 年;巴恩塔斯等人 2016a, 2017;张等. 2017c;米舒克等人,2017年;魏等, 2018;他等人,2018;田等, 2019;Luo et al. 2019),根据基于深度学习的描述符的输出。这两种形式通常是联合训练的。具体来说,度量学习方法通常学习一个判别性度量,以原始补丁或生成的描述符作为输入进行相似性度量。相比之下,描述符学习倾向于从原始图像或补丁生成描述符表示。这样的过程需要一种测量方法,例如L2距离或经过训练的度量网络,以进行相似性评估。与单指标学习相比,使用 CNN 生成描述向量更加灵活,并且可以在大量候选补丁可用于通信搜索时避免重复计算来节省时间。深度学习凭借强大的信息提取和表示能力,在特征描述方面取得了令人满意的性能。
采用深度学习技术的描述符可以被视为基于经典学习的描述符的扩展(Schonberger等人,2017)。例如,Chopra等人(2005)的连体结构和常用的损失函数,如铰链、连体、三连体、排序和对比损失,在最近的深度方法中被借用和修改。具体来说,Zagoruyko和Komodakis(2015)提出了他们的 DeepCompare,并展示了直接从原始图像像素学习一般补丁相似度函数的机制。在这种情况下,各种连线型CNN模型被应用于编码相似性函数。然后,这些模型被训练来识别正面和负面的图像补丁对。尝试的不同网络结构包括具有共享或不共享权重的连体式和中央环绕式。MatchNet(Han等人,2015)被提出来同时学习描述符和度量。这样的技术是通过级联一个类似连体的描述网络和完全卷积的决策网络来实现的。该任务被转化为交叉熵损失下的一个分类问题。DeepDesc(Simo-Serra等人,2015)使用CNN来学习判别补丁表征和L2距离测量。特别是,它通过最小化成对的铰链损失,用成对的正负斑块训练一个连体网络,所提出的硬负面挖掘策略缓解了不平衡的正负样本。因此,描述性能得到了明显的提升。Wang等人(2014)提出了一个新颖的深度排名模型来学习细粒度的图像相似度。该模型采用了基于三联体的铰链损失和排名函数来描述细粒度的图像相似性关系。一个多尺度的神经网络架构被用来捕捉全局视觉属性和图像语义。
Kumar等人(2016)首次使用全局损失来扩大正负片对之间的距离差。它是通过三联体和连体网络来实现的,并结合三联体和全局损失进行训练。TFeat(Balntas等人,2016b)提出利用三联体的训练样本进行基于CNN的补丁描述和匹配。它是通过浅层卷积网络和快速的硬性负面挖掘策略实现的。在L2Net(Tian等人,2017)中,Tian等人应用渐进式采样策略来优化欧氏空间中基于相对距离的损失函数。该工作的作者考虑了中间特征图和描述符的紧凑性以达到更好的性能。HardNet(Mishchuk等人,2017年)通过使用简单的铰链三联体损失与 "最硬批内 "挖掘,实现了比L2Net更好的改进。PN-Net(Balntas等人,2016a)通过同时进行正负约束训练,使用了距离度量学习和在线提升领域引入的思想。所提出的SoftPN损失函数表现出比铰链损失或SoftMax比率更快的收敛和更低的误差(Wang等人,2014;Zagoruyko和Komodakis,2015)。Zhang等人(2017c)通过使用他们提出的全局正交正则化与三倍损失一起训练他们的网络,以鼓励描述符充分 “分散”。这样做是为了充分利用描述符的空间。
基于平均精确注意力的描述符学习(He等人,2018),引入了一种通用学习来对公式进行排名。这种方法被定义为一个约束,其中真正的匹配应该排在所有错误的路径匹配之上,并根据二进制和实值局部特征描述符进行优化。BinGAN(Zieba 等人,2018 年)提出了一种用于生成对抗网络的正则化方法(Goodfellow 等人,2014 年),以学习图像补丁的判别性但紧凑的二进制表示。相比之下,Erin Liong等人(2015),Lin等人(2016a)和Duan等人(2017)中提出了其他专注于二进制描述符学习的方法。除了损失函数、网络结构、正则化和硬负挖掘之外,Wei et al. (2018) 通过使用核化子空间池学习了判别性深度描述符。Tian et al. (2019) 在他们的 SOSNet 中使用了二阶相似性。在ContextDesc(一种较新的方法)中,Luo等人(2019)将局部补丁相似性约束与感兴趣点的空间几何约束相结合来训练他们的网络,这大大提高了匹配性能。脚注1
正如基于CNN的检测器所述,越来越多的端到端学习方法将特征描述与检测器集成到完整的匹配管道中。这些方法类似于为上述描述单独设计的方法。主要区别可能在于训练的方式和整个网络结构的设计。核心挑战是使整个过程可区分和可训练。例如,LIFT(Yi等人,2016)试图通过端到端CNN网络同时实现关键点检测,方向估计和特征描述。
SuperPoint(DeTone等人,2018)提出了一个自我监督框架,用于训练多视图几何问题的兴趣点检测器和描述符。全卷积模型在全尺寸图像上运行,并共同计算像素级的兴趣点位置和相关描述符,这与基于路径的网络形成鲜明对比。LF-Net(Ono et al. 2018)设计了一个双分支设置,并迭代创建虚拟目标响应,以允许从头开始训练,而无需手工制作的先验。该技术实现了特征图生成、使用topK选择和NMS进行尺度不变关键点检测、方向估计和描述符提取。在LF-Net中,目标函数包括图像级损失(满足图像对、深度图和基本矩阵之间的附加约束)、补丁级损失(学习适合匹配的关键点,并涉及方向和比例组件几何一致性)和用于描述符学习的三重损失。
随后,RF-Net(Shen等人,2019)创建了一个端到端的可训练匹配框架,该框架是从LF-Net结构修改而来的。首先,构建的感受特征图导致有效的关键点检测;其次,一般的损失函数项,即邻域掩码,有利于训练补丁的选择,以增强描述符训练的稳定性。D2-Net(Dusmanu等人,2019)使用单个CNN扮演双重角色:同时实现密集特征描述符和特征检测器。在Bhowmik等人(2020)中,通过使用强化学习的原理,在高级视觉任务下优化关键点选择和描述符匹配。此外,Li等人(2020)引入了双分辨率对应网络,通过提取不同分辨率的特征图,以粗到细的方式获得像素级对应。
除了针对同一目标或场景的特征匹配外,还利用CNN研究了从相似目标/场景捕获的图像的语义匹配,并实现了明显的推广。语义匹配问题可能会给手工制作的方法带来挑战,因为需要理解语义相似性。为此,UCN(Choy et al. 2016)使用深度度量学习直接学习保留几何或语义相似性的特征空间。使用这种方法还有助于为几何或语义对应任务生成密集而准确的对应关系。具体来说,UCN实现了具有对应对比损失的全卷积架构,用于快速训练和测试,并提出了一种用于局部补丁归一化的卷积空间转换器。NCN(Rocco 等人,2018 年)开发了一种端到端可训练的 CNN 架构,该架构基于通过使用半局部约束来寻找一对图像之间可靠的密集对应关系来消除特征匹配歧义的经典思想。该框架通过分析全局几何模型的相邻共识模式来识别空间上一致的匹配集。该模型可以通过弱监督进行有效训练,而无需对点对应进行任何手动注释。这种类型的框架可以应用于类别级和实例级匹配任务,Han et al. (2017)、Plötz and Roth (2018)、Chen et al. (2018)、Laskar and Kannala (2018)、Kim et al. (2018, (2020)、Ufer and Ommer (2017) 和 Wang et al. (2018) 中提出了其他类似的方法。
三维特征描述符
已经对3-D特征描述符进行了广泛的研究。如前所述,许多研究人员已将注意力转向深度学习范式,因为它在许多不同的领域取得了革命性的成功。这一事实促使我们将现代描述符分为两组,即手工描述符和基于学习的描述符。Guo等人(2016)对传统的手工制作的3D特征描述符进行了全面的性能评估,而基于学习的方法被省略了。在下一节中,我们将简要介绍最先进的手工描述符和基于学习的描述符。
手工制作的 3-D 描述符
Guo等人(2016)将手工制作的描述符分为基于空间分布直方图和几何属性直方图的描述符,前者通过直方图表示局部特征,直方图编码支持区域中点的空间分布。通常,为每个关键点构建局部参考系/轴。因此,将 3-D 支撑区域划分为箱以形成直方图。每个条柱的值是通过累积空间分布测量值来计算的。一些代表性的工作包括自旋图像(Johnson and Hebert 1999),3-D形状上下文(Frome等人,2004),独特的形状上下文(Tombari等人,2010a),旋转投影统计(Guo等人,2013)和三自旋图像(Guo等人,2015)。 空间分布直方图描述符通过从支持区域中的几何属性(例如,法线、曲率)的统计数据生成直方图来表示局部特征。这些直方图包括局部表面斑块(Chen和Bhanu 2007),THRIFT(Flint等人,2007),点特征直方图(Rusu等人,2008),快速点特征直方图(Rusu等人,2009)和方向直方图签名(Tombari等人,2010b)。 除了基于几何属性和空间分布直方图的描述符外,Zaharescu等人(2009)引入了MeshHoG描述符,类似于SIFT(Lowe 2004),并使用梯度信息生成直方图。
频谱描述符,如全局点特征(Rustamov 2007),HKS(Sun等人,2009)和波核特征(WKS)(Aubry等人,2011),也构成了这一领域的一个重要类别。描述符是从与形状相关的拉普拉斯-贝尔特拉米算子的谱分解中获得的。全局点签名 (Rustamov 2007) 利用形状上拉普拉斯-贝尔特拉米算子的特征值和特征函数来表示点的局部特征。HKS(Sun等人,2009年)和WKS(Aubry等人,2011年)分别基于热扩散过程和量子力学粒子在形状上的时间演化。
基于学习的 3D 描述符
还致力于通过使用不同的学习方案来概括频谱描述符。Litman和Bronstein(2014)将光谱描述符推广到一个通用家族,并建议从示例中学习以获得特定任务的优化描述符。该学习方案类似于信号处理中维纳滤波器的精神。Rodolà等人(2014)提出了一种学习方法,该方法使波核描述符能够使用随机森林分类器从示例集中识别更广泛的变形类。Windheuser等人(2014)提出了一种度量学习方法来改善光谱描述符的表示。现代深度学习技术也得到了成功应用。Masci等人(2015)提出了第一次尝试,并将CNN范式推广到形状对应的非欧几里得流形。随后,Boscaini等人提出通过谱卷积网络(Boscaini等人,2015)和各向异性CNN(Boscaini等人,2016)来学习描述符。 Monti et al. (2017)提出了一个统一的框架,用于将CNN架构推广到非欧几里得域(图和流形)。Xie等人(2016)构建了一个深度度量网络,以形成用于形状表征的二元光谱形状描述符。输入基于拉普拉斯-贝尔特拉米算子的特征值分解。
在空间领域,各种深度学习方法的差异往往在于所消费数据的表示。Wei等人(2016)在形状的深度图表示上训练了一个深度CNN以找到对应关系。Zeng等人(2017)建议使用3D深度CNN来学习局部体积补丁描述符。此描述符使用局部区域截断距离函数值的体素格网。Elbaz等人(2017)提出了一种深度神经网络自动编码器来解决3D匹配问题。作者使用随机球体覆盖集算法来检测特征点,并将每个局部区域投影到深度图中,作为神经网络的输入以生成描述符。Khoury等人(2017)通过使用以每个点为中心的球形直方图来参数化输入,并利用完全连接的网络来生成低维描述符。Georgakis等人(2018)最近采用了处理深度图的暹罗建筑网络。Zhou等人(2018)提出从多个视图的图像中学习3D关键点的描述。Wang等人(2018b)将关键点的多尺度局部邻域参数化为规则的2D网格,作为三重架构CNN的输入。Deng et al. (2018)首先在PointNet的基础上提出了一个无订单网络(Qi et al. 2017a)。该网络可以使用原始点云来利用 3D 匹配任务中的完全稀疏性。
总结
如前所述,指定图像补丁描述符是为了在检测到的特征点之间建立准确有效的对应关系。目标是将原始图像信息转换为判别性和稳定的表示,使两个匹配的特征尽可能接近,而不匹配的特征相距很远。为此,描述符应该易于计算,计算和存储请求量低。这些描述符还应保持其对严重变形和成像条件的区分性和不变性特征。在下一节中,我们将对手工制作的描述符进行全面分析,并介绍基于学习的方法可以部分解决这些挑战并实现有希望的性能的机制。
遵循传统局部描述符的构造过程,第一步是提取低级信息,这些信息可以简单地分为图像梯度和强度。具体来说,梯度信息可以被视为比原始强度更高阶的图像线索。池化策略与直方图或统计方式一起通常需要形成浮点描述符。因此,这种策略对几何变换更加不变(也许池和统计策略使其更独立于像素位置和几何多样性)。然而,它需要在梯度计算和统计以及浮点型数据的距离测量方面进行额外的计算。基于LBP的方法通常具有很高的判别能力和良好的照明变化和图像对比度的鲁棒性,这在纹理表示和人脸识别中经常使用。
与基于梯度和/或统计的方法相比,图像强度的简单比较策略会牺牲很大的辨别性和鲁棒性。经典的机器学习技术通常旨在识别大量有用的位。这些类型的方法通常需要参考方向估计来实现旋转不变性,这似乎是大多数现有方法的主要误差源。然而,强度顺序的使用本质上是不变的,无需任何几何估计。由于强度顺序和统计策略的结合,它可以实现有希望的性能。
基于学习的方法在很大程度上避免了手工经验和知识先验的要求。它们自动优化并获得最佳参数,并直接构造所需的描述符。传统的学习方法旨在使生成的描述符在效率、低存储和区分方面具有优越性。然而,使用的图像线索,如强度和渐变,仍然低阶,它们高度依赖于手工方法中的框架。尽管如此,当时出现的目标函数、训练技能和数据集对于设计更好的基于学习的方法非常重要且有用。因此,深度学习的出现进一步推动了传统学习中的这一过程。
一些技能可以帮助提高深度描述符的可辨别性和稳健性。一方面,中央环绕声和三重(甚至更多)结构可以提供大量重要的学习信息。硬负样本挖掘策略会使结构集中在硬样本上(也可能导致过拟合),从而获得更好的匹配性能。还应根据描述任务的基本和内在属性设计更可靠的损失函数。例如,最近设计的三元组、秩损失、对比损失和全局损失优于早期的简单铰链和交叉熵损失。另一方面,还需要有效且全面的地面实况数据集,以便在匹配和泛化能力方面有更好的表现。通过端到端的方式将描述符与检测器一起训练到完整的匹配管道中,目前也引起了极大的关注。这可以联合优化检测器和描述符,从而实现令人鼓舞的性能,并且其中的无监督训练可以在不需要任何标记的地面真实补丁数据的情况下执行。通过使用深度技术,当前的描述符可以在外观差异的图像对(例如照明和昼夜)之间实现显着的匹配性能。然而,这些描述符仍然遭受严重的几何变形,例如大旋转或低重叠的图像对。对新类型数据的泛化能力低也是另一个限制。
描述符的整体性能还取决于适当的检测器。检测器和描述符的不同组合可能会导致不同的匹配性能。因此,应根据特定任务和图像数据类型选择描述符。使用深度学习的高级描述符显示出巨大的潜力。
特征匹配
匹配任务旨在使用或不使用特征检测和/或描述在两个图像之间建立正确的图像像素或点对应关系。此任务对整个图像匹配管道发挥了重要作用。针对特定的应用和场景,引入了匹配任务的不同定义,并可能显示出各自的优势。
概述
在过去的几十年中,在图像匹配社区中,现有方法可以大致分为两类,即基于区域的和基于特征的(Zitova and Flusser 2003;利特晏斯等人,2017 年)。基于区域的方法通常是指密集匹配,也称为图像配准,通常不会检测要素。在基于特征的方法中,当从图像对中提取特征点及其局部描述符时,可以将图像匹配任务转换为间接和直接的匹配,对应于局部图像描述符的使用和不使用。
直接特征匹配旨在直接利用空间几何关系和优化方法建立两个给定特征集的对应关系,大致可分为图匹配和点集配准。相比之下,间接特征匹配方法通常将匹配任务转换为两个阶段的问题。此类任务通常从通过描述符与测量空间判断的距离的相似性建立初步对应关系开始。此后,通过使用额外的局部和/或全局几何约束,从推定匹配集中删除错误匹配。稀疏特征对应关系的密集匹配通常需要转换模型估计的后处理,然后是图像重采样和插值(翘曲)。
我们将基于学习的方法与基于区域和特征的方法分开,并在新的小节中介绍它们。从输入数据方面来看,从图像和点数据中学习是基于学习的匹配的两种主要形式。与传统方法相比,这些方法在某些场景中可以实现更好的性能。本节还简要介绍了三维案例中的匹配任务。
基于区域的匹配
基于区域的方法旨在通过直接使用整个图像的像素强度来配准图像并建立密集的像素对应关系。相似性度量和优化方法需要几何变换估计和公共区域对齐,通过最小化目标和扭曲运动图像之间的整体差异。因此,经常使用几种手动相似性指标,包括类相关性、域变换和互信息 (MI) 方法。执行最终配准任务也需要优化方法和转换模型(Zitova and Flusser 2003)。
在图像配准领域中,被视为基于区域的方法中的经典代表的类相关方法通过最大化两个滑动窗口的相似性来对应两个图像(Zitova and Flusser 2003;李等人,2015)。例如,已经为自动配准开发了小波特征的最大相关性(Le Moigne 等人,2002 年)。然而,这种类型的方法可能会受到严重的图像变形(只有在呈现轻微旋转和缩放时才能成功应用),窗口包含平滑区域而没有任何突出细节以及巨大的计算负担。
域变换方法倾向于在将原始图像转换为另一个域的基础上对齐两个图像,例如基于傅里叶移位定理的相位相关(Reddy and Chatterji 1996;刘等. 2005;陈等, 1994;泷田等人,2003;Foroosh 等人,2002 年)和沃尔什变换方法(拉扎里迪斯和佩特鲁 2006 年;潘等人,2008年)。这些方法对相关和频率相关的噪声以及非均匀、时变的照明干扰具有鲁棒性。然而,这些方法在光谱内容明显不同且重叠面积小的图像对的情况下存在一些局限性。
基于信息论,MI,例如使用MI和B样条(Klein等人,2007)和条件MI(Loeckx等人,2009)的非刚性图像配准,是两个图像之间统计依赖性的度量,适用于整个图像(Maes等人,1997)。 因此,MI特别适合于多模态的注册(Chen等人,2003a,b;约翰逊等人,2001年)。最近,Cao等人(2020)提出了一种结构一致性提升变换,以增强多光谱和多模态图像配准问题中的结构相似性,从而避免光谱信息失真。然而,MI在确定整个搜索空间的全局最大值方面表现出困难,不可避免地降低了其鲁棒性。此外,优化方法(例如,连续优化,离散优化及其混合形式)和变换模型(例如,刚性,仿射,薄板样条(TPS),弹性体和扩散模型)被认为已经足够成熟。请参考Zitova and Flusser(2003),Dawn等人(2010),Sotiras等人(2013)和Ferrante和Paragios(2017)以获取代表性文献和更多详细信息。
基于区域的方法对于医学或遥感图像配准是可以接受的,许多基于特征的方法不再可行,因为图像通常包含较少的纹理细节,并且由于成像传感器的不同,图像外观差异很大。然而,基于面积的方法可能会受到严重的几何变换和局部变形的影响。虽然深度学习已经证明了它的有效性,其中早期的通常被用作经典配准框架的直接扩展,而后来的深度学习使用强化学习范式来迭代估计转换,甚至以端到端的方式直接估计变形场。基于区域的匹配与学习策略的匹配将在基于学习的匹配部分进行审查。
评论区