这是用户在 2024-4-2 9:39 为 https://app.immersivetranslate.com/pdf-pro/cd8d3910-4c91-4dfe-8c7f-3018991ea88f 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
2024_04_02_a12140fa68859c96a6b1g
 评论


基于深度学习的遥感图像变化检测的进展与挑战:通过不同学习范式的综述


陆康王,张敏,徐高和石文忠

中国矿业大学环境与空间信息学院

徐州 221116,中国;wanglukang@cumt.edu.cn(L.W.);xugao@cumt.edu.cn(X.G.)

香港理工大学土地测量与地理信息系
john.wz.shi@polyu.edu.hk
3 号潘乐仁慈善基金智慧城市研究所,香港理工大学
 香港
通讯:lsgi-min.zhang@polyu.edu.hk


引用:王,李;张,明;高,晓;石,伟。基于深度学习的遥感图像变化检测的进展与挑战:通过不同学习范式的综述。遥感。2024 年,16,804。https://doi.org/10.3390/rs16050804 学术编辑:Eufemia Tarantino

收到:2024 年 1 月 24 日

修订日期:2024 年 2 月 23 日

接受日期:2024 年 2 月 23 日

发表日期:2024 年 2 月 25 日

版权:(C)2024 年作者所有。许可证持有人 MDPI,瑞士巴塞尔。本文是一篇遵循创作共用许可(CC BY)协议(https://creativecommons.org/licenses/by/)的开放获取文章。

 摘要


遥感图像中的变化检测(CD)是一种关键方法,用于检测地球表面的变化,在城市规划、灾害管理和国家安全等领域有广泛应用。


最近,深度学习(DL)经历了爆炸式增长,并且凭借其在特征学习和模式识别方面的卓越能力,为 CD 引入了创新的方法。本综述通过各种学习范式的视角,包括完全监督、半监督、弱监督和无监督,探讨了基于 DL 的 CD 的最新技术、应用和挑战。首先,综述介绍了使用 DL 的 CD 方法的基本网络架构。


然后,它在不同的学习范式下提供了对 CD 方法的全面分析,总结了常用的框架。此外,还提供了 CD 公开可用数据集的概述。


最后,该综述讨论了该领域的机遇和挑战,包括:(a)不完全的监督学习,包括半监督和弱监督方法,目前仍处于初级阶段,需要进一步深入研究;(b)自监督学习的潜力,为 CD 的少样本学习和一次性学习提供了重要机会;(c)基础模型的发展,具有多任务适应性,为 CD 提供了新的视角和工具;(d)数据源的扩展,为多模态 CD 提供了机遇和挑战。这些领域为 CD 的未来研究指明了有希望的方向。


总之,本综述旨在帮助研究人员全面了解 CD 领域。


关键词:变化检测;深度学习;遥感;半监督;弱监督;无监督;自监督;基础模型;多模态

 介绍


遥感图像变化检测(CD)是一种利用多时相遥感图像和辅助数据提取和分析地表变化信息的技术[1]。


CD 在地表观测中起着关键作用,被广泛用于更新土地利用变化[2],评估自然灾害[3]和分析城市扩张[4]。

随着深度学习(DL)技术的快速发展,在 CD 领域(5-7)展示了巨大的潜力和广阔的应用前景。DL 以其在特征学习和模式识别方面的出色能力,为 CD 带来了创新的解决方案和方法。


与基于手动设计特征的传统方法相比[8-11],深度学习可以自动从数据中学习高级特征表示,显著提高了 CD 的性能。转向基于深度学习的方法意味着


中,从劳动密集型的特征工程转向模型可以自主学习和适应的时代的范式转变。这一发展承诺加快 创新的步伐,为以往传统方法无法实现的研究和实际应用提供新的途径。

随着地球观测技术的不断进步[12,13],遥感图像的获取取得了显著进展,空间、时间和光谱分辨率得到了提高。


这一进展导致了遥感数据的数量、复杂性和异质性的增加。这样的发展为深入了解地球表面的变化和演化提供了前所未有的机会,但也带来了数据处理方面的重大挑战。这些挑战包括标注大规模数据集所需的大量工作和时间、粗粒度的数据标签以及有效利用大量未标记的地球观测数据。


在这种挑战的背景下,加上实际应用的需求,CD 任务面临着多样化的数据样本场景。因此,采用各种创新方法来应对这些不同的数据样本场景是至关重要的。


这有助于最大化不断发展的遥感技术的潜力,使从不断增长的数据资源中提取更有意义的解决方案成为可能。

在这些多样化的数据场景中,选择适当的学习范式变得尤为关键。传统的全监督学习范式在有足够标记数据的情况下表现良好,但在数据稀缺的情况下可能会遇到过拟合问题。


半监督学习和自监督学习范式可以通过有效利用未标记样本中丰富的信息来提高模型性能。弱监督学习范式可以使用粗略标记的数据(如图像级别、边界框或涂鸦标记)来实现 任务。此外,迁移学习和领域自适应技术在处理 任务时起到了积极的作用,可以适应不同的数据来源。这些学习范式的独特优势和应用背景为 任务提供了多样化的解决方案,不仅丰富了方法选择,还为 研究在各种数据场景中的可适应性开辟了新的可能性。

大多数现有的 领域的评论主要集中在完全监督或无监督方法上,往往忽视了半监督和弱监督方法的新兴领域。


鉴于这些新兴方向在过去的评论中受到了有限的探索,本次评论采用了全面的视角,研究了不同学习范式下的遥感图像深度学习方法,如图 1 所示。为了更好地说明这些范式,图 2 展示了不同学习范式下的 CD 的示意图。本次评论从基本网络架构延伸到各种范式中的最新方法,提供了对常见框架的全面总结和分析。


此外,该评论着重关注深度学习在计算机视觉领域快速发展所带来的挑战和有前景的前景,特别强调自监督学习和基础模型等领域。


这个全面的观点强调了这篇评论的及时性和重要性,尤其是在不断发展的深度学习技术的背景下,这些技术正在重塑 CD 领域。


它不仅为研究人员提供了对该领域最新进展的深入洞察,还勾勒出了潜在的未来研究方向和挑战。

本文的其余部分按照以下方式组织。第 2 节介绍了用于 CD 的 DL 的基本网络架构。第 3 节全面回顾了不同学习范式下的 CD 方法。第 4 节讨论了不同学习范式在 CD 中的适应性、分析、优缺点和应用场景。


第 5 节讨论了基于深度学习的 CD 的机遇和挑战。最后,在第 6 节中我们得出结论。

图 1. 基于深度学习的 CD 分类。

图 2. 不同学习范式下的 CD 的示意图。


深度学习的基本网络架构


在本节中,我们探讨了用于 CD 的基本 DL 网络架构,包括关键结构,如卷积神经网络(CNN),循环神经网络(RNN),自编码器(AE)和Transformer。


卷积神经网络


CNN 在 20 世纪 80 年代末起源,最初由 Yann LeCun 提出,使用 LeNet-5 模型进行手写数字识别[18]。


随着数据集规模的扩大和计算能力的增强,卷积神经网络开始展示出强大的特征提取和模式识别能力。


AlexNet 在 2012 年的 ImageNet 图像分类竞赛中取得了显著的成功,标志着卷积神经网络在大规模图像识别任务中的成功应用。

的核心概念是通过卷积操作从输入数据中提取特征。通过堆叠多个卷积和池化层, 逐步构建输入数据的高级抽象表示,如图 3 所示。通常,CNN 被视为分层特征提取器,将原始像素强度映射到各个抽象层的特征向量中。


卷积神经网络的基本组成部分包括:

图 3. 卷积神经网络的示意图。

卷积层。这是 CNN 的基本构建模块,通过卷积操作从输入数据中提取特征。


卷积可以被看作是一种滤波操作,它通过滑动滤波器在输入数据上进行扫描,以获得一系列局部特征响应。卷积操作在数学上表示为:

其中 表示输入数据, 是卷积核, 表示输出特征图中的位置。


卷积层通常涉及到一些考虑因素,比如卷积核的大小,它决定了滑动滤波器的维度,并影响网络提取不同尺度特征的能力;步长,表示滤波器在输入数据上移动的距离;填充,涉及在输入数据周围添加零以保持其卷积后的空间维度。

激活函数。通常在卷积层之后,激活函数引入非线性,将输入映射到一个新的空间,使网络能够学习复杂的特征。


适当选择激活函数,如 Sigmoid、Tanh、ReLU 或 Softmax,对网络的训练和性能至关重要。

池化层。也被称为子采样,池化层可以减少数据维度和参数数量,同时保留关键特征,从而提高计算效率并减轻过拟合。


汇聚函数,如最大汇聚或平均汇聚,将局部区域内的信息聚合起来,生成一个减少了的特征图。

全连接层。在这一层中,每个神经元与前一层的所有神经元相连,形成一个全连接网络,将网络的高级抽象结合起来,形成输入数据的复杂映射。

CNN 在图像处理领域中起着关键作用。它们强大的特征提取和分层抽象能力能够高效地捕捉图像中的局部和全局信息,从而实现对边缘、纹理、形状和其他特征的识别。


这使它们成为图像分类[20-23]、目标检测[24-26]、图像分割[27-29]和变化检测[30-33]等任务的首选架构。


2.2. 循环神经网络


RNN 在处理序列数据方面表现出色,能够捕捉其中固有的时间依赖关系。这使得 RNN 在涉及序列或时间相关信息的任务中非常有效。RNN 有着悠久的历史,可以追溯到上世纪 80 年代[34]。


然而,由于梯度消失和梯度爆炸等问题,训练循环神经网络一直以来都具有挑战性。


直到 2000 年代初期,随着像长短期记忆(LSTM)[35]和门控循环单元(GRU)[36]这样的技术的发展,循环神经网络(RNNs)开始得到更广泛的应用。

RNN 以其反馈连接而著名,允许网络随时间传递信息并考虑整个输入序列以进行预测。具体而言,在每个时间步骤,RNN 接收输入和前一个时间步骤的隐藏状态。


然后通过权重矩阵进行线性变换,然后通过激活函数进行非线性变换,生成当前时间步的隐藏状态。


这个隐藏状态在后续时间步骤中传递给网络的输入层,形成一个循环,如图 4 所示。RNN 的计算可以描述为:

图 4. 循环神经网络的示意图。

方程(2)表示从输入层到隐藏层的计算,其中 是当前时间步的隐藏状态, 是当前时间步的输入, 分别是输入和隐藏状态的权重矩阵, 是相应的偏置项, 是激活函数。方程(3)表示从隐藏层到输出层的计算,其中 是当前时间步的输出, 是连接隐藏状态和输出的权重矩阵, 是偏置项。

RNN 通常用于涉及建模序列数据的任务,例如语言建模[37]、机器翻译[38]和时间序列预测[39]。在图像处理领域,RNN 通常与 CNN 结合使用[40-42]。


虽然 CNN 在图像处理中能有效捕捉局部特征,但 RNN 利用其序列处理能力来整合全局信息或捕捉时间相关信息


依赖关系。特别是在涉及长期顺序 CD 的任务中,RNN 起着至关重要的作用。

 2.3. 自编码器


AE 源自神经网络和信息理论的研究,可以追溯到 1990 年代[43]。随着深度学习的进步,AE 引起了越来越多的关注。


2006 年,Hinton 提出了一种无监督预训练后跟着有监督微调的方法[44],使得深度自动编码器能够有效地解决许多实际问题。

一个 是一个无监督学习的神经网络模型,由两个主要组件组成:编码器和解码器,如图 5 所示。编码器将输入数据映射到低维隐藏表示,旨在捕捉输入的最重要特征,如方程(4)中计算的那样。


解码器将隐藏表示映射回原始输入空间,试图重构原始数据。其目标是确保隐藏表示尽可能保留原始信息,如方程(5)所述。

图 5. AE 的示意图。

在这些方程中, 代表输入数据, 分别是编码器和解码器的权重矩阵, 是偏置项, 表示编码和解码函数, 是获得的隐藏表示, 是解码器的输出。使用损失函数来衡量重构输入和原始输入之间的差异,常见选择是均方误差(MSE)或交叉熵(CE)损失,如下所示的方程式。

AE 不断学习从输入数据中提取有用特征,并在解码阶段准确重构原始输入。这种能力使 AE 成为特征学习的强大工具。在图像处理领域,AE 主要用于特征学习和提取[45]、降维[46],以及作为生成模型的初始化工具[47]。

2.4. Transformer


Transformer是谷歌于 2017 年引入的一种神经网络架构,最初用于自然语言处理任务,在机器翻译方面取得了显著的成功。


随着研究的进展,Transformer的多功能性变得明显,展示了它在图像处理[49-52]和语音识别[53-55]等方面的强大序列建模能力。


这种多功能性使得Transformer成为深度学习领域中最重要的模型之一,应用范围越来越广泛。

在其核心,Transformer依赖于自注意机制来处理输入序列。该机制使得模型能够在处理每个位置时动态地关注输入序列的不同部分,从而捕捉全局上下文。


Transformer包括多头注意力和前馈神经网络等组件,如图 6 所示。通过堆叠多层这些组件,它实现了对输入序列的高效建模。基本组件包括:

图 6. Transformer的示意图。

多头注意力。该Transformer引入了多头注意力机制,使模型能够在不同的表示子空间中关注不同的方面。


在多头注意力机制中,输入被映射到不同的线性子空间(头部),并且分别计算每个子空间的注意力权重。然后将这些子空间的输出连接起来,并进行线性变换以产生最终的输出。

位置编码。由于Transformer缺乏循环结构,需要一种方法来处理序列中的相对位置信息。位置编码被添加到输入嵌入中以提供这些信息。


通常,位置编码是与输入具有相同维度的矩阵,其值是根据位置和维度计算得出的。

前馈神经网络。在多头注意力层之后,每个位置通过一个前馈神经网络。该网络通常由两个线性层组成。


层和非线性激活函数,独立地处理序列中每个位置的元素。

残差连接和层归一化。为了防止梯度消失或爆炸,每个子层的输入(如多头注意力和前馈神经网络)通过残差连接传递。


这意味着输入被添加到子层的输出中,保留了原始信息。此外,每个子层的输出经过归一化处理,以确保网络在训练过程中的稳定性和收敛性。

当Transformer的概念引入视觉领域时,Vision Transformer(ViT)[52]通过将图像视为一系列常规补丁,重新定义了图像分类任务,为图像处理提供了一种新的范式。


此外,在目标检测[56,57]、分割任务[58-60]和变化检测[61-63]中,将图像区域划分为序列使得Transformer能够全局和局部地理解图像,为这些关键任务提供了新的视角和方法。


3. 基于深度学习的跨不同学习范式的 CD 方法


在本节中,我们将从不同的学习范式的角度,包括完全监督学习、半监督学习、弱监督学习和无监督学习,对基于深度学习的遥感图像变化检测方法进行回顾和分析。


讨论将涵盖各种数据样本场景,探讨这些学习范式如何利用不同类型的数据样本来应对特定挑战。


3.1. 全监督学习


完全监督的 CD 方法利用多时相的遥感图像,密集标注的变化标签,构建和训练神经网络模型。然后将这些训练好的模型应用于未知标签的图像对,以检测变化。


目前,使用完全监督学习进行 CD 研究已经广泛且深入发展。随着技术的不断进步,两个主要框架在这个领域中表现出了特别的成功:基于 CNN 的框架和基于Transformers的框架。


这些框架在持续交付领域取得了重要成就。


基于 CNN 的完全监督 CD 方法


基于 CNN 的全监督 CD 方法通常采用编码器-解码器架构。这种结构可以高效地从输入数据中提取特征并进行精确重建。


在编码阶段,通过卷积和池化的层层处理,将原始数据逐渐映射为高维特征表示,有效地捕捉空间和语义信息。


解码阶段通过反卷积或上采样操作将这些高维特征重构为与输入数据匹配的分割结果。


基于这种编码器-解码器结构的许多图像分割网络,如 U-Net [29]、U-Net++ [64]、FCN [65]、SegNet [66]、Deeplab [28]和 PSPNet [27],已成功应用于 CD 任务。

早期基于 CNN 的方法[67-72]通常从双时相遥感图像的图像融合开始,如图 7 所示,使用直接叠加[73]、差异[74]或主成分分析(PCA)[75]等技术。


这些融合图像随后被输入具有单个输入通道的深度学习模型以实现 CD。随着进一步的研究,孪生网络结构已成为主流[30-33,76-83]。


在这些架构中,双时态图像通过具有相同结构的特征编码器进行处理,从而实现在特征图的级别上融合特征。


该方法使模型能够更好地理解和捕捉双时态图像之间的变化,从而提高 的准确性和鲁棒性。此外,设计编码器和解码器之间的特征传递或深度特征融合机制有助于保留更多的上下文信息,这对于提高 的准确性至关重要。整合各种注意力机制进行特征传递或融合已成为一种普遍的方法,包括通道注意力[84-86]、空间注意力[87,88]和通道-空间注意力[89,90]。

这些机制为每个输入元素分配不同的权重,强调重要特征,使模型能够专注于任务相关的方面,降低对无关特征的敏感性。


暹罗结构在 CD 任务中表现出色,成为该领域的重要研究方向。

图 7. 编码器-解码器结构的示意图。

因此,目前基于 CNN 的主流方法通常依赖于 Siamese 网络编码器-解码器结构,结合注意力机制作为特征传输和融合模块的核心。


图 8 展示了一个基本的网络结构,通过使用定制的编码器-解码器结构、特征传输和融合模块以及其他改进,可以在 CD 方面实现更高的准确性,并在实际应用中展示出更强的适用性和效果。


例如,陈等人。


[30] 设计了一个基于孪生网络的时空注意力神经网络,将双时序图像输入到共享权重的孪生网络的两个分支中,利用时空像素之间的相关性捕捉丰富的时空特征。


他们将注意力模块集成到金字塔结构中,以捕捉不同尺度上的时空依赖关系,并生成双时相图像的特征图,随后通过深度度量学习实现了精细的变化检测结果。施等人。


首先使用了一个暹罗网络来学习从输入图像到嵌入空间的非线性转换,然后应用了卷积注意机制来提取更具区分性的特征,采用度量模块来学习变化图,并使用深度监督模块来增强特征提取器的学习能力。


他们还使用了对比损失函数,以鼓励未改变的像素之间的距离更小,而改变的像素之间的距离更大。方等人。


[32] 提出了一种密集连接的孪生网络,通过网络进行特征提取后,堆叠特征图,并利用注意力模块捕捉不同时间和位置的像素之间的关系,从而生成更具区分度的特征。李等人。


[33]引入了一种新颖的轻量级网络,A2Net,使用共享权重的 MobileNetV2 [92]从图像中提取深度特征。


他们加入了一个邻域聚合模块(NAM),用于融合骨干网络相邻阶段的特征,增强时间特征的表示。


提出了渐进变化识别模块(PCIM)来从双时态特征中提取时间差异信息,并使用监督注意力模块对特征进行重新加权,有效地聚合了从高到低级别的多层特征。


同样,朱等人。


[79]使用基于编码器-解码器的孪生网络从双时相图像中提取特征,并引入了全局分层采样机制来实现平衡的训练样本选择。


此外,他们在解码器中加入了二进制变化掩码,以减少未改变的背景区域对改变的前景区域的影响,进一步提高检测准确性。

图 8. 基于主流 CNN 的基本网络的示意图。


3.1.2. 基于Transformer的全监督 CD 方法


2020 年,谷歌的研究团队推出了 Vision Transformer(ViT)模型,首次将Transformer架构应用于计算机视觉任务。


他们通过对大规模图像数据集进行广泛实验,证明 ViT 在图像分类任务中可以达到与 CNN 相当的性能,标志着Transformers正式进入了视觉领域。


这个里程碑引发了基于Transformer的视觉模型的发展浪潮,例如 DeiT [50],Swin Transformer [51],Twins [93],PVT [49],Cait [94],TNT [95]和 SETR [28]。


这些进展使Transformers成为视觉任务研究的重点之一。

在 CD 任务中,基于Transformers的全监督方法取得了显著的结果。通常与 结合使用,这些方法利用 在提取局部特征和图像细节方面的能力,同时利用Transformer捕捉全局依赖和上下文信息的能力。


这种双重方法使得对遥感图像中复杂变化的全面理解成为可能,从而在 CD 方面表现出卓越的性能。


常见的模型结构,类似于计算机视觉中用于语义分割任务的模型,涉及使用Transformer作为特征提取器。


后提取,解码器,无论是基于 CNN 还是基于Transformer,将特征映射回输入图像的大小,以产生 CD 输出。大多数方法都建立在基本架构上,如图 9 所示,并可以根据所使用的解码器分为两种类型。

  • Transformer编码器+Transformer解码器[61-63,96-100]。该设计充分利用了Transformer在编码和解码阶段的自注意机制,在解码过程中有效地整合了上采样时的全局信息。


    此外,这种全注意力架构在处理长距离依赖和大规模上下文信息方面保持高效,特别适用于解析复杂的遥感数据结构。例如,崔等人。


    [61] 提出了 SwinSUNet,一个纯粹的Transformer网络,采用了 Siamese U 型结构,包括基于 SwinTransformer块的编码器、融合器和解码器。


    编码器使用分层 Swin Transformers提取多尺度特征,而融合器主要合并编码器生成的双时序特征。


    与编码器类似,解码器也基于分层 Swin Transformers,使用上采样将特征图恢复到原始输入图像的大小,并采用线性投影进行降维,生成 CD 图。陈等人[98]引入。


    基于双时相图像Transformers的 RS 图像 CD 框架。使用孪生 CNN 提取高级语义特征,并使用空间注意力将每个时相特征图转换为紧凑的处理单元token序列。


    然后,Transformer编码器对这两个token序列的上下文进行建模,生成上下文丰富的tokens。改进的Transformer解码器将其重新投影到像素空间,增强原始的像素级特征。


    最后,从两个经过改进的特征图中计算出一个特征差异图,并输入到一个浅层 中生成 CD 图。

  • Transformer编码器 + CNN 解码器[101-107]: 在这种配置中,Transformer编码器充当特征提取器,捕捉输入数据的全局上下文信息。


    提取的特征然后传递给 CNN 解码器进行更精细的图像分割和重建。例如,Li 等人[102]提出了 TransUNetCD,这是一个结合了Transformer和 UNet 的端到端 CD 模型。


    基于 UNet 架构的Transformer编码器,对 Siamese CNN 获取的特征图进行编码,建模上下文,并提取丰富的全局上下文信息。


    基于 CNN 的解码器通过跳跃连接将编码特征上采样,并将其与高分辨率的多尺度特征集成在一起。这个过程学习了局部-全局的语义特征,将特征图恢复到原始输入图像的大小,生成 CD 图。

图 9. 主流Transformer基础网络的示意图。

除了之前提到的常见方法之外,还有其他基于 Transformer 的模型架构。例如,Bandara 等人。


[108]利用一个层次化的Transformer作为编码器,从双时相图像中提取特征,然后采用轻量级的多层感知器(MLP)作为解码器。此外,另一种方法 在 CNN 编码器和 CNN 解码器之间使用Transformer作为关键度量模块,优化深度特征。


半监督学习


半监督学习位于监督学习和无监督学习范式的交叉点上。它使用标记和未标记的样本来训练模型,从标记样本中以监督方式提取特征,同时还采用各种策略来扩展未标记样本的特征。


这种方法在构建更有效的模型的同时减少对大量标记数据的依赖,使其在现实场景中非常实用,因为获取大量完全标记的数据通常是具有挑战性的。

在遥感技术快速发展和大量未标记的多时相遥感图像积累的背景下,半监督学习方法已经成为一种可行且有前景的遥感图像分类任务的研究方法。


目前,半监督的 CD 方法可以分为三种类型:基于对抗学习、自我训练和一致性正则化的方法。


3.2.1. 基于对抗学习的半监督 CD 方法


这些方法是基于生成对抗网络(GANs)[111]开发的。


GAN 的训练过程是一个优化问题,生成器的目标是创建越来越逼真的样本以欺骗鉴别器,而鉴别器则努力区分真实样本和生成样本。


通过最小化生成器和判别器之间的对抗损失来提高模型的性能。

在半监督的 CD 任务中,这些方法的关键在于使用鉴别器来区分真实的变化图和由 CD 网络生成的变化图。


具体来说,鉴别器与 CD 分割模型进行对抗训练,目标是准确区分真实标签和预测标签。在此过程中,鉴别器可以为未标记样本生成预测置信度图。


通过选择高度可信的未标记样本并将其纳入训练中,模型获得更多信息,从而增强其对变化的预测能力。这种方法的基本框架如图 10 所示。在 CD 领域,基于对抗学习的半监督学习方法仍处于初级阶段。江等人。


[112] 最初训练了一个 GAN 模型,然后将两个经过相同训练的判别器并行连接,以从双时相图像中提取特征。


这些鉴别器的输出被连接成一个向量作为最终输出,然后使用一部分标记数据对其进行微调,以得到 CD 模型。杨等人。


[113]遵循图 10 所示的基本框架,但没有采用置信策略;相反,他们直接将所有未标记的样本纳入训练过程中。彭等人。


[114]介绍了 SemiCDNet,它将带有标签和未标记样本输入到 CD 分割网络中,生成初始预测和熵图。


然后,它使用两个判别器来增强变化分割图和熵图之间特征分布的一致性。最终模型通过结合监督损失、分割对抗损失和熵对抗损失进行训练。

图 10. 基于 GAN 的半监督学习的基本框架。


基于自训练的半监督 CD 方法


这些方法的核心概念如下:首先,使用在标记样本上训练的模型参数来预测未标记样本,将这些预测视为未标记样本的伪标签。


随后,训练数据集将使用这些未标记样本及其对应的伪标签进行扩充,并在扩充后的数据集上重新训练模型。自训练方法的一般工作流程包括:

  1. 初始化:使用可用的标记数据集训练初始模型。

  2. 伪标签生成:使用初始模型预测未标记的样本,选择预测置信度高的样本,并将预测结果作为它们的伪标签。

  3. 模型重新训练:将带有伪标签的未标记样本与标记数据集合并,形成一个扩展的训练集,并使用该数据集重新训练模型。

这个过程会迭代重复,每次迭代都会从未标记的样本中生成带有伪标签的新训练数据。然而,在实际应用中,自我训练过程可能会引入噪声,特别是在伪标签生成的可靠性方面。


如果伪标签不可靠,它们可能会对模型训练产生不利影响。因此,通常会采用额外的策略,例如实施有效的置信度策略[115]来过滤未标记的样本,增强自训练的稳定性和有效性。


例如,Wang 等人[116]根据预测稳定性和模型内类别激活图与预测结果之间的稳定性,在不同的训练检查点上选择可靠的未标记样本。杨等人。


[117] 提议在训练的早期、中期和晚期设置检查点,并根据不同检查点的预测稳定性选择可靠的未标记样本进行自我训练。王等人。


[118] 基于这种稳定性,通过不同的检查点构建,并设计了一个正负像素对比损失来增强模型提取变化特征的能力。Sun 等人。


[119]利用了 FixMatch [115]中的置信度阈值过滤,选择可靠的无标签样本进行自训练,通过在自训练阶段强制保持扭曲图像的 结果和伪标签之间的一致性,进一步提高了模型的性能和鲁棒性。


除了这些策略外,还有许多其他方法[120-123]被提出来改善自我训练的效果,在半监督 CD 领域中它们的有效性是值得深入探索的一个课题。


基于一致性正则化的半监督 CD 方法


一致性正则化方法的本质在于鼓励模型对于同一样本在不同扰动或转换下产生相似的输出。


基于两个关键假设,即平滑性和聚类,一致性正则化的操作如下。平滑性假设认为相邻的样本很可能具有相同的标签。


如图 11 所示,在特征空间中,同一类别的样本通常彼此之间比与不同类别的样本更接近。这意味着模型应该对相邻样本提供类似的预测。


聚类假设认为决策边界应该位于低密度区域。一个有效的决策边界(如图 11 中的实线)应该理想地


通过稀疏的样本空间,减少模型对噪声和无关特征的敏感性,从而提高稳定性和准确性。


在这些基础上,一致性正则化方法将无标签样本纳入训练过程中,通过约束这些样本的各种扰动或变换的一致性,扩展模型的特征空间。


这导致了更加泛化的特征表示和改进的模型性能。

图 11. 一致性正则化的基本假设。

一致性正则化方法的关键是如何获得无标签样本的扰动空间,一旦获得,如何训练一个对这些扰动不敏感的模型,确保对原始图像及其各种扰动空间的预测保持一致。


目前,一致性正则化方法根据扰动空间分为三种类型,其基本框架在图 12 中针对不同的扰动空间进行了说明。

  • 图像扰动空间。该方法涉及对图像应用旋转、缩放和颜色转换等操作,生成一系列扰动图像。例如,Sun 等人提出了一种半监督方法,利用数据增强策略来访问图像扰动空间并生成伪双时相图像以进一步扩展该空间。然后,该方法最小化了从图像扰动空间和原始图像获得的变化图之间的差异。

  • 特征扰动(FP)空间[126,127]。这涉及对模型内部图像的特征空间进行扰动,而不是直接操作图像本身。可以通过对特征进行 dropout 等操作来实现。例如,Bandara 等人。


    [126]基于特征一致性正则化引入了一种半监督的 CD 方法。


    该方法扰动未标记图像对的双时差特征的深度特征空间,通过最小化从各种特征扰动空间和原始空间派生的变化图之间的差异作为一致性损失。

  • 模型扰动空间[128,129]。该方法涉及改变模型本身,使用不同的模型为无标签样本创建伪标签,然后相互监督它们。例如,陈等人。


    [129]在模型训练过程中使用了两个具有相同结构但不同初始化的网络。他们添加了一个损失函数,以确保两个网络对于相同样本产生相似的输出。

  • 综合扰动空间[130]。该方法综合了图像扰动空间、特征扰动空间和模型扰动空间的要素。杨等人。


    有效地将图像扰动技术与特征扰动策略相结合,这种整合扩展了扰动空间的探索,并产生了性能更优越、泛化能力更强的模型


    能力。值得注意的是,他们的方法在 CD 数据集中展示了令人称赞的结果,突显了这种综合扰动方法的好处。

图 12. 基于不同扰动空间的一致性正则化的半监督学习的基本框架。


弱监督学习


弱监督学习方法涉及使用不完整或不精确的标注信息训练模型,随后利用这些模型对未标记样本进行像素级预测。


这些方法中的标签通常采用较为"弱化"的形式,例如图像级别、边界框或涂鸦标签,而不是详细的像素级标签,这往往因为领域特定知识的限制而难以获得或成本过高。


与完全监督学习相比,弱监督学习在获取标签方面提供了更大的灵活性,使其在各种真实场景中具有高度适用性和潜力。

弱监督学习通常遵循两个核心步骤,如图 13 所示

  • 步骤 1:从不完整或不精确的标签中提取信息,生成像素级的伪标签。

  • 步骤 2:利用这些伪标签训练像素级的 CD 模型。

这些步骤中的核心挑战是生成高质量的伪标签。在所有弱标签中,图像级别标注是一个相对经济高效的选择。


只需要对每个图像对进行语义标注,标注为改变或未改变,无需像素、区域或边界标签。生成伪标签的过程包括:

  1. 首先,根据每个图像对的图像级标签创建初始变化区域。

  2. 然后,将这些初始区域中的语义信息传播到整个图像对,生成像素级的伪标签。

图 13. 弱监督学习的一般步骤。

开发初始变化区域的过程涉及将图像级标签演变为涂鸦级或边界框级标签。因此,本文将详细讨论图像级弱监督学习。

生成初始变化区域的方法通常涉及使用图像级标签训练图像级分类器,并从分类器的深层特征中提取信息以创建初始变化区域。


正如沈(131)所建议的那样,这一步骤通常体现了与类激活映射(CAM)(132)类似的概念。CAM 可以定位与变化相关的图像特定区域,作为弱监督方法的初始变化区域。


CAM 的基本工作流程如图 14 所示,假设最后一个卷积层的特征图具有 个通道。设模型最后一个全连接层的权重为 ,则生成 CAM 的过程可以用以下公式表示:

其中 代表类激活图(CAMs)。有许多 CAM 的变体,例如 Grad-CAM [133],Grad-CAM++ [134],Score-CAM [135],LayerCAM [136]和 EigenCAM [137],提供了更灵活的生成初始变化区域的方式。

图 14. 生成 CAMs 的基本工作流程。

在弱监督领域中,当前的方法主要依赖于相对传统的后处理技术,如 PCA [138]、K-Means [139]和条件随机场(CRF)[140],来在整个图像对中传播初始变化区域以生成像素级伪标签。


例如,Kalita 等人[141]训练了一个孪生网络。

CNN 分类网络使用图像级标签获取图像对的深度特征,并生成变化定位图。然后,他们应用 PCA 和 K-Means 方法对这些图进行分割,以获得像素级的变化检测结果。江等人。


[142] 使用加权全局平均池化训练了一个图像级别的 CNN 模型,同时获得了变化定位图,并使用 CRF 来优化这些图的边界,用于 CD。Andermatt 等人。


[143] 提出了一种弱监督的卷积网络,利用特征比较器获取变化特征,最终通过由残差块和 CRF-RNN 组成的变化分割模块形成像素级的变化检测结果。

在图像分割领域,我们见证了对初始区域的新型后处理策略的出现,例如交叉一致性[144,145],像素关系[146,147]和亲和学习[148-150]。黄等人。


[151]试图将一些新的方法从弱监督语义分割扩展到弱监督 CD,包括 SGCD [152]和 AFA [150],取得了令人期待的结果。


然而,这些新策略是否适用于遥感图像,或者是否需要进一步开发更适合遥感图像中初始变化区域的后处理方法,仍然是需要进一步研究的领域。

除了主流方法外,学者们还探索了其他方法在弱监督的 CD 中的应用。例如,吴等人提出了一种基于 GANs 的弱监督框架,欺骗判别器将具有掩盖变化区域的图像对预测为未改变。他们使用这些掩盖区域作为伪标签来训练分割网络,通过迭代对抗学习形成一个强大的 CD 分割网络。


此外,张等人[154]引入了一种新颖的神经网络,将 与多实例学习相结合,用于滑坡检测。


3.4. 无监督学习


无监督的深度学习方法用于 CD,利用深度神经网络自主学习图像特征,实现无需先验知识或手动干预的 。这些无监督方法不需要任何标记数据,利用原始图像进行训练,提供更高的自动化和更广泛的适应性。

无监督的 CD 方法通常将 DL 网络与传统的 CD 技术相结合。主要的概念是利用 DL 网络提取有效的特征表示,并应用传统的 CD 方法进行后处理,以获得 CD 地图。例如,LV 等人。


首先使用线性迭代技术获得超像素,然后提出了基于堆叠收缩自编码器(SCAE)的特征提取网络,利用 k-means 方法对这些高级编码特征进行二分类,以实现最终的 CD 结果。


Luppino 等人[157]引入了一种无监督的异构数据 CD 方法,该方法利用从输入图像中提取的局部信息来对齐两个 AE 以进行 CD。Bergamasco 等人。


[158] 提出了一种基于多层卷积自编码器(CAE)的无监督深度神经网络方法[159],使用单个时间图像块来训练 CAE。通过最小化输入和输出之间的重构误差来学习特征表示。


经过训练的 CAE 然后用于从变化前后的图像中提取多尺度特征,并使用保留细节、驱动尺度的方法融合这些特征,生成 CD 地图。Saha 等人。


[160]描述了一种用于非常高分辨率(VHR)图像 CD 的深度变化向量分析(DCVA),最初从预训练的多层 CNN 中提取深度特征。


通过将不同 CNN 层的特征组合成一个深度特征超向量,捕捉到了图像的空间上下文信息。


使用具有阈值约束的 CVA 计算双时态图像的深度变化超向量,以生成 CD 图。Wu 等人[161]在 Siamese 结构中将核 PCA(KPCA)[162]卷积作为基本模块应用于提取图像的深层特征。


通道差异用于获取特征差分图,然后将其映射到二维极坐标域,利用无监督聚类技术获得 CD 结果。杜等人。


最初使用 CVA 进行预检测,将不变的像素对作为深度网络的训练输入。


网络收敛后,转换后的特征被输入到一个慢速的系统中


特征分析用于差异计算,随后使用卡方距离计算来进行变化强度映射,最后应用阈值方法得出最终的 CD 结果。Gong 等人。


[164]使用堆叠自编码器(SAE)将差分图像转化为特征空间,随后通过聚类方法建立伪标签来训练基于 CNN 的 CD 网络。张等人。


通过深度信念网络捕获变化和不变区域的信息,生成特征空间,然后通过特征变化分析网络来识别变化。

此外,GAN 在无监督的生成对抗网络中找到了应用。


他们使用生成器和判别器之间的对抗学习来促进图像的转换、增强或重建,同时使用判别器的输出或特征距离来评估图像之间的差异。例如,Gong 等人。


最初使用传统方法,如 CVA、PCA 和 IR-MAD,对初始 CD 进行处理,随后训练鉴别器从初始 CD 结果和生成器生成的 CD 地图中学习变化像素的分布和相关性。


该过程使生成器能够创建更精细的 CD 输出。Gong 等人[168]首先使用 CVA 和 Otsu 方法进行初始 CD,然后使用生成器生成额外的训练样本。


这些样本连同初始检测结果一起输入到一个判别分类网络(DCN)[169]中,以学习改变和不变像素的概念。


对抗训练生成的数据接近真实标签,使经过良好训练的 DCN 能够将原始图像数据分类为改变和未改变的像素,完成 CD 过程。Noh 等人。


[170]引入了一种基于图像重建损失的无监督 CD 方法,该方法仅在单时序图像上进行训练。它将源图像和光学变换后的图像输入到基于编码器-解码器的 GAN 中,训练模型重建原始源图像。


在推理过程中,模型接收到双时态图像,其中变化区域表现出较高的重建损失。吴等人。


[153] 基于未改变的景观在多时相图像中表现出一定的光谱、空间和语义相似性的假设,提出了一种方法。


他们将 CD 任务转化为在图像上识别一个最小区域,一旦遮盖了这个区域,GAN 的生成器就能准确地预测它作为另一张图像。


讨论 CD 的不同学习范式


在本节中,我们将对不同学习范式下的 CD 进行全面而渐进的讨论。讨论分为四个关键方面。


首先,我们深入研究公开可用的全监督数据集,探索如何将其调整为适用于其他学习范式的数据集。接下来,我们对这些范式中的最先进方法进行比较分析。第三,我们总结了每种学习范式固有的优缺点,提供了一个平衡的观点,评估它们在 CD 背景下的适用性。


最后,我们讨论每种范式的具体应用场景。这种多方面的探索旨在提供对 CD 方法论当前景观的更深入理解,并激发这个充满活力领域未来的发展方向。


4.1. 适应不同学习范式的数据集


在这个小节中,我们重点介绍几个在 CD 领域中广泛使用的公开可用的数据集,这些数据集在验证和评估各种 CD 方法的性能方面起着关键作用,为研究人员提供了丰富的实验材料。


通过对这些数据集的分析和应用,研究人员可以更好地理解遥感图像处理中的问题和挑战,并开发出更有效的解决方案。表 1 列出了一些代表性的开放数据集,主要来自 GitHub(https://github.com/wenhwu/awesome-remote-sensing-change-detection,于 2024 年 1 月 23 日访问),以及其他各种来源的附加数据集。


本文编制和总结了关于这些数据集的信息,包括它们的图像类型、图像分辨率、图像对数量、采集年份、覆盖范围和数据来源。此外,这些数据集已根据其数据类型进行了分类。

表 1. 的公开可用数据集列表。
Dataset Name
Image
Type
Resolution Number of Image Pair Acquisition Year Coverage Area Image Source
HRCUS-CD [171] RGB
11,388 pairs of
pixels
2010 to 2022 Zhuhai, China -
GVLM [172] RGB 17 pairs of varying sizes 2010 to 2021 Global Google Earth
EGY-BCD [173] RGB
6091 pairs of
pixels
2015 to 2022 Egypt Google Earth
SI-BU [174] RGB
4932 pairs of
pixels
2019 to 2021 Guiyang, China Google Earth
BANDON [175] RGB
2283 pairs of
pixels
-
Some cities in
China
Google Earth,
Microsoft Virtual
Earth, ArcGIS
DynamicEarthNet
RGB
730 pairs of
pixels
2018 to 2019
75 regions
worldwide
Planet Labs
CLCD [177] RGB 600 pairs of pixels 2017 to 2019
Guangdong
Province, China
GF-2
S2Looking [178] RGB
5000 pairs of
pixels
Spanning
years
Global -
SYSU-CD [31] RGB
20,000 pairs of
pixels
2007 to 2014
Hong Kong,
China
-
DSIFN [78] RGB -
3940 pairs of
pixels
- Six cities in China Google Earth
SenseEarth2020 RGB
4662 pairs of
pixels
- - -
Google Dataset
RGB
1067 pairs of
pixels
2006 to 2019
Guangzhou,
China
Google Earth
LEVIR-CD [30] RGB
637 pairs of
pixels
Spanning
years
Texas, USA Google Earth
HRSCD [179] RGB
291 pairs of
pixels
2005 to 2012 France IGN
WHU-CD [180] RGB
One pair of
pixels
2012 to 2016 New Zealand Aerial
CDD [181] RGB
16,000 pairs of
pixels
- - Google Earth
SZTAKI [182] RGB 13 pairs of pixels
Spanning
years
- -
Hyperspectral
CDD [183]
Hyperspectral - Three pairs of varying sizes 2004 to 2014 USA AVIRIS
River dataset
Hyperspectral One pair of pixels 2013.5-2013.12
Jiangsu Province,
China
EO-1
Hyperion
MtS-WH [185] Multispectral
One pair of
pixels
2002 to 2009 Wuhan, China IKONOS
OSCD [186] Multispectral 24 pairs 2015 to 2018 Global Sentinel-2
SMARS [187]
RGB,
DSM
Two pairs of
pixels, one pair of
pixels
- Paris and Venice Synthetic
LEVIR-CC [188]
RGB,
Natural
Lan-
guage
-
10,077 pairs of
pixels, 50,385 natural
language statements
Spanning
years
Texas, USA Google Earth
MSBC [189]
RGB,
Multispectral,
SAR
3769 pairs of
pixels
2018 to 2019
Guigang,
Guangxi, China
GF-2,
Sentinel-1,
Sentinel-2A
MSOSCD [189]
RGB,
Multispectral,
SAR
-
5107 pairs of
pixels
2015 to 2018 Global
Sentinel-1,
Sentinel-2

表 1 中呈现的数据集以其密集标注为特点,使其特别适用于完全监督的 CD 方法。然而,必须认识到这些数据集的使用不仅限于完全监督学习。


这些完全标记的数据集的适应形式构成了半监督、弱监督、无监督和自监督学习范式的基础,每种范式都经过特定的修改以满足其独特的要求

  • 在半监督学习的情况下,数据的一个子集(通常约为 )被用作标记数据,其余部分被用作未标记数据。

  • 在弱监督学习的情况下,弱标签是从这些精确标签生成的。从密集标签到弱标签的转变是通过将详细的注释转化为更加概括或信息量较少的标签来实现的。

  • 对于无监督学习,完全忽略数据集的原始标签。

  • 此外,在自监督学习中,重点是利用未标记的数据集进行主要模型训练。然后进行微调阶段,使用带有标签的最小子集数据(大约 )来提高模型的性能。


4.2. 不同学习范式的 SOTA 方法分析


在这个小节中,我们的重点转向对不同学习范式下最高可达到的准确性进行深入分析。为了进行这个评估,我们使用了被广泛认可的 WHU-CD 数据集[180],这是该领域的一个基准,可以进行全面的评估。


选择 WHU-CD 数据集的重要性在于它在当前研究中广泛应用于全监督、半监督、弱监督和无监督学习范式。它为比较不同学习方法的有效性提供了一个共同基础,确保在准确度评估中的一致性和可靠性。


每种学习范式所达到的准确度在表 2 中详细列出,提供了它们各自性能的直接比较和定量理解。


完全监督方法,以 A2Net [33]为代表,展示出卓越的性能,精确度、召回率、F1 分数和 IoU 指标都表明高准确性。


这突显了在有详细准确标注的情况下,全监督学习的有效性,如其最高的 F1 得分为 0.9536 和 IoU 为 0.9113。相比之下,半监督方法,如 STCRNet(10%标注)[130],尽管没有完整的标注可用,但其 IoU 为 0.8191,仍然表现出色。


这突显了半监督方法在只有有限标记数据可用的情况下的有效性,利用大量未标记数据以达到相当高的准确性。


弱监督范式,如 CS-WSCDNet(图像级标签)[190]所示,呈现出不同的情况。


IoU 为 0.5729,反映了依赖较少详细的图像级标签所固有的挑战,这往往会导致较低的精确度值。


最后,无监督方法 CDRL [170]显示出 0.5000 的 IoU,表明它在没有标记数据的情况下具有潜力的场景中。


尽管与监督方法相比准确性较低,但其召回率为 0.9300,显著高,表明在识别相关变化方面具有一定的效果,尽管精确度较低。


这些结果共同说明了在选择学习范式时需要考虑的权衡和决策因素,这取决于标记数据的可用性和所需的准确性水平。

表 2. WHU-CD 数据集上不同学习范式的比较准确度指标。
Method Paradigm Pre. Rec. F1 IoU
A2Net [33] Fully Supervised 0.9430 0.9644 0.9536 0.9113
STCRNet (10% labeled) [116] Semi-Supervised - - 0.9006 0.8191
CS-WSCDNet [190] Weakly Supervised 0.6457 0.8356 0.7284 0.5729
CDRL [170] Unsupervised 0.5200 0.9300 - 0.5000


4.3. 在 CD 中不同学习范式的优缺点


在我们之前对各种学习范式的框架、它们的特定数据需求以及这些范式之间准确性的比较评估的基础上,本小节对在 CD 中使用的各种学习范式进行了批判性评估,揭示了它们的优点和缺点,如表 3 所示。通过研究每个范式的内在特性和操作效率,我们旨在提供一个平衡的观点,以指导研究人员和实践者选择最适合他们特定 CD 任务的方法。

表 3. 学习范式的优势和劣势。
Paradigm Advantages Disadvantages
Fully Supervised
High accuracy; Reliable performance with
well-defined ground truth
Time-consuming and costly data annotation
process; Less adaptable to new data scenarios
Semi-Supervised
Utilizes both labeled and unlabeled data;
Balances performance with data availability
Performance depending on the quality and
amount of label; Requires careful tuning;
Less effective when label is not representative
Weakly Supervised
Reduces annotation burden with coarse
labels; Suitable for rapid response
Limited performance; Struggles with
complex scenarios; Dependent on the quality
and relevance of weak labels
Unsupervised
No need for labeled data; Suitable for
exploratory and large-scale monitoring
Lower performance; Challenging
objective evaluation


不同学习范式的应用场景


在这个小节中,我们深入探讨了在 领域中不同学习范式的实际部署,突出了它们最适合的应用环境。必须认识到,每种学习方法虽然对某些应用具有特定的亲和力,但也具有固有的灵活性,可以适应多种情况。


因此,本小节重点阐述了每种学习范式的最适用应用场景,基于它们的内在特点和在应对这些情境中所面临的独特挑战方面的有效性。

  • 全面监督学习:这种方法最适合对城市扩张和土地利用变化进行详细监测,比如追踪城市建筑物的增长或道路的发展。


    这些情景通常需要高度准确的城市数据,因为它们直接影响城市规划和管理。此外,在这些情境中,通常有足够的资源来获取大量精确的实地真实数据。

  • 半监督学习:适用于监测自然资源,如评估森林砍伐或退化。


    鉴于森林面积广阔,通常只有部分地区有详细的注释数据,大部分地区仍未标注。


    在这种情况下,有限的注释数据与大量的未标记数据结合使用,可以用来监测大范围内森林的健康状况,从而有效评估环境影响。

  • 弱监督学习:这种范式非常适合快速灾害响应,比如对洪水或火灾灾害后变化的快速评估。


    在这些情况下,通过有限和粗糙的注释数据迅速获得对受灾地区的整体了解至关重要。

  • 无监督学习:这种方法适用于监测全球环境变化,如冰川消退或沙漠化。这些变化的长期性往往使得获取大量精确的标注数据变得具有挑战性。


5. 基于深度学习的 CD 的机遇和挑战


虽然深度学习技术在光盘领域取得了重大进展,但其快速发展也带来了新的挑战和机遇,迫切需要进一步的研究和创新。


本节重点关注这些新兴方面,包括在数据稀缺的情况下,不完全监督的 CD 的持续发展,自监督学习在 RS 图像处理中的潜在应用,基础模型在 CD 任务中的适应性探索,以及多模态 CD 在整合异构数据源方面的挑战。


这些观点不仅突出了目前等待解决的关键问题,还提出了可能的未来研究方向,为 CD 领域中深度学习的发展规划了一条道路。


5.1. 不完全监督


在第 3 节中,我们全面回顾了 中不完全监督方法,特别关注半监督和弱监督方法。这些方法在理论研究和实际应用中都显示出了显著的潜力,尤其是在有限标记数据或粗粒度标签的情况下。


通过有效利用未标记数据或粗糙标签,这些方法为解决 CD 任务提供了新的视角,减少了对昂贵的细粒度标记数据的依赖。因此,对于 的不完全监督技术的进一步研究和开发代表了该领域的一个重要趋势和机遇。然而,这些方法仍处于初级阶段,面临着几个挑战:

  • 模型性能:在 CD 任务中,模型的性能至关重要,直接影响其实际效果。弱监督方法依赖于模糊或不完整的标签(图像级别、边界框、涂鸦级别),在复杂场景中可能难以识别。


    此外,对微小变化的敏感性带来了挑战,尤其是在对细微变化敏感的应用中。

  • 不确定性管理:注释的不完整、不精确或模糊可能导致弱监督学习预测中的不确定性,影响实际应用中的可靠性和信任。


    管理这种不确定性-准确地表示和量化它在预测中的作用-是提高弱监督模型效果的关键。


    当前的策略包括将贝叶斯方法和置信度评估整合到训练过程中,以明确考虑不确定性并实现更可靠的模型结果。

  • 严重的样本不平衡:现有的半监督 CD 研究通常从监督数据集中选择 的样本来模拟半监督场景。在现实世界中,这个比例往往更加倾斜,标记样本可能只占总样本量的 以下。因此,开发利用最少量标记数据并从大量未标记数据中学习的稳健半监督学习算法是一个重大挑战。

计算机视觉领域中深度学习的快速发展带来了许多新的技术和方法,为这些挑战提供了潜在的解决方案

  • 现有的 CD 监督方法主要利用 作为骨干。深度学习的快速发展引入了更强大和灵活的网络架构,能够更有效地处理复杂和高维数据,从而提高了 CD 的准确性和效率。


    例如,ViT 已成为图像处理中的流行模型,最近被应用于具有令人满意结果的有监督 CD。探索其在不完全监督下的应用是最有前景的未来研究方向之一。

  • 新兴的学习范式,如自我监督学习,不仅为处理严重不平衡的数据集提供了有效的解决方案,还为快速模型适应和泛化提供了新的方法。


    自我监督学习将在 5.2 节进一步讨论。

  • 此外,视觉基础模型的出现开启了新的可能性。它们出色的可迁移性为 中的不完全监督提供了新的工具和创新潜力,将在第 5.3 节进一步讨论。


5.2. 自监督学习


自我监督学习利用无标签数据的内在结构作为学习信号,通过预训练任务从数据本身中学习有效的特征表示。它在深度学习领域引起了极大关注,并在计算机视觉领域取得了显著的成功。


许多自监督方法,如 MoCo [191],BYOL [192],SwAV [193],SimCLR [194],MAE [195]和 DINO [196],已广泛应用于图像分类,目标检测,图像重建和图像语义分割,表现出与传统监督训练方法相当的性能,在少量样本的微调下。


然而,自监督在遥感图像中的潜力尚未充分利用。鉴于深度学习在目标检测方面取得的重大进展,但数据注释仍然是一个主要挑战,自监督方法被视为遥感研究中的一个有前景的方法。

现有研究已尝试将自监督概念应用于 ,如参考文献[197-200]所示,主要关注中分辨率图像,并将自监督与迁移学习或传统 技术相结合,以无监督的方式操作,不依赖于标记样本。尽管这些方法展示了自监督方法在 CD 任务中的潜在应用,但由于其无监督性质,其性能落后于完全监督的方法。


另一方面,已经提出了用于高分辨率图像的自监督方法,如参考文献[201-204]所述,但在微调过程中仍然依赖大量的监督数据,没有完全解决数据注释的挑战。


迄今为止,只有参考文献[205]在一个最小的数据集上对自监督模型进行了微调实验,但仍有很大的性能改进空间。

CD 的一个关键未来研究方向是在少样本甚至单样本学习条件下探索自监督方法。这个方向对于理解和增强自监督应用在 中至关重要,同时也为解决稀缺标注数据的挑战提供了新的视角。


在这个过程中可能会出现几个挑战:首先,确保从无标签样本中通过自监督学习提取的特征足够具有代表性;其次,在少样本或一次性学习场景中避免过拟合;第三,针对特定的 CD 任务优化和调整自监督策略。


这些挑战归结为一个核心问题:如何在最小或单样本学习的情况下,保持自监督模型的泛化能力并快速适应特定任务。解决这些挑战需要深入探索创新的自监督方法以及它们如何与 CD 任务有效地整合。


5.3. 视觉基础模型


“基础模型[206]”的概念是由斯坦福人类中心人工智能研究所(HAI)基础模型研究中心(CRFM)于 2021 年 8 月提出的,其定义为“在广泛数据上训练的模型(通常使用大规模自监督学习),可以通过微调等方式适应各种下游任务。”该定义突出了基础模型利用大量数据进行预训练以及在各种场景中的广泛适用性。


最初在自然语言处理领域取得突破性成功,特别是通过开发大型语言模型(LLMs),如 GPT 系列[207]、PaLM[208]、T5[209]、LLaMa[210]和 ERNIE[211]。这些模型通过大量文本数据中的语义和语法的深度学习,可以执行各种复杂的语言任务,包括文本生成、翻译、情感分析和问答系统,标志着人工智能研究和应用的新时代的到来。


在视觉领域也进行了基础模型的探索。模型


像 CLIP [212]和 ALIGN [213]这样的模型,通过训练大量的图像-文本对,展示了理解和链接图像内容与文本描述的能力。它们将图像和文本映射到共享的表征空间,实现了强大的跨模态能力。


派生模型,如 Florence [214],RegionCLIP [215],CLIP2Video [216]和 CLIP-ViL [217],以及与 DALL-E [218]等模块的集成,已经展示了对各种计算机视觉任务的适应性,如图像分类,目标检测,视觉问答和图像生成。

在遥感图像处理中,与计算机视觉相关的任务中,应用视觉基础模型已经显示出了巨大的潜力和广阔的前景[219-222]。由于遥感图像中的 本质上是一个语义分割任务,专门用于分割的模型,如 CLIPSeg [223]、SegGPT [224]、Segment Anything Model (SAM) [225]和 SEEM [226],更接近于 CD 任务,并展示了在准确识别和跟踪地表变化方面的巨大潜力。


最近的研究[227-230]开始探索这些视觉基础模型在遥感图像分割领域的适用性,提供了创新的观点和方法。对于更具体的 CD 任务,Ding 等人。


将 FastSAM 集成为监督学习模型中的编码器,用于遥感图像特征提取,探索其在半监督 CD 任务中的潜在优势。王等人。


[190] 结合了 CAM 的本地化能力和 SAM 的零样本分割能力,建立了一个弱监督的 CD 框架,仅使用图像级标签就能在 VHR RS 图像上实现精确的像素级 CD。


这些探索展示了视觉基础模型在遥感图像处理中带来的机遇,加快了数据处理速度,提高了任务准确性,减少了对大规模标注数据集的依赖,为遥感图像处理中的 CD 和相关任务的未来发展提供了新的方向。


然而,在遥感图像处理中应用视觉基础模型仍面临一些挑战,需要通过持续的技术创新和深入研究来克服

  • 在不完全监督的 CD 场景中,视觉基础模型可以作为一个强大的辅助工具。研究人员可以使用视觉基础模型结合适当的提示生成高质量的伪标签,从而减少对准确性注释的依赖。


    然而,视觉基础模型的潜力不仅限于此;开发有效的学习算法,以利用基础模型在不完全监督方面的优势,并将其更直接地整合到主要过程中,是进一步探索的关键领域。

  • 现有研究显示,用于视觉基础模型的预训练数据集通常缺乏特定领域(如遥感图像)的图像。


    进一步探索利用大规模遥感数据集开发专门的基础模型,可以更准确地捕捉遥感图像的独特特征,从而促进零样本迁移至相关任务。


    然而,处理和分析大规模的遥感数据集需要巨大的计算资源。

  • 在计算资源有限的情况下,通过开放接口对视觉基础模型进行微调是一种实际的解决方案。采用部分权重锁定策略可以让研究人员有选择地更新模型以适用于特定的遥感图像相关任务。


    这种方法不仅节省计算资源,而且确保模型能够快速适应新任务。


    开发更有效的微调策略以保持模型的泛化能力,并确保其持续更新和维护仍然是重要的挑战。

 5.4. 多模式光盘


传统上,CD 依赖于单一数据源,主要是光学影像。然而,随着技术的进步和应用需求的增长,RS 在数据采集和传感器技术方面取得了显著的改进。


这一进展为 CD 提供了丰富的异构和复杂的地球观测数据,如光学、SAR、LiDAR、热红外和卫星视频数据。此外,还有各种数据来源,如 GIS 和地面调查数据。


提供丰富的地理环境信息


地形特征和土地利用,为 提供多维参考和支持。


多模态数据的融合不仅克服了单一数据源的局限性,如时间和空间覆盖或遮挡,还利用了每种模态的优势,为更全面和详细地理解表面变化提供了巨大的潜力。

多模态数据可以丰富地球表面的表示,检测出在单一数据集中可能难以辨别的变化。


例如,SAR 数据在各种天气条件下表现出色,能够穿透云层,补充光学图像;LiDAR 数据提供了有关地形和地表高程的详细信息,提高了在不同地形区域的准确性。已经有一些基于深度学习的多模态数据的 CD 研究[157,233-236]。例如,Li 等人。


[237]提出了一种基于 GAN 和 CNN 的光学和 SAR 图像 CD 网络,使用 GAN 将光学和 SAR 图像对齐到相同的特征空间,然后使用监督 CNN 进行 CD。张等人。


[238] 应用领域适应约束在同一特征空间中对光学和 SAR 图像进行深度特征级别的对齐,将深度异构特征对齐和 CD 任务统一到一个端到端的框架中,从而避免了意外引入噪音。

然而,目前基于深度学习的多模态 CD 方法主要集中在双模态图像上。在多模态 CD 任务中,有效利用更广泛的多模态图像,以及整合除图像之外的数据,如 GIS 和地面调查数据,仍然是一个挑战。


此外,利用深度学习技术更好地对齐多模态数据,例如对非均匀图像进行注册或识别不同模态之间的元素关系,仍然是未来研究的方向。


同样重要的是设计能够有效地融合多模态数据的互补方面并消除冗余的深度学习网络,从而实现改进的特征表示。


利用这些增强的多模态特征表示来执行诸如 CD 之类的任务也是至关重要的。

 6. 结论


本综述以多样化的学习范式为视角,报告并分析了基于深度学习的 CD 领域中的最新方法和挑战。


首先,它介绍了在深度学习中用于计算机视觉的基本网络架构,为理解该领域的核心技术打下了坚实的基础。


随后,该综述全面总结和分析了不同学习范式下基于深度学习的 CD 方法,细致地整理了它们的共同点和特征,并总结了常用的框架,从而为设计 CD 方法提供了重要的参考。


随后,该综述强调了在推进研究中多样化数据来源的重要性,并列举了一系列公开可用的 数据集。最后,该综述探讨了 CD 领域未来的前景和挑战,重点关注了不完全监督、自监督学习、视觉基础模型和多模态 CD 的作用。


这些见解为未来的研究方向铺平了道路,强调在快速发展的基于深度学习的 CD 领域中需要不断创新和适应。


通过这个综述,研究人员对 CD 领域当前的方法、挑战和未来发展方向有了全面的了解,这对于新手和资深专业人士都是有益的。

作者贡献:所有作者对该稿件做出了重要贡献。该综述由 L.W.撰写并创作,M.Z.和 W.S.监督,X.G.协助相关文献的审查。


所有作者讨论了稿件的基本结构。所有作者已阅读并同意了已发表的版本。

资金:本研究部分得到了潘乃立慈善基金智慧城市研究所、香港理工大学(工作计划:CD03)以及香港理工大学(1-ZVN6;ZVU1;U-ZECR)的支持。

数据可用性声明:不适用。

致谢:作者对学术编辑和审稿人的宝贵意见和建设性建议表示衷心感谢。

利益冲突:作者声明没有利益冲突。

 参考文献


  1. 王,李;张,明;沈,晓;施,伟。利用多级特征增强变化检测网络进行滑坡地质灾害的制图。IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens. 2023, 16, 3599-3610. [CrossRef]

  2. 谢,S.;Girshick,R.;Dollár,P.;Tu,Z.;He,K. 聚合残差变换用于深度神经网络。在计算机视觉和模式识别 IEEE 会议论文集中,夏威夷,美国,2017 年 7 月 21 日至 26 日;第 1492-1500 页。

  3. 何凯明;张晓东;任少波;孙剑。深度残差学习用于图像识别。在计算机视觉和模式识别 IEEE 会议论文集中,拉斯维加斯,内华达州,美国,2016 年 6 月 26 日至 7 月 1 日;第 770-778 页。

  4. Szegedy, C.; Liu, W.; Jia, Y.; Sermanet, P.; Reed, S.; Anguelov, D.; Erhan, D.; Vanhoucke, V.; Rabinovich, A. 使用卷积进行更深入的研究。在计算机视觉和模式识别的 IEEE 会议论文集中,波士顿,美国,2015 年 6 月 7 日至 12 日;第 1-9 页。

  5. Simonyan, K.; Zisserman, A. 非常深的卷积神经网络用于大规模图像识别。arXiv 2014,arXiv:1409.1556

  6. 刘,W.;Anguelov,D.;Erhan,D.;Szegedy,C.;Reed,S.;Fu,C.-Y.;Berg,A.C. SSD:单次多框检测器。在计算机视觉-ECCV 2016:第 14 届欧洲会议上的论文集,荷兰阿姆斯特丹,2016 年 10 月 11 日至 14 日;第 21-37 页。

  7. Redmon, J.; Divvala, S.; Girshick, R.; Farhadi, A. 你只需要看一次:统一的、实时的物体检测。在计算机视觉和模式识别的 IEEE 会议论文集中,拉斯维加斯,内华达州,美国,2016 年 6 月 26 日至 7 月 1 日;第 779-788 页。

  8. Girshick, R. Fast R-Cnn. 在 2015 年 12 月 7 日至 13 日智利圣地亚哥举行的 IEEE 国际计算机视觉会议上发表。页码为 1440-1448。

  9. 赵,H.;石,J.;齐,X.;王,X.;贾,J. 金字塔场景解析网络。在计算机视觉与模式识别 IEEE 会议论文集中,美国夏威夷檀香山,2017 年 7 月 21 日至 26 日;第 2881-2890 页。

  10. 陈良超,帕帕安德鲁,施罗夫,亚当。重新思考用于语义图像分割的空洞卷积。arXiv 2017,arXiv:1706.05587。

  11. Ronneberger, O.; Fischer, P.; Brox, T. U-Net: 生物医学图像分割的卷积网络。在《医学图像计算与计算机辅助干预-MICCAI 2015: 第 18 届国际会议》论文集中,慕尼黑,德国,2015 年 10 月 5 日至 9 日;第 234-241 页。

  12. 陈,H.;石,Z.一种基于空间-时间注意力的遥感图像变化检测方法和一个新的数据集。遥感。2020 年,12,1662。[CrossRef]

  13. 石,琦;刘,敏;李,硕;刘,晓;王,飞;张,亮。一种基于深度监督注意力度量的网络和用于遥感变化检测的开放式航空图像数据集。IEEE 地球科学与遥感学报,2021 年,60,3085870。[交叉引用]

  14. 方,S.;李,K.;邵,J.;李,Z. SNUNet-CD:一种用于高分辨率图像变化检测的密集连接孪生网络。IEEE 地球科学与遥感快报,2021 年,19,3056416。[CrossRef]

  15. 李,Z.;唐,C.;刘,X.;张,W.;窦,J.;王,L.;Zomaya,A.Y. 轻量级遥感变化检测与渐进特征聚合和监督注意力。IEEE Trans. Geosci. Remote Sens. 2023, 61, 3241436. [CrossRef]

  16. Rumelhart, D.E.; Hinton, G.E.; Williams, R.J. 通过反向传播错误学习表示。自然 1986 年,323,533-536。[CrossRef]

  17. Hochreiter, S.; Schmidhuber, J. 长短期记忆。神经计算。1997 年,9,1735-1780。[CrossRef]

  18. Chung, J.; Gulcehre, C.; Cho, K.; Bengio, Y. 门控循环神经网络在序列建模上的实证评估。arXiv 2014, arXiv:1412.3555.

  19. Mikolov, T.; Kombrink, S.; Burget, L.; Černocký, J.; Khudanpur, S. 循环神经网络语言模型的扩展。在 2011 年 IEEE 国际声学、语音和信号处理会议(ICASSP)论文集中,捷克共和国布拉格,2011 年 5 月 22 日至 27 日;第 pp 页。

    5528-5531.

  20. 深度状态空间模型用于时间序列预测。


    在第 32 届国际神经信息处理系统会议论文集中;Curran Associates Inc.:纽约红钩,美国,2018 年;页码 7796-7805。

  21. Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. 注意力就是你所需要的。在第 31 届神经信息处理系统国际会议论文集中;Curran Associates Inc.:红钩,纽约,美国,2017 年;页码。

    6000-6010.

  22. 王,W.;谢,E.;李,X.;范,D.-P.;宋,K.;梁,D.;卢,T.;罗,P.;邵,L. 金字塔视觉Transformer:一种无卷积的密集预测通用骨干。


    在 2021 年 10 月 11 日至 17 日加拿大蒙特利尔举行的 IEEE/CVF 国际计算机视觉会议论文集中,第 568-578 页。
  23. Gulati, A.; Qin, J.; Chiu, C.-C.; Parmar, N.; Zhang, Y.; Yu, J.; Han, W.; Wang, S.; Zhang, Z.; Wu, Y.; et al. Conformer: ConvolutionAugmented Transformer for Speech Recognition. arXiv 2020, arXiv:2005.08100.

  24. Unet++:一种用于医学图像分割的嵌套 u-Net 架构。


    在《深度学习在医学图像分析和临床决策支持的多模态学习中的应用》会议论文集中,西班牙格拉纳达,2018 年 9 月 20 日;第 3-11 页。

  25. 雷,T.;张,Q.;薛,D.;陈,T.;孟,H.;南迪,A.K. 使用对称全卷积网络进行端到端变化检测,用于滑坡制图。


    在 2019 年 ICASSP 国际会议论文集中,IEEE 国际声学、语音和信号处理会议(ICASSP)的论文,于 2019 年 5 月 12 日至 17 日在英国布莱顿举行;页码为 3027-3031。

  26. 阿尔马希里,A.;巴拉斯,N.;库伊曼斯,T.;郑,Y.;拉罗谢尔,H.;库尔维尔,A. 动态容量网络。在机器学习国际会议论文集中,纽约,美国,2016 年 6 月 20-22 日;第 2549-2558 页。

  27. Jaderberg, M.; Simonyan, K.; Zisserman, A. 其他空间Transformer网络。Adv. Neural Inf. Process Syst. 2015, 28, 2017-2025.

  28. 公园,J.;Woo,S.;李,J.-Y.;权,I.S. Bam:瓶颈注意模块。arXiv 2018,arXiv:1807.06514。

  29. Woo, S.; Park, J.; Lee, J.-Y.; Kweon, I.S. Cbam: 卷积块注意力模块. 在欧洲计算机视觉会议(ECCV)论文集中,德国慕尼黑,2018 年 9 月 8 日至 14 日; 第 3-19 页。

  30. 李,C.-Y.;谢,S.;加拉格尔,P.;张,Z.;涂,Z. 深度监督网络。在人工智能和统计学会议论文集中,美国加利福尼亚州圣地亚哥,2015 年 5 月 9 日至 12 日;第 562-570 页。

  31. Sandler, M.; Howard, A.; Zhu, M.; Zhmoginov, A.; Chen, L.-C. Mobilenetv2: 反向残差和线性瓶颈。在计算机视觉和模式识别 IEEE 会议论文集中,盐湖城,美国,2018 年 6 月 18 日至 23 日; pp. .

  32. 楚,X.;田,Z.;王,Y.;张,B.;任,H.;魏,X.;夏,H.;沈,C. 双胞胎:重新审视视觉中的空间注意设计。Adv. Neural Inf. Process Syst. 2021, 34, 9355-9366.

  33. Touvron, H.; Cord, M.; Sablayrolles, A.; Synnaeve, G.; Jégou, H. 图像Transformers的深入研究。在 2021 年 10 月 11 日至 17 日加拿大蒙特利尔举行的 IEEE/CVF 国际计算机视觉会议论文集中,第 32-42 页。

  34. 韩,K.;肖,A.;吴,E.;郭,J.;徐,C.;王,Y. 在Transformer中的Transformer。Adv. Neural Inf. Process Syst. 2021, 34, 15908-15919.

  35. 郑,Z.;钟,Y.;田,S.;马,A.;张,L. ChangeMask:用于语义变化检测的深度多任务编码-解码架构。ISPRS J. Photogramm. Remote Sens. 2022, 183, 228-239. [CrossRef]

  36. 张,X.;程,S.;王,L.;李,H.基于 CNN 和Transformer的非对称交叉注意力分层网络用于双时相遥感图像变化检测。IEEE Trans. Geosci. Remote Sens. 2023, 61, 3245674. [CrossRef]

  37. 陈,H.;齐,Z.;石,Z. 使用Transformers进行遥感图像变化检测。IEEE 地球科学与遥感传感器学报,2021 年,60,3095166。[交叉引用]

  38. 刘,M.;石,Q.;李,J.;柴,Z. 使用多模型Transformers学习Token对齐的表示,用于不同分辨率的变化检测。IEEE 地球科学与遥感学报,2022 年,60,3200684。[CrossRef]

  39. 宋,X.;华,Z.;李,J. PSTNet:用于遥感图像变化检测的渐进采样网络。IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens. 2022, 15, 8442-8455. [CrossRef]

  40. 严,T.;万,Z.;张,P.用于遥感图像变化检测的全Transformer网络。在 2022 年 12 月 4 日至 8 日于中国澳门举行的亚洲计算机视觉会议论文集中,第 1691-1708 页。

  41. 李,Q.;钟,R.;杜,X.;杜,Y. TransUNetCD:一种用于光学遥感图像变化检测的混合Transformer网络。IEEE Trans. Geosci. Remote Sens. 2022, 60, 1-19. [CrossRef]

  42. 江,B.;王,Z.;王,X.;张,Z.;陈,L.;王,X.;罗,B. VcT:遥感图像变化检测的视觉变化Transformer。IEEE Trans. Geosci. Remote Sens. 2023, 61, 3327139. [CrossRef]

  43. 燕,T.;万,Z.;张,P.;程,G.;卢,H. TransY-Net:学习遥感图像变化检测的全Transformer网络。IEEE Trans. Geosci. Remote Sens. 2023, 61, 3327253. [CrossRef]

  44. 王,杨;洪,丹;沙,杰;高,亮;刘,亮;张,洋;荣,晓。用于高光谱图像变化检测的光谱-空间-时间Transformers。IEEE 地球科学与遥感学报,2022 年,60,3203075。[交叉引用]

  45. 李,王;薛,李;王,李。ConvTransNet:一种用于多尺度全局-局部表示的变化检测的 CNN-Transformer网络。IEEE Trans. Geosci. Remote Sens. 2023, 61, 3272694. [CrossRef]

  46. 薛,雷,杨,吕,刘,金,南迪,A.K. 通过联合多频率和全尺度 Swin-Transformer实现遥感图像的三重变化检测网络。IEEE 地球科学与遥感传感器交易,2023 年,61,4408415。[交叉引用]

  47. Bandara, W.G.C.; Patel, V.M. 基于Transformer的连体网络用于变化检测。在 2022 年 IEEE 国际地球科学与遥感研讨会(IGARSS)会议论文集中,马来西亚吉隆坡,2022 年 7 月 17 日至 22 日;第 207-210 页。

  48. 歌曲,F.;张,S.;雷,T.;歌曲,Y.;彭,Z. MSTDSNet-CD:用于快速增长城市地区变化检测的多尺度 Swin 和深度监督网络。IEEE 地球科学与遥感通信快报,2022 年,19,3165885。[交叉引用]

  49. 毛,Z.;童,X.;罗,Z.;张,H. MFATNet:通过Transformer实现遥感图像变化检测的多尺度特征聚合。遥感。2022 年,14,5379。[CrossRef]

  50. Goodfellow, I.; Pouget-Abadie, J.; Mirza, M.; Xu, B.; Warde-Farley, D.; Ozair, S.; Courville, A.; Bengio, Y. 生成对抗网络. Commun. ACM 2020, 63, 139-144. [CrossRef]

  51. 姜,F.;龚,M.;詹,T.;范,X.一种基于半监督 GAN 的多光谱图像多变检测框架。IEEE 地球科学与遥感通信快报。2020 年,17,1223-1227。[CrossRef]

  52. 基于半监督分割和对抗学习的高分辨率遥感图像变化检测。


    在 2022 年 IGARSS IEEE 国际地球科学与遥感研讨会论文集中,马来西亚吉隆坡,2022 年 7 月 17 日至 22 日;第 1055-1058 页。

  53. 彭,D.;布鲁佐内,L.;张,Y.;关,H.;丁,H.;黄,X. SemiCDNet:一种用于高分辨率遥感图像变化检测的半监督卷积神经网络。IEEE Trans. Geosci. Remote Sens. 2021, 59, 5891-5906. [CrossRef]

  54. Sohn, K.; Berthelot, D.; Carlini, N.; Zhang, Z.; Zhang, H.; Raffel, C.A.; Cubuk, E.D.; Kurakin, A.; Li, C.-L. Fixmatch: 用一致性和置信度简化半监督学习。Adv. Neural Inf. Process Syst. 2020, 33, 596-608.

  55. 王,李;张,明;石,伟。STCRNet:一种基于自训练和一致性正则化的半监督网络,用于高分辨率遥感图像的变化检测。IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens. 2024, 17, 2272-2282. [CrossRef]

  56. 杨,L.;卓,W.;齐,L.;石,Y.;高,Y. St++:使自训练在半监督语义分割中发挥更好的作用。在 2022 年 6 月 18 日至 24 日于美国路易斯安那州新奥尔良举行的 IEEE/CVF 计算机视觉与模式识别会议论文集中;第 4268-4277 页。

  57. 王,J.X.;李,T.;陈,S.B.;唐,J.;罗,B.;威尔逊,R.C. 可靠的对比学习用于遥感图像的半监督变化检测。IEEE Trans. Geosci. Remote Sens. 2022, 60, 3228016. [CrossRef]

  58. Sun, C.; Wu, J.; Chen, H.; Du, C. SemiSANet: 一种使用具有图注意力的孪生网络的半监督高分辨率遥感图像变化检测模型。Remote Sens. 2022, 14, 2801. [CrossRef]

  59. 陈,张,张,马,雷。深入研究伪标签:半监督语义分割的低成本方法。IEEE Access 2020 年,8,41830-41837。[CrossRef]

  60. 朱,Y.;张,Z.;吴,C.;张,Z.;何,T.;张,H.;Manmatha,R.;李,M.;Smola,A.J. 通过高效自我训练改进语义分割。IEEE Trans. Pattern Anal. Mach. Intell. 2021, 46, 1589-1602. [CrossRef] [PubMed]

  61. 他,R.;杨,J.;齐,X. 重新分配偏倚的伪标签用于半监督语义分割:一个基线调查。在 IEEE/CVF 国际计算机视觉会议论文集中,加拿大蒙特利尔,2021 年 10 月 11 日至 17 日;第 6930-6940 页。

  62. 袁,J.;刘,Y.;沈,C.;王,Z.;李,H.。一种简单的半监督语义分割基线模型,采用强数据增强。在 2021 年 10 月 11 日至 17 日加拿大蒙特利尔举行的 IEEE/CVF 国际计算机视觉会议论文集中,第 8229-8238 页。

  63. 太阳,C.;陈,H.;杜,C.;景,N. SemiBuildingChange:一种半监督的高分辨率遥感图像建筑变化检测方法,带有伪双时序数据生成器。IEEE Trans. Geosci. Remote Sens. 2023, 61, 5622319. [CrossRef]

  64. 张,X.;黄,X.;李,J.联合自训练和重新平衡一致性学习用于半监督变化检测。IEEE Trans. Geosci. Remote Sens. 2023, 61, 3314452. [CrossRef]

  65. Bandara, W.G.C.; Patel, V.M. 重温一致性正则化在遥感图像半监督变化检测中的应用。arXiv 2022, arXiv:2204.08454.

  66. Ouali,Y.;Hudelot,C.;Tami,M.半监督语义分割与交叉一致性训练。在 2020 年 6 月 13 日至 19 日美国华盛顿州西雅图举行的 IEEE/CVF 计算机视觉与模式识别会议论文集中,第 12674-12684 页。

  67. 舒,Q.;潘,J.;张,Z.;王,M. MTCNet:基于单一时间监督的多任务一致性网络用于半监督建筑变化检测。Int. J. Appl. Earth Obs. Geoinf. 2022, 115, 103110. [CrossRef]

  68. 陈,X.;袁,Y.;曾,G.;王,J. 基于交叉伪监督的半监督语义分割。在 2021 年 10 月 11 日至 17 日加拿大蒙特利尔举行的 IEEE/CVF 计算机视觉与模式识别会议论文集中,第 2613-2622 页。

  69. 杨,李;齐,李;冯,李;张,王;石,杨。重新审视半监督语义分割中的弱到强一致性。在 2023 年 6 月 18 日至 22 日加拿大温哥华举行的 IEEE/CVF 计算机视觉与模式识别会议论文集中,第 7236-7246 页。

  70. 沈,W.;彭,Z.;王,X.;王,H.;岑,J.;江,D.;谢,L.;杨,X.;田,Q.关于标签高效的深度图像分割的调查:弱监督和密集预测之间的桥梁。IEEE Trans. Pattern Anal. Mach. Intell. 2023, 45, 9284-9305. [CrossRef]

  71. 周,B.;科斯拉,A.;拉佩德里萨,A.;奥利瓦,A.;托拉尔巴,A.。学习用于区分定位的深度特征。在计算机视觉和模式识别(CVPR)IEEE 会议论文集中,2016 年 6 月 26 日至 7 月 1 日,美国拉斯维加斯。

  72. Selvaraju, R.R.; Cogswell, M.; Das, A.; Vedantam, R.; Parikh, D.; Batra, D. Grad-Cam: 基于梯度的定位从深度网络中获得的视觉解释. 在 2017 年 10 月 22 日至 29 日意大利威尼斯举行的 IEEE 国际计算机视觉会议论文集中,第 618-626 页。

  73. Chattopadhay, A.; Sarkar, A.; Howlader, P.; Balasubramanian, V.N. Grad-Cam++:深度卷积网络的广义基于梯度的视觉解释。


    2018 年 IEEE 冬季计算机视觉应用会议论文集(WACV),美国内华达州塔霍湖,2018 年 3 月 12 日至 15 日;第 839-847 页。

  74. 王,H.;王,Z.;杜,M.;杨,F.;张,Z.;丁,S.;马德齐尔,P.;胡,X. Score-CAM:卷积神经网络的分数加权视觉解释。


    在 2020 年 6 月 13 日至 19 日美国华盛顿州西雅图举行的 IEEE/CVF 计算机视觉和模式识别研讨会论文集中,第 24-25 页。

  75. 江,P.-T.;张,C.-B.;侯,Q.;程,M.-M.;魏,Y. Layercam:探索用于定位的分层类激活图。IEEE 图像处理期刊,2021 年,30,5875-5888。[CrossRef]

  76. 穆罕默德,M.B.;叶辛,M. Eigen-Cam:使用主成分的类激活图。在 2020 年国际神经网络联合会议(IJCNN)论文集中,于 2020 年 7 月 19 日至 24 日在英国格拉斯哥举行;第 1-7 页。

  77. Wold,S.;Esbensen,K.;Geladi,P. 主成分分析。Chemom. Intell. Lab. Syst. 1987,2,37-52。[CrossRef]

  78. MacQueen, J. 多元观测分类和分析的一些方法. 在第五届伯克利数理统计与概率学研讨会论文集中,于 1967 年 6 月 21 日至 7 月 18 日在美国加利福尼亚州伯克利举行;第 1 卷,第 281-297 页。

  79. Lafferty, J.; McCallum, A.; Pereira, F.C.N. 条件随机场:用于分割和标记序列数据的概率模型。在第十八届国际机器学习会议上的论文集中,美国马萨诸塞州威廉斯敦,2001 年 6 月 28 日至 7 月 1 日;第 282-289 页。

  80. Kalita,I.;Karatsiolis,S.;Kamilaris,A. 使用深度孪生神经网络和弱监督学习进行土地利用变化检测。


    在《计算机图像和模式分析论文集:第 19 届国际会议,CAIP 2021,虚拟活动,2021 年 9 月 28 日至 30 日;第 24-35 页。

  81. 姜,X.;唐,H. 密集高分辨率连体网络用于弱监督变化检测。在 2019 年第六届国际系统与信息学会议(ICSAI)论文集中,中国上海,2019 年 11 月 2 日至 4 日;第 547-552 页。

  82. 安德马特,P.;蒂莫夫特,R. 一种弱监督的卷积网络用于变化分割和分类。在 2020 年 11 月 30 日至 12 月 4 日日本京都举行的亚洲计算机视觉会议上发表。

  83. 魏,Y.;肖,H.;史,H.;杰,Z.;冯,J.;黄,T.S. 重新审视扩张卷积:一种用于弱监督和半监督语义分割的简单方法。


    在 2018 年 6 月 18 日至 23 日美国犹他州盐湖城举行的 IEEE 计算机视觉和模式识别会议论文集中,第 7268-7277 页。

  84. 张,F.;顾,C.;张,C.;戴,Y. 弱监督语义分割的补充补丁。在 IEEE/CVF 国际计算机视觉会议论文集中,加拿大蒙特利尔,2021 年 10 月 11 日至 17 日;第 7242-7251 页。

  85. 安,J.;曹,S.;郭,S.。基于像素间关系的弱监督实例分割学习。在计算机视觉和模式识别 IEEE 会议论文集中,长滩,加利福尼亚州,美国,2019 年 6 月 15 日至 20 日;第 2204-2213 页。[交叉引用]

  86. 李,J.;金,E.;莫克,J.;尹,S. 用于弱监督语义分割和物体定位的抗对抗操纵归因。IEEE Trans. Pattern Anal. Mach. Intell. 2022, 46, 1618-1634. [CrossRef]

  87. 张,X.;彭,Z.;朱,P.;张,T.;李,C.;周,H.;焦,L.。自适应亲和力损失和错误伪标签细化用于弱监督语义分割。计算机协会:美国纽约,2021 年,卷 1,ISBN 978-1-45038-651-7。

  88. Ahn, J.; Kwak, S.通过图像级监督学习像素级语义关联,用于弱监督语义分割。在 2018 年 6 月 18 日至 23 日于美国犹他州盐湖城举行的 IEEE 计算机视觉与模式识别会议论文集中,第 4981-4990 页。[CrossRef]

  89. Ru, L.; Zhan, Y.; Yu, B.; Du, B. 从注意力中学习相似性: 基于端到端的弱监督语义分割与Transformers. 在 2022 年 6 月 18 日至 24 日于美国路易斯安那州新奥尔良举行的 IEEE/CVF 计算机视觉与模式识别会议论文集中,第 16846-16855 页。

  90. 黄,R.;王,R.;郭,Q.;魏,J.;张,Y.;范,W.;刘,Y.。背景混合增强用于弱监督变化检测。在人工智能 AAAI 会议论文集中,华盛顿特区,美国,2023 年 2 月 7 日至 14 日;第 37 卷,第 7919-7927 页。

  91. 赵,W.;尚,C.;陆,H. 通过双对抗鉴别器实现自动生成的焦外模糊检测。在 2021 年 10 月 11 日至 17 日加拿大蒙特利尔举行的 IEEE/CVF 计算机视觉与模式识别会议上发表。页码 6933-6942。

  92. 吴,C.;杜,B.;张,L. 无监督、弱监督和区域监督变化检测的全卷积变化检测框架与生成对抗网络。IEEE Trans. Pattern Anal. Mach. Intell. 2023, 45, 9774-9788. [CrossRef] [PubMed]

  93. 张,M.;石,W.;陈,S.;詹,Z.;石,Z. 滑坡映射的深度多实例学习。IEEE 地球科学与遥感通信快报。2021 年,18,1711-1715。[CrossRef]

  94. Lv, N.; Chen, C.; Qiu, T.; Sangaiah, A.K. 基于收缩自编码器的深度学习和超像素特征提取用于 SAR 图像的变化检测。IEEE Trans. Ind. Inform. 2018, 14, 5530-5538. [CrossRef]

  95. Kosiorek, A.; Sabour, S.; Teh, Y.W.; Hinton, G.E. 堆叠胶囊自编码器。Adv. Neural Inf. Process Syst. 2019, 32, 15486-15496.

  96. Luppino, L.T.; Hansen, M.A.; Kampffmeyer, M.; Bianchi, F.M.; Moser, G.; Jenssen, R.; Anfinsen, S.N. 用于多模态遥感图像无监督变化检测的编码对齐自编码器。IEEE Trans. Neural Netw. Learn. Syst. 2022, 35, 60-72. [CrossRef] [PubMed]

  97. Bergamasco, L.; Saha, S.; Bovolo, F.; Bruzzone, L. 基于卷积自编码器特征提取的无监督变化检测。在《遥感图像和信号处理第 25 卷》会议论文集中,法国斯特拉斯堡,2019 年 9 月 9 日至 11 日;第 11155 卷,第 325-332 页。

  98. 堆叠卷积自编码器用于分层特征提取。


    在 2011 年人工神经网络和机器学习国际会议论文集中:芬兰埃斯波,2011 年 6 月 14 日至 17 日;第 52-59 页。

  99. Saha, S.; Bovolo, F.; Bruzzone, L. 高分辨率图像中多变化检测的无监督深度变化向量分析。IEEE Trans. Geosci. Remote Sens. 2019, 57, 3677-3693. [CrossRef]

  100. 吴,陈,杜,张。基于深度核 PCA 卷积映射网络的多时相 VHR 图像无监督变化检测。IEEE Trans. Cybern. 2021, 52, 12084-12098. [CrossRef] [PubMed]

  101. Schölkopf, B.; Smola, A.; Müller, K.-R. 非线性成分分析作为一个核特征值问题。神经计算。1998 年,10,1299-1319。[CrossRef]

  102. 杜,B.;茹,L.;吴,C.;张,L.无监督深度慢特征分析用于多时相遥感图像的变化检测。IEEE Trans. Geosci. Remote Sens. 2019, 57, 9976-9992. [CrossRef]

  103. 龚,M.;杨,H.;张,P.基于深度学习的特征学习和变化特征分类用于 SAR 图像的三值变化检测。ISPRS J. Photogramm. Remote Sens. 2017, 129, 212-225. [CrossRef]

  104. 张,H.;龚,M.;张,P.;苏,L.;石,J. 使用深度表示和特征变化分析进行多光谱图像的特征级变化检测。IEEE 地球科学与遥感通信快报。2016 年,13,1666-1670。[CrossRef]

  105. 龚,M.;牛,X.;张,P.;李,Z.用于多光谱图像变化检测的生成对抗网络。IEEE 地球科学与遥感通信快报。2017 年,14,2310-2314。[CrossRef]

  106. Nielsen, A.A. 2007 年,《多光谱和高光谱数据中的变化检测的正则化迭代加权 MAD 方法》。IEEE 图像处理期刊,16,463-478。[CrossRef] [PubMed]

  107. 龚,M.;杨,Y.;詹,T.;牛,X.;李,S. 用于多光谱图像变化检测的生成性辨别分类网络。IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens. 2019, 12, 321-333. [CrossRef]

  108. 刘,Y.-H.;Van Nieuwenburg,E.P.L. 用于检测相变的判别式合作网络。Phys. Rev. Lett. 2018, 120, 176401. [CrossRef] [PubMed]

  109. Noh, H.; Ju, J.; Seo, M.; Park, J.; Choi, D.-G. 基于图像重建损失的无监督变化检测。在 2022 年 6 月 18 日至 24 日于美国路易斯安那州新奥尔良举行的 IEEE/CVF 计算机视觉与模式识别会议上发表。页码 1352-1361。

  110. 张,J.;邵,Z.;丁,Q.;黄,X.;王,Y.;周,X.;李,D. AERNet:一种用于遥感建筑变化检测的注意力引导边缘细化网络和数据集。IEEE Trans. Geosci. Remote Sens. 2023, 61, 3300533. [CrossRef]

  111. 张,X.;于,W.;潘,M.-O.;石,W. 使用原型引导的领域感知渐进表示学习从大规模遥感图像中进行跨领域滑坡制图。ISPRS J. Photogramm. Remote Sens. 2023, 197, 1-17. [CrossRef]

  112. Holail, S.; Saleh, T.; Xiao, X.; Li, D. AFDE-Net: 使用基于注意力的特征差异增强技术进行卫星图像的建筑变化检测。IEEE 地球科学与遥感通信快报。2023 年,20,3283505。[CrossRef]

  113. 廖,C.;胡,H.;袁,X.;李,H.;刘,C.;刘,C.;付,G.;丁,Y.;朱,Q. BCE-Net:基于历史地图和最新图像的可靠建筑物轮廓变化提取,使用对比学习。ISPRS J. Photogramm. Remote Sens. 2023, 201, 138-152. [CrossRef]

  114. 庞,C.;吴,J.;丁,J.;宋,C.;夏,G.-S. 利用斜视航空影像检测建筑变化。中国科学信息科学。2023 年,66 卷,140306 页。[交叉引用]

  115. Toker, A.; Kondmann, L.; Weber, M.; Eisenberger, M.; Camero, A.; Hu, J.; Hoderlein, A.P.; Şenaras, Ç.; Davis, T.; Cremers, D. DynamicEarthNet: 每日多光谱卫星数据集用于语义变化分割。


    在 2022 年 6 月 18 日至 24 日于美国路易斯安那州新奥尔良举行的 IEEE/CVF 计算机视觉与模式识别会议(CVPR)论文集中,第 21158-21167 页。

  116. 刘,M.;柴,Z.;邓,H.;刘,R. 一种具有多尺度上下文聚合的 CNN-Transformer网络用于细粒度农田变化检测。IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens. 2022, 15, 4297-4306. [CrossRef]

  117. 沈,陆,陈,魏,谢,岳,陈,吕,江。S2Looking:用于建筑变化检测的卫星侧视数据集。遥感 2021 年,13 卷,5094 页。[交叉引用]

  118. Caye Daudt, R.; Le Saux, B.; Boulch, A.; Gousseau, Y. 大规模语义变化检测的多任务学习。计算机视觉与图像理解,2019 年,187,102783。[交叉引用]

  119. 吉,S.;魏,S.;陆,M. 用于从开放的航空和卫星图像数据集中提取多源建筑物的全卷积网络。IEEE 地球科学与遥感学报,2018 年,57,574-586。[交叉引用]

  120. Lebedev, M.A.; Vizilter, Y.V.; Vygolov, O.V.; Knyaz, V.A.; Rubis, A.Y. 使用条件对抗网络进行遥感图像变化检测。Int. Arch. Photogramm. Remote Sens. Spat. Inf. Sci. 2018, 42, 565-571. [CrossRef]

  121. Benedek, C.; Sziranyi, T. 通过多层条件混合马尔可夫模型在光学航空影像中进行变化检测。IEEE Trans. Geosci. Remote Sens. 2009, 47, 3416-3430. [CrossRef]

  122. 洛佩斯-方迪尼奥,J.;加雷亚,A.S.;埃拉斯,D.B.;阿尔盖略,F. 堆叠自编码器用于高光谱图像的多类别变化检测。在 2018 年国际地球科学与遥感研讨会 IGARSS 的论文集中,西班牙瓦伦西亚,2018 年 7 月 22 日至 27 日;第 1906-1909 页。

  123. 王,钱;元,朱;杜,秦;李,夏。GETNET:一种用于高光谱图像变化检测的通用端到端 2D CNN 框架。IEEE 地球科学与遥感学报,2019 年,57,3-13。[交叉引用]

  124. 吴,C.;张,L.;杜,B. 场景变化检测的核慢特征分析。IEEE 地球科学与遥感学报,2017 年,55,2367-2384。[交叉引用]

  125. Daudt, R.C.; Le Saux, B.; Boulch, A.; Gousseau, Y. 使用卷积神经网络进行多光谱地球观测的城市变化检测。在 2018 年 IGARSS IEEE 国际地球科学与遥感研讨会论文集中,西班牙瓦伦西亚,2018 年 7 月 22 日至 27 日;页码。

    2115-2118.

  126. Fuentes Reyes, M.; Xie, Y.; Yuan, X.; d'Angelo, P.; Kurz, F.; Cerra, D.; Tian, J. 一种应用于城市语义分割、建筑物提取和变化检测的二维/三维多模态数据模拟方法。ISPRS J. Photogramm. Remote Sens. 2023, 205, 74-97. [CrossRef]

  127. 刘,C.;赵,R.;陈,H.;邹,Z.;石,Z.。双分支Transformers的遥感图像变化字幕生成:一种新方法和大规模数据集。IEEE 地球科学与遥感学报,2022 年,60,3218921。[CrossRef]

  128. 李,H.;朱,F.;郑,X.;刘,M.;陈,G. MSCDUNet:一种集成多光谱、SAR 和 VHR 数据的深度学习框架用于建筑物变化检测。IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens. 2022, 15, 5163-5176. [CrossRef]

  129. 王,李;张,明;石,伟。CS-WSCDNet:基于类激活映射和任意分割模型的弱监督变化检测框架。IEEE 地球科学与遥感学报,2023 年,61 卷,3330479。[交叉引用]

  130. 他,K.;范,H.;吴,Y.;谢,S.;Girshick,R. 动量对比用于无监督视觉表示学习。在计算机视觉和模式识别 IEEE/CVF 会议论文集中的论文,美国华盛顿州西雅图,2020 年 6 月 13 日至 19 日;第 9729-9738 页。

  131. 烤架,J.-B.;斯特鲁布,F.;阿尔切,F.;塔勒克,C.;里什蒙德,P.;布查茨卡亚,E.;多尔施,C.;阿维拉·皮雷斯,B.;郭,Z.;盖什拉吉·阿扎尔,M.;等。自助学习的新方法:自举您自己的潜在特征。Adv. Neural Inf. Process Syst. 2020, 33, 21271-21284.

  132. Caron, M.; Misra, I.; Mairal, J.; Goyal, P.; Bojanowski, P.; Joulin, A. 通过对比聚类分配进行无监督学习的视觉特征。Adv. Neural Inf. Process Syst. 2020, 33, 9912-9924.

  133. 陈,T.;科恩布利斯,S.;诺鲁兹,M.;辛顿,G.视觉表示对比学习的简单框架。在机器学习国际会议论文集中,虚拟会议,2020 年 7 月 13 日至 18 日;第 1597-1607 页。

  134. 他,K.;陈,X.;谢,S.;李,Y.;Dollár,P.;Girshick,R. 掩蔽自编码器是可扩展的视觉学习者。在 2022 年 6 月 18 日至 24 日美国路易斯安那州新奥尔良市举行的 IEEE/CVF 计算机视觉与模式识别会议论文集中,第 16000-16009 页。

  135. 张,H.;李,F.;刘,S.;张,L.;苏,H.;朱,J.;倪,L.M.;沈,H.-Y. Dino:改进去噪锚框的端到端目标检测的 Detr。arXiv 2022,arXiv:2203.03605。

  136. Akiva, P.; Purri, M.; Leotta, M.自我监督的遥感任务材料和纹理表示学习。在 2022 年 6 月 18 日至 24 日美国路易斯安那州新奥尔良举行的 IEEE/CVF 计算机视觉与模式识别会议论文集中,第 8203-8215 页。

  137. Manas, O.; Lacoste, A.; Giró-i-Nieto, X.; Vazquez, D.; Rodriguez, P. 季节对比:来自未经筛选的遥感数据的无监督预训练。在 IEEE/CVF 国际计算机视觉会议论文集中,加拿大蒙特利尔,2021 年 10 月 11 日至 17 日;页码。

    9414-9423.

  138. 陈,Y.;布鲁佐内,L.一种自监督的方法用于双时相遥感图像的像素级变化检测。IEEE 地球科学与遥感学报,2022 年,60,3203897。[交叉引用]

  139. Leenstra, M.; Marcos, D.; Bovolo, F.; Tuia, D. 自我监督预训练增强了 Sentinel-2 图像的变化检测。在模式识别 ICPR 国际研讨会和挑战的论文集中,虚拟活动,2021 年 1 月 10 日至 15 日;第 578-590 页。

  140. 江,F.;龚,M.;郑,H.;刘,T.;张,M.;刘,J.自我监督的全局-局部对比学习用于高分辨率遥感图像的细粒度变化检测。IEEE 地球科学与遥感学报,2023 年,61,3238327。[交叉引用]

  141. 陈,H.;李,W.;陈,S.;石,Z. 语义感知密集表示学习用于遥感图像变化检测。IEEE 地球科学与遥感学报,2022 年,60,3203769。[CrossRef]

  142. Saha, S.; Ebel, P.; Zhu, X.X.自我监督的多传感器变化检测。IEEE Trans. Geosci. Remote Sens. 2022, 60, 3109957. [CrossRef]

  143. 陈,Y.;布鲁佐尼,L. 多视角遥感图像的自监督变化检测。IEEE 地球科学与遥感学报,2022 年,60,3089453。[交叉引用]

  144. 张,杨;赵,杨;董,杨;杜,贝。通过Transformer的多模态图像进行自我监督预训练,用于变化检测。IEEE 地球科学与遥感学报,2023 年,61 卷,3271024 页。[交叉引用]

  145. Bommasani, R.; Hudson, D.A.; Adeli, E.; Altman, R.; Arora, S.; von Arx, S.; Bernstein, M.S.; Bohg, J.; Bosselut, A.; Brunskill, E.; et al. 关于基础模型的机遇和风险。arXiv 2021, arXiv:2108.07258.

  146. 布朗,T.;曼恩,B.;赖德,N.;苏比亚,M.;卡普兰,J.D.;达里瓦尔,P.;尼拉坎坦,A.;夏姆,P.;萨斯特里,G.;阿斯克尔,A.;等。语言模型是少样本学习者。Adv. Neural Inf. Process Syst. 2020, 33, 1877-1901.

  147. Chowdhery, A.; Narang, S.; Devlin, J.; Bosma, M.; Mishra, G.; Roberts, A.; Barham, P.; Chung, H.W.; Sutton, C.; Gehrmann, S.; et al. Palm: 使用路径扩展语言建模的规模化方法。arXiv 2022, arXiv:2204.02311.

  148. Raffel, C.; Shazeer, N.; Roberts, A.; Lee, K.; Narang, S.; Matena, M.; Zhou, Y.; Li, W.; Liu, P.J. 通过统一的文本到文本模型探索迁移学习的极限。机器学习研究杂志,2020 年,21 卷,5485-5551 页。

  149. Touvron, H.; Lavril, T.; Izacard, G.; Martinet, X.; Lachaux, M.-A.; Lacroix, T.; Rozière, B.; Goyal, N.; Hambro, E.; Azhar, F.; 等。Llama: 开放高效的基础语言模型。arXiv 2023, arXiv:2302.13971.

  150. Sun, Y.; Wang, S.; Li, Y.; Feng, S.; Chen, X.; Zhang, H.; Tian, X.; Zhu, D.; Tian, H.; Wu, H. Ernie: 基于知识融合的增强表示. arXiv 2019, arXiv:1904.09223.

  151. 从自然语言监督中学习可迁移的视觉模型。


    2021 年 7 月 18 日至 24 日虚拟机器学习国际会议论文集,第 8748-8763 页。

  152. 贾,C.;杨,Y.;夏,Y.;陈,Y.-T.;帕雷克,Z.;范,H.;乐,Q.;宋,Y.-H.;李,Z.;杜里格,T. 通过嘈杂的文本监督扩展视觉和视觉语言表示学习的规模。


    2021 年 7 月 18 日至 24 日虚拟机器学习国际会议论文集,第 4904-4916 页。

  153. 袁,L.;陈,D.;陈,Y.-L.;科代拉,N.;戴,X.;高,J.;胡,H.;黄,X.;李,B.;李,C.;等。弗洛伦萨:计算机视觉的新基础模型。arXiv 2021,arXiv:2111.11432。

  154. Regionclip:基于区域的语言-图像预训练。


    2022 年 6 月 18 日至 24 日,美国路易斯安那州新奥尔良举行的 IEEE/CVF 计算机视觉与模式识别会议论文集,第 16793-16803 页。

  155. 方,H.;熊,P.;徐,L.;陈,Y. Clip2video:通过图像剪辑掌握视频文本检索。arXiv 2021,arXiv:2106.11097。

  156. 沈,S.;李,L.H.;谭,H.;班萨尔,M.;罗尔巴赫,A.;张,K.-W.;姚,Z.;克伊策,K. Clip 能在视觉和语言任务中带来多大的好处?arXiv 2021,arXiv:2107.06383。

  157. Ramesh, A.; Dhariwal, P.; Nichol, A.; Chu, C.; Chen, M. 使用 Clip 潜变量的分层文本条件图像生成。arXiv 2022, arXiv:2204.06125.

  158. Cha, K.; Seo, J.; Lee, T. 遥感图像的十亿级基础模型。arXiv 2023, arXiv:2304.05215.

  159. 刘,F.;陈,D.;关,Z.;周,X.;朱,J.;周,J. RemoteCLIP:一种用于遥感的视觉语言基础模型。arXiv 2023,arXiv:2306.11029。

  160. 张,J.;周,Z.;麦,G.;穆,L.;胡,M.;李,S. Text2Seg:通过文本引导的视觉基础模型进行遥感图像语义分割。arXiv 2023,arXiv:2304.10597。

  161. 温,C.;胡,Y.;李,X.;袁,Z.;朱,X.X. 遥感中的视觉语言模型:当前进展与未来趋势。arXiv 2023,arXiv:2305.05726。

  162. Lüddecke, T.; Ecker, A. 使用文本和图像提示进行图像分割。在 2022 年 6 月 18 日至 24 日于美国路易斯安那州新奥尔良举行的 IEEE/CVF 计算机视觉与模式识别会议论文集中,第 7086-7096 页。

  163. 王,X;张,X;曹,Y;王,W;沈,C;黄,T。Seggpt:在上下文中分割一切。arXiv 2023,arXiv:2304.03284。

  164. 基里洛夫,A.;明顿,E.;拉维,N.;毛,H.;罗兰,C.;古斯塔夫森,L.;肖,T.;怀特海德,S.;伯格,A.C.;罗,W.-Y.;等。分割任何东西。arXiv 2023,arXiv:2304.02643。

  165. 走,X;杨,J;张,H;李,F;李,L;高,J;李,Y.J。一次性地将所有部分分割开来。arXiv 2023,arXiv:2304.06718。

  166. 陈,刘,陈,张,李,邹,石。Rsprompter:基于视觉基础模型学习遥感实例分割提示。arXiv 2023,arXiv:2306.16269。[CrossRef]

  167. Osco, L.P.; Wu, Q.; de Lemos, E.L.; Gonçalves, W.N.; Ramos, A.P.M.; Li, J.; Junior, J.M.《遥感应用中的分段任意模型(Sam):从零到一次拍摄》。《国际应用地球观测与地理信息学杂志》2023 年,124 卷,103540 页。[CrossRef]

  168. 吉,W.;李,J.;毕,Q.;李,W.;程,L. 分割任何东西并不总是完美的:对 Sam 在不同实际应用中的调查。arXiv 2023,arXiv:2304.05750。

  169. 王,D.;张,J.;杜,B.;徐,M.;刘,L.;陶,D.;张,L. SAMRS:使用 Segment Anything 模型扩大遥感分割数据集的规模。


    2023 年 12 月 10 日至 16 日,美国路易斯安那州新奥尔良举行的第三十七届神经信息处理系统会议数据集和基准赛道论文集。

  170. 丁,李;朱,凯;彭,迪;唐,华;郭,辉。将分段任意模型应用于高分辨率遥感图像的变化检测。arXiv 2023,arXiv:2309.01429。

  171. 赵,X.;丁,W.;安,Y.;杜,Y.;于,T.;李,M.;唐,M.;王,J. 快速分割任何东西。arXiv 2023,arXiv:2306.12156。

  172. 陈,H.;横谷,N.;奇尼,M. 无监督多模态变化检测的傅里叶域结构关系分析。ISPRS J. Photogramm. Remote Sens. 2023, 198, 99-114. [CrossRef]

  173. 好,F.;马,Z.-F.;田,H.-P.;王,H.;吴,D.半监督标签传播用于多源遥感图像变化检测。计算地球科学。2023 年,170,105249。[交叉引用]

  174. 陈,H.;横谷,N.;吴,C.;杜,B.基于结构关系图表示学习的无监督多模态变化检测。IEEE 地球科学与遥感学报,2022 年,60,3229027。[CrossRef]

  175. 金,H.;Mountrakis,G. 光学、雷达和波形 LiDAR 观测数据的融合用于土地覆盖分类。ISPRS J. Photogramm. Remote Sens. 2022, 187, 171-190. [CrossRef]

  176. 李,X.;杜,Z.;黄,Y.;谭,Z.一种基于深度翻译(GAN)的光学和 SAR 遥感图像变化检测网络。ISPRS J. Photogramm. Remote Sens. 2021, 179, 14-34. [CrossRef]

  177. 张,C.;冯,Y.;胡,L.;Tapete,D.;潘,L.;梁,Z.;Cigna,F.;岳,P.一种用于异构光学和 SAR 遥感图像变化检测的领域自适应神经网络。Int. J. Appl. Earth Obs. Geoinf. 2022, 109, 102769. [CrossRef]

免责声明/出版商注意事项:所有出版物中所包含的陈述、观点和数据仅代表个别作者和贡献者的意见,而不代表 MDPI 和/或编辑的意见。


MDPI 和/或编辑不对任何在内容中提到的观点、方法、指导或产品导致的人身伤害或财产损失承担责任。