基于标签改进和多模型融合的多时相遥感影像变化交叉检测

李卓宏 $^{l}$ ，卢方晓 $^{l}$ ，张红艳 $^{l^{*}}$ ，杨光义 $^{2}$ ，张良培 $^{l}$ $^{1}$ 测绘遥感信息工程国家重点实验室，武汉大学，武汉 430079，中国 $^{2}$ 武汉大学电子信息学院，武汉 430079，中国*通讯作者: zhanghongyan@whu.edu.cn

摘要

1. 摘要

变化检测是一种具有社会公益性的地理空间应用，其发展受限于缓慢发展的标注技术和过时的遥感图像分类标签。本文提出了一种基于标签改进和多模型融合的多时相语义变化检测（MSD）交叉检测方法，针对弱标注、噪声和低分辨率标签。对于不匹配的标签，提出了 Siamese Skip_FCN 网络以生成高分辨率的初步标签。随后，引入多模型融合方法以实现准确且稳定的地物分类。此外，采用交叉检测结构生成高精度变化图，并通过后处理步骤进一步提升最终结果。在 2021 年数据融合竞赛（DFC21-MSD）的 MSD 赛道中，所提方法在第一阶段实现了平均交并比（mIoU）为 $70.25 %$ ，第二阶段为 $67.72 %$ ，两阶段均排名第一[1]。

关键词-变化检测，模型融合，多分辨率，伪标签

1. 引言

作为地球观测中的核心问题之一，变化检测用于监测环境中的生态变化和追踪城市的发展。然而，新型传感器在高空间分辨率或高时间分辨率方面的激增，远未配备同等丰富的标签数据

[2, 3]

；因此，如何从带有稀疏信息的弱标签中学习以实现准确的语义变化检测，已成为一个值得关注的挑战。

因此，IEEE GRSS 的图像分析与数据融合技术委员会（IADF TC）与微软联合举办了 DFC21-MSD 竞赛。比赛中，输入影像取自 2013 年和 2017 年的国家农业影像计划（NAIP），分辨率为 1 米，且可用标签
来自 2013 年和 2016 年的 30 米分辨率国家土地覆盖数据库（NLCD）。还提供了 2013 年至 2017 年期间的 Landsat-8 数据。所有数据均限于美国马里兰州。任务是利用低分辨率且带噪声的 NLCD 标签来估计高分辨率的变化图。

针对该任务，我们提出了一种基于标签改进和多模型融合的变化交叉检测方法，如图 1 所示，用于多时相变化检测。首先，采用 Siamese Skip_FCN 提升标签的分辨率。然后，实施多模型融合和迭代策略，持续优化标签以实现更精确的监督。其次，利用交叉检测从融合模型中不同年份的交互分支生成高精度变化图。最后，在后处理阶段应用阴影去除、NDVI 和形态学处理。通过弱监督策略充分利用多源和多时相数据，所提方法旨在生成具有无与伦比的噪声标签的高精度高分辨率变化图。

图1. 整体方案流程图。

2. 方法论

2.1. 标签改进

2.1.1. 标签改进的一般流程

标签改进的一般流程可分为三个阶段，如图 2 所示。首先，使用低分辨率的 Landsat-8 和 NLCD 训练 Siamese Skip_FCN（LR），利用 Landsat-8 的光谱信息来修正粗糙标签。其次，使用 NAIP 和第一阶段输出的伪标签，称为“Landsat-LRL”，训练 Siamese Skip_FCNs（HR），生成分辨率改进的标签，称为“NAIP-HRL”。然后，使用 NAIP 和 NAIP-HRL（从 NLCD 的 15 类转移到四个目标类）分别在不同年份训练融合模型，并将带有配对分支的输出取交集，作为新的伪标签，称为“Intersect-HRL”。最后，融合模型通过使用 Intersect-HRL 作为标签持续重新训练，这一重复过程称为“标签迭代”，以实现更稳定的监督。

图2. 标签迭代与模型融合流程。

2.1.2. 标签分辨率提升

由于 NLCD 是拼接且低分辨率的，具有大感受野或编码器-解码器结构的先进网络可能会过拟合噪声标签，并且预测结果会保持与标签相同的低分辨率（例如，Malkin 等人在基线[2]中使用 NLCD 训练了 UNet）。因此，设计了一个 Siamese Skip_FCNs 网络以提升标签分辨率，如图 3 所示。该网络包含两个权重共享的 Skip_FCNs。每个 Skip_FCN 包含五个 Conv-Relu 层，保持较小的感受野[5]，并在中间层有跳跃连接以保留更好的浅层信息[6]。在训练过程中，正如 Chopra 等人在[4]中所做的，提出了一个包含三部分的损失函数（

L_{1}, L_{2}

和

L_{m}

）。

L_{1}

和

L_{2}

部分是预测与标签之间的两个监督损失，是语义分割的常规损失。

\begin{aligned} L_{1} = L_{C E} (θ (x_{1}), y_{1}) \\ L_{2} = L_{C E} (θ (x_{2}), y_{2}) \end{aligned}

其中

L_{C E}

表示交叉熵损失，

θ (\cdot)

代表网络中使用的操作组合（卷积、激活、批归一化），

x_{i}, y_{i}

代表第

i

分支的输入及其对应标签，

L_{m}

部分是对比损失。

L_{m} = L_{M S E} (\tanh (φ (x_{1}, x_{2})), XOR (y_{1}, y_{2}))

其中

L_{MSE}

表示均方误差，

φ (\cdot, \cdot)

是两个输入之间的欧几里得距离，具体如下所示，

K

表示预测的通道数，

i

代表第

i

个预测通道。Tanh 激活函数将输出映射到

(0, 1)

而非

(- 1, -

1），因为欧几里得距离始终为正。

φ (x_{1}, x_{2}) = \sqrt{\sum_{i = 1}^{K} {(θ {(x_{1})}_{i} - θ {(x_{2})}_{i})}^{2}}

XOR 操作生成二值原始变化图，其中 1 表示变化，0 表示未变化。该损失函数不仅使网络关注分割，还关注变化检测。
此外，在训练过程中，我们随机选择两幅图像作为网络输入。这两幅图像可能来自同一年（2013 或 2017），也可能来自不同年份，标签亦是如此，这使得网络对输入顺序不敏感。

图 3. Siamese Skip_FCNs 网络。

2.1.3. 基于多模型融合的标签迭代

一旦从前一阶段生成了高分辨率伪标签，它们仍然包含阻碍其作为强监督信号直接使用的错误。为了减少标注错误并估计更准确的分类，如图 4 所示，在不同时间点分别训练多个模型，并将它们的输出融合为新的标签以进行进一步的再训练。具体来说，使用 NAIP 和 NAIPHRL 分别训练 2013 年和 2017 年的 HRNet、Deeplabv3+和 Skip_FCN 分支。然后采用算术平均分配整合它们的输出，并通过交集操作保持双时相预测中共同的高置信度部分。随后，交集输出称为“Intersect-HRL”，将成为下一次迭代中的新再训练标签。
该过程重复进行，直到语义结果稳定且高精度。

图4. 多模型融合与标签迭代。

2.2. 交叉检测结构

在变化图生成阶段，融合模型的独立分支结构导致变化图中出现大量误检。为了减少冗余错误并实现分支间更多的交互，采用如图5所示的交叉检测结构，利用融合模型中2013年的分支预测2017年的土地覆盖图，并在2017年的分支中重复该过程。然后，将两个单独变化图的交集作为对原始变化图的约束。

图5. 交叉检测结构。

2.3. 后处理

在交叉检测的最终输出之后，实施了去阴影、NDVI 限制和形态学处理作为后处理步骤。为了去除被阴影覆盖的不确定区域，使用了色调-饱和度-强度（HSI）颜色模型的强度通道和图像的近红外（NIR）通道来检测并去除阴影中的误报[7]。为了更好地区分“低植被”和“不透水”类别，执行了归一化植被指数（NDVI）来限制变化图。最后，使用包括腐蚀、膨胀和小目标去除在内的形态学处理来消除剩余的轻微错误。

3. 实验

在实验中，比较了使用不同标签训练的多个基准算法，并在竞赛第一阶段中展示了它们的 mIoU 得分，见表 1。

表 1. 实验设置和 mIoU 评分情况

算法	标签	额外	平均交并比 (mIoU)
NLCD 差异	-	-	0.1389
UNet	NLCD	-	0.3610
Siam-Skip_FCNs	NLCD	-	0.4827
Siam-Skip_FCNs	Landsat-LRL	-	0.5380
跳跃_FCN	交集-HRL $^{1}$	-	0.5994
UNet	交集-HRL $^{1}$	-	0.6503
HRNet	交集-HRL $^{1}$	-	0.6501
DeepLab v3+	交集-HRL $^{1}$	-	0.6541
融合 ( $H + D + U$ )	交集-HRL $^{2}$	-	0.6534
融合 ( $H + D + S$ )	交集-HRL $^{2}$	-	0.6689
融合 ( $H + D + S$ )	交集-HRL $^{3}$	-	0.6794
融合 ( $H + D + S$ )	交集-HRL $^{3}$	CD	$\underset{―}{0.6906}$
融合 ( $H + D + S$ )	交集-HRL $^{3}$	$C D + P P$	0.7025

注意：	$\begin{array}{l} H: HRNet, D: Deeplab v3+, U: UNet, S: Skip_FCN. \\ CD: Cross-detection, PP: Post-processing. \\ Intersect-HRL_{i}^{i} : i -th label iteration. \end{array}$
从表1和图6所示的视觉比较中可以观察到

图 6 中可以观察到，Siamese Skip_FCN 在低分辨率标签下的表现优于 UNet。这表明 Siamese Skip_FCN 是低分辨率标签与高分辨率预测之间的稳健连接。同时，经过持续的标签迭代和多模型融合，未经交叉检测和任何后处理的原始结果达到了 0.6794。值得注意的是，基于 HRNet 和 Deeplab v3+，并包含 Skip_FCN 的融合模型，称为“Fusion

(H + D + S)

”，得分高于包含 UNet 的“Fusion (

H + D + U

)”，这证实了 Skip_FCN 为融合提供了丰富且重要的浅层信息。此外，交叉检测通过去除变化图中的冗余误检，实现了显著提升。根据表 2 和图 7 中我们表现最佳方法的得分细节和视觉结果，“树冠增益”几乎难以达到高分，大多数误判来自树冠与低矮植被之间的模糊，这可能是由于原始 NLCD 中众多树木子类和不匹配的边界所致。

表2. 性能最佳方法的详细信息

变化类别	颜色	平均交并比 (mIoU)
水体流失		0.9017
树冠流失		0.7066
植被流失		0.7067
不透水面流失		0.8005
水体增加		0.6805
树冠增加		0.4161
植被增加		0.6805
不透水面增加		0.8005
全部		0.7025

图 6. 变化图比较。(a) 上/下排：NAIP 2013/2017，(b-f) 上/下排：土地覆盖损失/增加。

  瓦片-3258
  瓦片-3738
  瓦片-3152
图 7. 表现最佳方法的视觉结果。上排/第二排：NAIP 2013/2017。第三排/底排：土地覆盖损失/增加。

4. 结论

本文提出了一种基于标签改进和多模型融合的变化交叉检测方法，作为无高质量标签的多时相语义变化检测的解决方案。首先，Siamese Skip_FCN 保留浅层信息并提供初步的高分辨率标签。然后，通过融合多模型迭代精炼标签，实现土地覆盖分类的更高精度。最后，设计了交叉检测结构，通过分支对的交互去除错误预测，实现变化检测。实验结果和 DFC21-MSD 排行榜验证了该方法的有效性。

5. 致谢

作者感谢 IEEE GRSS 图像分析与数据融合技术委员会及微软组织数据融合竞赛。本工作得到中国国家自然科学基金（项目号 42071322）的资助，部分资助来自湖北省自然科学基金（项目号 2020CFA053）和青海省自然科学基金（项目号 2020-ZJ-927）。

6. 参考文献

[1] 2021 IEEE GRSS 数据融合竞赛。在线访问：www.grss-ieee.org/community/technical-committees/data-fusion。
[2] Nikolya Malkin, Caleb Robinson, 和 Nebojsa Jojic，“基于低分辨率标签的高分辨率土地覆盖变化：2021 年 IEEE GRSS 数据融合竞赛的简单基线，”arXiv:2101.01154，2021 年。
[3] Naoto Yokoya, Pedram Ghamisi, Ronny Hansch 等，“2021 年数据融合竞赛：用于社会公益的地理空间人工智能[技术委员会]，”发表于 IEEE 地球科学与遥感杂志，第 9 卷，第 1 期，第 287-C3 页，2021 年。
[4] Sumit Chopra, Raia Hadsell, 和 Yann LeCun，“判别式学习相似度度量及其在人脸验证中的应用，”发表于 IEEE 计算机视觉与模式识别会议论文集，2005 年，第 539-546 页。
[5] Evan Shelhamer, Jonathan Long, 和 Trevor Darrell，“用于语义分割的全卷积网络，”发表于 IEEE 计算机视觉与模式识别会议论文集，2015 年，第 3431-3440 页。
[6] 何凯明，张翔宇，任少卿，孙剑，“用于图像识别的深度残差学习”，载于 IEEE 计算机视觉与模式识别会议论文集，2016 年，第 770-778 页。
[7] V. J. D. Tsai，“基于不变色彩模型的彩色航空影像阴影补偿比较研究”，《IEEE 地球科学与遥感汇刊》，第 44 卷，第 6 期，第 1661-1671 页，2006 年。