这是用户在 2025-5-6 17:33 为 https://app.immersivetranslate.com/pdf-pro/1be79c25-e939-491c-8788-217f8974bffe/ 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
  文章

通过改进 Dempster-Shafer 理论生成集成土地覆盖数据的方法,用于地表模型

黄安琪(©)沈润平*(D),李叶青,韩惠敏,狄文丽和丹尼尔·菲菲·塔维亚·哈根(D)南京信息工程大学地理科学学院,南京 210044,中国;aq.huang@nuist.edu.cn(A.H.);20201211008@nuist.edu.cn(Y.L.);20191211001@nuist.edu.cn(H.H.);20191211002@nuist.edu.cn(W.D.);dans7messiah@nuist.edu.cn(D.F.T.H.)* 通讯:rpshen@nuist.edu.cn;电话:+86-25-5869-9869

引用:黄 A;沈 R;李 Y;韩 H;迪 W;哈根 D.F.T. 基于改进 Dempster-Shafer 理论生成集成地表覆盖数据的方法。遥感学报,2022,14,972。 https://doi.org/10.3390/ rs14040972
学术编辑:宋永泽
收到:2022年1月14日
接受日期:2022年2月13日
发布日期:2022年2月16日
出版者声明:对于已发表地图的司法管辖权主张和机构隶属关系,MDPI 保持中立。
版权:© 2022 作者版权。许可方 MDPI,瑞士巴塞尔。本文是开放获取文章,根据 Creative Commons 署名(CC BY)许可协议(https://creativecommons.org/licenses/by/4.0/)的条款和条件进行分发。

  摘要

土地覆盖类型是许多陆地表面模型(LSMs)模拟地表过程的关键参数。目前,广泛使用的全球遥感土地覆盖产品无法满足 LSMs 对分类系统、物理定义、数据精度和时空分辨率的要求。在此,提出了一种新的融合方法,通过融合多源遥感土地覆盖数据生成 LSMs 的土地覆盖数据,该方法基于改进 Dempster-Shafer 证据理论、数学模型和知识规则优化。新方法具有处理严重不一致信息的能力,从而提高了理论的鲁棒性。结果表明,新方法可以减少输入数据之间的不一致性,并实现了多个土地覆盖分类系统到单一土地覆盖分类系统的转换。2015 年由中国融合土地覆盖数据(CFLC)生成的新方法保持了基于视觉图像解释的中国土地利用图(CNLULC)的分类精度,并进一步丰富了输入数据的土地覆盖类别。 与 2015 年的 Geo-Wiki 观测相比,CFLC 的整体精度高于其他两种全球土地覆盖数据。与观测相比,CFLC 在 Noah-MP LSM 中模拟的 2014 年生长季节的土壤湿度性能优于初始土地覆盖数据和 MODIS 土地覆盖数据。我们的新方法高度便携且具有通用性,通过融合多种土地覆盖数据,为 LSMs 生成具有特定土地覆盖分类系统的更高质量土地覆盖数据,为 LSMs 的土地覆盖制图提供了一种新的方法。

关键词:土地覆盖;遥感;Dempster-Shafer 理论;数据融合;地表模型;土壤湿度

  引言

土地覆盖类型是许多陆地表面模型(LSMs)的关键参数,如简单生物圈模型(SiB)[1]、通用陆地模型(CLM)[2]和具有多参数化选项的社区 Noah 陆地表面模型(Noah-MP)[3],该模型广泛用于模拟陆地与大气之间的水分和能量过程以及物质交换。底层表面的一些关键参数,如地表粗糙度和反照率,可以根据土地覆盖类型直接从 LSMs 中的参数表中确定[4,5]。因此,高质量的陆地覆盖数据可以为 LSMs 提供准确的底层表面信息,以改善模型模拟,这是理解和准确模拟地表过程的重要基础数据之一[6]。
目前,遥感技术已成为获取全球和区域尺度土地覆盖信息的重要手段。多个全球或区域土地覆盖数据可供下载,例如由马里兰大学(UMD)建立的 UMD 土地覆盖数据[7]、由美国国家航空航天局(NASA)建立的 MODIS 土地覆盖数据(MODIS LC)以及由欧洲航天局(ESA)建立的 GlobCover[9]。这些遥感土地覆盖产品的一个主要问题是它们之间缺乏互操作性,因为它们是由不同目标的不同倡议驱动的。考虑到这些土地覆盖产品通常并非专门设计和生产用于 LSMs,单个土地覆盖数据集很难满足 LSMs 在分类系统、土地特征类别定义和时空分辨率方面的使用要求,严重限制了 LSMs 在气候变化、灾害监测和生态系统管理中的应用和发展[10-12]。
(NASA) [8],以及由欧洲航天局(ESA)建立的 GlobCover[9]。这些遥感土地覆盖产品的一个主要问题是它们之间缺乏互操作性,因为它们是由不同目标的不同倡议驱动的。考虑到这些土地覆盖产品通常并非专门设计和生产用于 LSMs,单个土地覆盖数据集很难满足 LSMs 在分类系统、土地特征类别定义和时空分辨率方面的使用要求,严重限制了 LSMs 在气候变化、灾害监测和生态系统管理中的应用和发展[10-12]。
一种解决方案是将各种土地覆盖数据来源整合到一个单一框架中,使用多源数据融合方法来构建陆地表面模型[13]。多源数据融合方法指的是通过某种数学算法,将来自不同来源和不同时间点的数据进行自动或半自动转换,使其具有相同的形式[14]。融合方法通过补充另一个数据源,在时空分辨率、空间一致性和数据精度方面弥补单一数据的不足。多源遥感数据融合可以分为三个不同的类别,包括像素级、特征级和决策级[15]。像素级融合和特征级融合在多遥感光谱数据的融合中广泛应用,但难以应用于遥感土地覆盖数据的融合[16]。由于遥感土地覆盖数据的每个像素都有特定的物理意义,这些数据的融合通常采用决策级融合,即结合来自多个算法的遥感土地覆盖数据,以产生最终的融合决策。 目前,已经开发了各种决策级融合方法,主要包括数据一致性方法、模糊集合理论和地理统计方法[17-19]。数据一致性方法分析多源遥感数据的一致性,并建立融合规则以实现多源遥感数据的融合。然而,数据一致性方法需要对输入数据进行评分以确定不同输入数据在融合过程中的优先级。由于评估指标多样性和复杂性,评分灾难容易发生[20]。模糊集合方法使普通集合中的归属更加灵活,将普通特征集 ( 0 , 1 ) ( 0 , 1 ) (0,1)(0,1) 扩展到闭区间 ( 0 , 1 ) ( 0 , 1 ) (0,1)(0,1) ,并使用特征函数计算模糊归属度,这可以在融合过程中最大限度地保留不同遥感产品的局部可信度。然而,基于模糊集合理论的方法很少考虑融合过程中像素权重和产品权重的设置,导致融合结果缺乏可信度[21]。 地理统计方法,如地理加权回归(GWR)和空间逻辑回归(SLR),建立了测量样本点与各种遥感数据之间的统计关系,以预测无样本点区域的数值,从而获得融合结果。然而,基于地理统计的方法受单一统计模型可扩展性不足的限制,这使得其难以应用于不同地区[22]。此外,对多个地区的统计分析往往会增加研究成本和难度。总的来说,经典的决策级融合方法难以直接应用于土地覆盖数据与土地表面模型(LSM)的集成。
许多研究致力于将经典决策级融合方法应用于生成综合土地覆盖数据,这表明多源土地覆盖数据的融合可以提高数据精度[13,16,23]。然而,这些经典决策级融合方法,如数据一致性方法和模糊集方法,主观性很强,在处理多个冲突数据的融合时具有更大的不确定性。近年来,高级人工智能方法已被引入到多源土地覆盖数据的融合中[24,25]。人工智能方法,如随机森林和深度学习,能够在融合过程中处理非线性问题[26]。考虑到每个像素的土地覆盖类型具有复杂的物理定义,当前的人工智能方法在处理这些物理定义时缺乏强大的可解释性,无法确保土地覆盖融合的准确性[27]。因此,将人工智能方法与人类知识相结合
规则可以显著提高传统土地覆盖融合方法在处理非线性问题上的弱能力以及强主观性;然而,相关研究仍然有限。
在本研究中,我们旨在开发一种新的融合方法,为土地覆盖数据生成 LSMs。我们的新方法通过改进属于人工智能范畴的数学模型和知识规则优化中的 Dempster-Shafer(D-S)证据理论,减少了输入数据之间的不一致性,并实现了多个土地覆盖分类系统向 LSM 分类系统的转换。此外,我们还评估了我们新方法的可信度,包括基于场地的验证、多个产品之间的交叉比较以及新的集成土地覆盖数据对中国 Noah-MP LSM 土壤水分模拟的影响。

  2. 材料与方法

  2.1. 土地覆盖数据

考虑所有融合数据的时序一致性以及进一步 LSM 模拟的时间要求,本研究中使用了 2015 年的中国土地利用数据(CNLULC)、MODIS 土地覆盖和全球土地覆盖精细分辨率观测与监测(FROM-GLC)作为输入数据,同时收集中国植被图作为融合的辅助数据。目前,中国气象局国家气象信息中心正在开发新一代高分辨率陆地数据同化系统(HRCLDAS-V1.0),其空间分辨率将达到 0.01 ( 1 km ) 0.01 ( 1 km ) 0.01^(@)(1km)0.01^{\circ}(1 \mathrm{~km}) [28]。为了未来能够与 HRCLDAS-V1.0 系统接口,我们使用了 0.01 0.01 0.01^(@)0.01^{\circ} 作为融合的空间分辨率。MODIS LC、FROM-GLC 和 CNLULC 的空间分辨率分别为 500 m , 30 m 500 m , 30 m 500m,30m500 \mathrm{~m}, 30 \mathrm{~m} 、1 km,MODIS LC 和 FROM-GLC 通过像素多数采样法将空间分辨率上采样到 0.01 0.01 0.01^(@)0.01^{\circ} ,即我们取 0.01 0.01 0.01^(@)0.01^{\circ} 网格中像素类型比例最大的像素类型作为重采样后的像素类型。

2.1.1. CNLULC

CNLULC 数据基于全国专家对 Landsat 图像的视觉图像解释[29]。数据每五年更新一次,国家尺度的数据目前已更新至 2018 年。它们是目前中国最准确的遥感土地覆盖数据,分类精度超过#0%。然而,它们的分类系统缺乏植被类型和季节特征的描述,难以应用于地表模拟[30]。在本研究中,使用了 2015 年的 1 公里空间分辨率的 CNLULC 作为输入数据,这些数据来自中国科学院资源环境科学数据中心。

  2.1.2. MODIS 土地覆盖分类

MODIS 陆地覆盖产品是美国宇航局发射的 Terra 和 Aqua 环境遥感卫星的产物。它通过对 MODIS 反射数据的监督分类,然后利用先验知识和辅助信息进一步细化特定类别[8]来获得。数据每年更新一次,最新版本 6.0 已更新至 2021 年。本研究中使用的 2015 年 MODIS 陆地覆盖数据采用国际地圈生物圈计划(IGBP)定义的 17 类分类系统,空间分辨率为 500 米(MCD12Q1 类型 1)。IGBP 分类系统与美国地质调查局(USGS)采用的 Noah-MP 陆地覆盖分类系统不同,不能直接应用于 Noah-MP。

2.1.3. FROM-GLC

FROM-GLC 是全球首次使用 Landsat Thematic Mapper™和 Enhanced Thematic Mapper Plus(ETM+)数据生产的 30 米分辨率全球陆地覆盖图[31]。数据采用清华大学分类系统,包括 10 个主要类别和 29 个子类别。2010 年、2015 年和 2017 年的全球陆地覆盖数据已经
本研究使用了 2015 年发布的 FROM-GLC 数据。FROM-GLC 的分类系统与美国地质调查局(USGS)采用的 Noah-MP 土地覆盖分类系统不同,不能直接应用于 Noah-MP。

2.1.4. 中国植被图

中国植被图是半个世纪以来全国植被调查的最新积累,利用了现代技术如航空遥感、卫星影像等获取的材料,以及地质学、土壤学、气候学的最新研究成果。它已被用作多源遥感土地覆盖数据融合的辅助数据[30]。本研究使用的是1公里分辨率的植被图,来源于中国科学院资源环境科学数据中心。

2.2. 大气强迫数据

高质量的大气强迫数据可以更好地驱动陆地表面模型并提高模拟质量。本研究中使用的高分辨率大气强迫数据集来自中国国家气象信息中心(CMA)开发的 2.0 版本中国陆地数据同化系统(CLDAS V2.0)。CLDAS V2.0 的空间覆盖范围是东亚,东经 60 E 60 E 60^(@)E60^{\circ} \mathrm{E} 160 E 160 E 160^(@)E160^{\circ} \mathrm{E} ,北纬 0 N 0 N 0^(@)N0^{\circ} \mathrm{N} 65 N 65 N 65^(@)N65^{\circ} \mathrm{N} ,空间分辨率为 0.0625 0.0625 0.0625^(@)0.0625^{\circ} ,时间分辨率为 2008 年至 2014 年每小时一次。CLDAS V2.0 大气强迫数据的主要输入数据包括 2400 多个国家级自动站和近 40000 个区域自动气象站经过质量控制后的观测数据,ECMWF 和 GFS 数值分析预报产品以及风云二号(FY-2)卫星数据。通过融合地面测量、卫星观测和数值模型产品等多源数据,CLDAS 提供了高质量的网格化每小时地面气压、2 米近地面气温、2 米相对湿度、10 米风速、降水和短波辐射。 由于目前公开的 CLDAS2.0 数据更新至 2014 年,我们假设 2014 年至 2015 年间的土地覆盖变化很小,因此我们将 2015 年的融合土地覆盖数据输入到 Noah-MP LSM 中,以模拟 2014 年的土壤水分。

  2.3. 验证数据

2.3.1. 土地覆盖验证数据

土地覆盖验证数据来自一个名为 GeoWiki 的众包工具。Geo-Wiki 是一个基于谷歌地球的全球尺度土地覆盖现场数据库,已被广泛用于土地覆盖数据训练、校准和验证[34]。为确保样本数据的可靠性,我们将 Geo-Wiki 样本数据与 2015 年的谷歌地球图像进行了比较,并根据不同土地覆盖类型面积的比例,通过分层随机抽样最终选择了 1300 个样本点(图 1a)。

2.3.2. 土壤湿度验证数据

2014 年土壤湿度验证数据来自中国气象信息中心。当土壤温度低于 0 C 0 C 0^(@)C0^{\circ} \mathrm{C} 时,土壤中的水以固态和液态共存,这阻碍了仪器进行可靠的观测。因此,在寒冷地区的冬季,土壤湿度现场测量通常被标记为缺失值。为了确保全国范围内土壤湿度验证数据的准确性,我们选择了 2014 年 4 月至 10 月期间连续观测的 969 个土壤湿度站,这些站点的土壤温度均高于 0 C 0 C 0^(@)C0^{\circ} \mathrm{C} (图 1b)。
图 1. 验证数据的空间分布。(a)土地覆盖验证数据的空间分布。 N N NN 表示样本数量。(b)土壤湿度验证站点的空间分布。

2.4. 融合方法构建

我们提出了一种新的融合方法,用于生成 LSMs 的综合土地覆盖数据。我们通过数学模型改进了 D-S 证据理论,以处理证据冲突问题,确保 D-S 融合方法的稳定性。为了量化不同土地覆盖分类系统之间的差异,我们在 D-S 融合过程中进一步提出了一种新的知识规则方法。我们的融合方法主要包含四个步骤(图 2):(1)构建识别框架,(2)基于知识规则构建基本概率分配,(3)基于改进的 D-S 证据理论进行融合,(4)建立决策规则。
图2. 融合流程图。

2.4.1. 改进 D-S 证据理论

D-S 证据理论属于人工智能范畴,具有对输入数据集不确定性建模的能力[35]。证据理论的基本概念是识别框架,表示为 Θ Θ Theta\Theta 。框架 Θ Θ Theta\Theta 是一组相互排斥的元素。框架 Θ Θ Theta\Theta 中的基本概率赋值(BPA)函数 m ( A ) ( 0 , 1 ) m ( A ) ( 0 , 1 ) m(A)rarr(0,1)m(A) \rightarrow(0,1) 表示证据对目标 A A AA 的可靠性,其中框架中所有元素的基本概率值之和等于 1。D-S 证据理论反映了证据的合成效应,与合成顺序无关[36]。D-S 理论通过数学表达式中的正交和来实现。融合规则如下:
m 1 m 2 ( A ) = { 0 A = ϕ A i A j = = m 1 ( A i ) m 2 ( A j ) 1 K A ϕ K = A i A j = ϕ m 1 ( A i ) m 2 ( A j ) m 1 m 2 ( A ) = 0 A = ϕ A i A j = = m 1 A i m 2 A j 1 K A ϕ K = A i A j = ϕ m 1 A i m 2 A j {:[m_(1)o+m_(2)(A)={[0A=phi],[(sum_(A_(i)nnA_(j)=)=m_(1)(A_(i))*m_(2)(A_(j)))/(1-K)A!=phi]:}],[K=sum_(A_(i)nnA_(j)=phi)m_(1)(A_(i))*m_(2)(A_(j))]:}\begin{gathered} m_{1} \oplus m_{2}(A)=\left\{\begin{array}{c} 0 A=\phi \\ \frac{\sum_{A_{i} \cap A_{j}=}=m_{1}\left(A_{i}\right) \cdot m_{2}\left(A_{j}\right)}{1-K} A \neq \phi \end{array}\right. \\ K=\sum_{A_{i} \cap A_{j}=\phi} m_{1}\left(A_{i}\right) \cdot m_{2}\left(A_{j}\right) \end{gathered}
其中, m 1 m 1 m_(1)m_{1} m 2 m 2 m_(2)m_{2} 分别是框架 Θ Θ Theta\Theta 下对应两个证据源 S 1 S 1 S1S 1 S 2 S 2 S2S 2 的 BPA 函数,它们的目标元素分别是 A i A i A_(i)A_{i} A j A j A_(j)A_{j} ϕ ϕ phi\phi 是空集。冲突系数 K K KK S 1 S 1 S1S 1 S 2 S 2 S2S 2 之间冲突的程度。 K K KK 越高,表示证据之间的冲突越多。 K 0 K 0 K rarr0K \rightarrow 0 表示融合结果不合理, K = 1 K = 1 K=1K=1 表示合成规则无效。
通常,D-S 证据理论融合失败或与事实相反是由证据冲突[37]引起的,主要分为以下三种情况。(1)完全冲突:冲突系数 K K KK 等于 1,D-S 融合规则无效。(2)0 悖论:在众多证据中,如果某个证据对目标 A A AA 的 BPA 值为 0,则无论其他证据对 A A AA 的 BPA 值有多高,融合结果仍然是 0,这与事实相悖。(3)1 悖论:当所有证据对目标 A A AA 的 BPA 值都较低,但融合结果是 A A AA ,这与事实相悖。D-S 证据理论的缺点主要通过纠正证据或修改
融合规则。在这里,我们通过使用数学模型修改数据源来改进算法。假设有一个辨识框架 Θ = { A 1 , A 2 , A 3 , , A t } Θ = A 1 , A 2 , A 3 , , A t Theta={A_(1),A_(2),A_(3),cdots,A_(t)}\Theta=\left\{A_{1}, A_{2}, A_{3}, \cdots, A_{t}\right\} ,BPA 函数表示为 { m 1 , m 2 , , m n } m 1 , m 2 , , m n {m_(1),m_(2),cdots,m_(n)}\left\{m_{1}, m_{2}, \cdots, m_{n}\right\} ,对应证据源 { S 1 , S 2 , , S n } S 1 , S 2 , , S n {S_(1),S_(2),cdots,S_(n)}\left\{S_{1}, S_{2}, \cdots, S_{n}\right\} 。BPA 值的总和为 1,该框架中 BPA 值的平均值为 1 / t 1 / t 1//t1 / t 。当证据源在框架中对所有目标的 BPA 值为 1 / t 1 / t 1//t1 / t 时,证据源无法明确识别目标。因此, 1 / t 1 / t 1//t1 / t 可以用作判断目标是否可信的标准。如果目标的 BPA 值低于此标准,则目标识别结果不可信。根据上述原则,我们进行了以下修正:
(1) 根据公式(3)修正 BPA 函数:
m i ( A j ) = { e 2 m i ( A j ) 2 t m i ( A j ) < 1 t e 2 m i ( A j ) + 2 t m i ( A j ) 1 t m i A j = e 2 m i A j 2 t m i A j < 1 t e 2 m i A j + 2 t m i A j 1 t m_(i)(A_(j))={[e^(2m_(i)(A_(j))-(2)/(t))m_(i)(A_(j)) < (1)/(t)],[e^(2m_(i)(A_(j))+(2)/(t))m_(i)(A_(j)) >= (1)/(t)]:}m_{i}\left(A_{j}\right)=\left\{\begin{array}{l} e^{2 m_{i}\left(A_{j}\right)-\frac{2}{t}} m_{i}\left(A_{j}\right)<\frac{1}{t} \\ e^{2 m_{i}\left(A_{j}\right)+\frac{2}{t}} m_{i}\left(A_{j}\right) \geq \frac{1}{t} \end{array}\right.
其中 m i ( A j ) m i ( A j ) mi(Aj)m i(A j) 代表证据源 i i ii 对目标 j . ( 2 ) j . ( 2 ) j.(2)j .(2) 的 BPA 函数。使用公式(4)对修改后的 BPA 值进行归一化:
m i ( A j ) = m i ( A j ) j = 1 m m i ( A j ) m i ( A j ) = m i ( A j ) j = 1 m m i ( A j ) mi(Aj)=(mi(Aj))/(sum_(j=1)^(m)mi(Aj))m i(A j)=\frac{m i(A j)}{\sum_{j=1}^{m} m i(A j)}
(3) 根据公式(1)和(2)融合归一化的 BPA 值。

2.4.2. 识别框架的构建

识别框架是 D-S 证据理论中最基本的概念,涉及理论中所有概念和函数的描述。在多源土地覆盖数据融合的过程中,识别框架是融合结果的土地覆盖分类系统。Noah-MP LSM 采用 USGS 24 类分类系统[3]。考虑到中国植被的分布特征和研究所采用的空间分辨率,研究删除了原始分类系统中的稀树草原和苔原类别(原始代码 10 和 20-23)。这些类别在中国分布稀疏,难以在千米尺度上形成大面积分布。在输入数据中,只有 MODIS 数据具有作物/自然植被镶嵌的土地覆盖类型,而其他数据在像素尺度上是纯土地类型。为了保证融合结果的可信度,研究删除了原始分类系统中的不同植被镶嵌(原始代码 4-6 和 9)。最终构建了一个包含 15 种土地覆盖类型的识别框架(表 1)。
研究区域采用的识别框架。
  融合代码   美国地质调查局代码   土地覆盖类型
1 1   城市和建成区土地
2 2 干旱地区耕地和牧场
3 3 灌溉耕地和牧场
- 4 混合干旱/灌溉耕地和牧场
- 5 耕地/草地镶嵌
- 6   耕地/林地镶嵌
4 7   草原
5 8   灌木林
- 9 灌木林/草地混合
- 10   稀树草原
6 11 落叶阔叶林
7 12 落叶针叶林
8 13 常绿阔叶林
9 14 常绿针叶林
10 15   混交林
Fusion Code USGS Code Land Cover Type 1 1 Urban and built-up land 2 2 Dryland cropland and pasture 3 3 Irrigated cropland and pasture - 4 Mixed Dryland/Irrigated Cropland and Pasture - 5 Cropland/Grassland Mosaic - 6 Cropland/Woodland Mosaic 4 7 Grassland 5 8 Shrubland - 9 Mixed Shrubland/Grassland - 10 Savanna 6 11 Deciduous broadleaf forest 7 12 Deciduous needleleaf forest 8 13 Evergreen broadleaf forest 9 14 Evergreen needleleaf forest 10 15 Mixed forest| Fusion Code | USGS Code | Land Cover Type | | :--- | :--- | :--- | | 1 | 1 | Urban and built-up land | | 2 | 2 | Dryland cropland and pasture | | 3 | 3 | Irrigated cropland and pasture | | - | 4 | Mixed Dryland/Irrigated Cropland and Pasture | | - | 5 | Cropland/Grassland Mosaic | | - | 6 | Cropland/Woodland Mosaic | | 4 | 7 | Grassland | | 5 | 8 | Shrubland | | - | 9 | Mixed Shrubland/Grassland | | - | 10 | Savanna | | 6 | 11 | Deciduous broadleaf forest | | 7 | 12 | Deciduous needleleaf forest | | 8 | 13 | Evergreen broadleaf forest | | 9 | 14 | Evergreen needleleaf forest | | 10 | 15 | Mixed forest |
  表 1. 续
  融合代码   美国地质调查局代码   土地覆盖类型
11 16   水体
12 17   草本湿地
13 18   木质湿地
14 19 荒芜或稀疏植被
- 20   草本苔原
- 21   针叶林苔原
- 22   混合苔原
- 23   裸露地表苔原
15 24   雪或冰
Fusion Code USGS Code Land Cover Type 11 16 Water bodies 12 17 Herbaceous wetland 13 18 Wooden wetland 14 19 Barren or sparsely vegetable - 20 Herbaceous Tundra - 21 Wooded Tundra - 22 Mixed Tundra - 23 Bare Ground Tundra 15 24 Snow or ice| Fusion Code | USGS Code | Land Cover Type | | :--- | :--- | :--- | | 11 | 16 | Water bodies | | 12 | 17 | Herbaceous wetland | | 13 | 18 | Wooden wetland | | 14 | 19 | Barren or sparsely vegetable | | - | 20 | Herbaceous Tundra | | - | 21 | Wooded Tundra | | - | 22 | Mixed Tundra | | - | 23 | Bare Ground Tundra | | 15 | 24 | Snow or ice |

2.4.3. 基于知识规则优化的 BPA 构建

D-S 证据理论使用 BPA 函数确定每个初始类别对每个目标类别的支持水平。由于不同的算法和数据源,不同的土地覆盖数据在不同土地覆盖类型中的准确性不同。例如,FROM-GLC 使用 TM/ETM+图像作为数据源,而 MODIS LC 使用 MODIS 图像作为数据源。CNLULC 通过视觉解释方法获取,FROM-GLC 通过多种机器学习算法获取。因此,算法和数据源的不同最终导致土地覆盖产品准确性的差异。此外,不同的土地覆盖数据分类系统在类别定义上也有差异。我们考虑了上述因素,构建了以下基本概率分布函数:
m i ( A j ) = P i R i ( A j ) C i j = 1 M P i R i ( A j ) C i m i ( A j ) = P i R i ( A j ) C i j = 1 M P i R i ( A j ) C i mi(Aj)=(Pi*Ri(Aj)*Ci)/(sum_(j=1)^(M)Pi*Ri(Aj)*Ci)m i(A j)=\frac{P i \cdot R i(A j) \cdot C i}{\sum_{j=1}^{M} P i \cdot R i(A j) \cdot C i}
我们假设有 N N NN 组土地覆盖数据需要合并成一个包含 M M MM 种土地覆盖类型的土地覆盖数据集。 m i ( A j ) m i ( A j ) mi(Aj)m i(A j) 是一个包含 M M MM 个元素的数组,它表示第 i i ii 个土地覆盖数据在第 j j jj 个目标土地覆盖类型上的像素尺度下的 BPA 值。 P i P i P_(i)P_{i} 是第 i i ii 个土地覆盖数据在像素上的分类精度。对于不同土地覆盖类型中不同土地覆盖产品的精度,我们可以通过参考这些产品的官方产品手册和相关验证文件[30,31]来获得。 Ri ( A j ) Ri ( A j ) Ri(Aj)\operatorname{Ri}(A j) 是一个包含 M 个元素的数组,它表示第 i i ii 个土地覆盖数据与第 j j jj 个目标类型在像素尺度上的相关性,这可以通过亲和度得分获得。 C i C i C_(i)C_{i} 表示第 i i ii 个土地覆盖数据重采样后像素的最佳土地覆盖类型的比例。
在这里,我们采用了知识规则优化的方法,通过参考不同土地覆盖数据(如环境状况、生物形态、叶型和叶物候)的初始类型与目标类型之间的语义相关性和差异,对初始类型与目标类型的亲和度进行评分。亲和度分为五个等级,其中“不是”得分为 0,“略有相关”得分为 25,“部分相关”得分为 50,“大部分相关”得分为 75,“是”得分为 100。尽管这种基于知识规则的评分具有一定的主观性,但通过模糊处理将评分分为五个等级可以避免评分灾难问题,并满足 D-S 算法融合的需求[21]。表 2 展示了评分规则的示例。
表2. 亲和度评分示例。
  初始类型   语义规则   分数   目标类型
FROM-GLC 混合叶,叶存在   不存在 0   水体
  稍微相关 25   灌木林
  部分相关 50 常绿针叶/阔叶
  主要相关 75 -
   100   混交林
Initial Type Semantic Rule Score Target Type FROM-GLC Mixed leaf, leaf-on Is not 0 Water bodies little related 25 Shrubland partly related 50 Evergreen needle/broadleaf mostly related 75 - Is 100 Mixed forest| Initial Type | Semantic Rule | Score | Target Type | | :--- | :--- | :--- | :--- | | FROM-GLC Mixed leaf, leaf-on | Is not | 0 | Water bodies | | | little related | 25 | Shrubland | | | partly related | 50 | Evergreen needle/broadleaf | | | mostly related | 75 | - | | | Is | 100 | Mixed forest |
  表2. 续
  初始类型   语义规则   分数   目标类型
  MODIS 土地覆盖类型:热带稀树草原   不是 0   水体
  几乎无关 25   各种类型的森林
  部分相关 50 -
  主要相关 75   草原
   100 -
Initial Type Semantic Rule Score Target Type MODIS LC Savannas Is not 0 Water bodies little related 25 Various types of forest partly related 50 - mostly related 75 Grassland Is 100 -| Initial Type | Semantic Rule | Score | Target Type | | :--- | :--- | :--- | :--- | | MODIS LC Savannas | Is not | 0 | Water bodies | | | little related | 25 | Various types of forest | | | partly related | 50 | - | | | mostly related | 75 | Grassland | | | Is | 100 | - |
假设土地覆盖数据中的初始土地覆盖类型为 A A AA ,而目标分类系统中的土地覆盖类型为 B B BB ,则基于知识规则, A A AA B B BB 之间的亲和度得分定义为以下:
(1)如果 A A AA B B BB 在定义上没有关系,例如“水体”和“城市和建成区”,则 A A AA B B BB 之间的亲和度得分为0。
(2) 如果 A A AA B B BB 部分相关,例如“常绿混交林”和“常绿针叶林”,则 A A AA B B BB 之间的亲和度分数为50。
(3) 如果 A A AA B B BB 在定义上完全匹配,例如“常绿混交林”和“针叶混交林”,则 A A AA B B BB 之间的亲和度分数为100。
(4) 如果 A A AA B B BB 只有少量或大部分相关,则 A A AA B B BB 之间的亲和度分数为25或75。

2.4.4. 基于信念程度的决策规则建立

我们通过确定识别框架建立了 BPA 函数,并利用改进的 D-S 证据理论获得了识别框架中所有土地覆盖类型的支持概率。为了确定每个像素的土地覆盖类型,需要决定融合结果。定义了如下总信度函数:
Bel ( A ) = B A m ( B ) Bel ( A ) = B A m ( B ) Bel(A)=sum_(B sube A)m(B)\operatorname{Bel}(A)=\sum_{B \subseteq A} m(B)
其中 Bel ( A ) Bel ( A ) Bel(A)\operatorname{Bel}(A) 是目标 A A AA 在像素上的总信度。在本研究中,使用了最大总信度作为决策规则。比较了所有土地覆盖类型输出的总信度,将总信度最大的类型作为最终的融合结果。最终,我们获得了 2015 年用于 Noah-MP LSM 的 China 融合土地覆盖数据(CFLC)

2.5. 基于 Noah-MP LSM 的土壤湿度模拟

Noah-MP LSM 是目前广泛使用的第三代陆面模型,由德克萨斯大学奥斯汀分校(UT-Austin)杨宗亮研究组开发[3]。它基于 Noah-LSM,包括 12 个生物物理、生物化学和水文过程,如短期动态植被模型、气孔阻力、辐射传输和湍流热交换。每个过程还包括在不同陆面过程中使用的几个参数化方案[38,39]。在这里,我们使用了 2014 年的 Noah-MP V1.6 离线版本和 CLDAS V2.0 大气强迫数据,该数据由中国气象局在气象服务系统中使用。采用的参数化方案是动态植被和修改后的双流辐射传输方案以及其他默认方案。
为了比较不同土地覆盖数据的模拟效果,设计了三组不同土地覆盖数据的模拟实验。第一组实验使用了模型中原本包含的美国地质调查局(USGS)土地覆盖数据,标记为 USGS/SM。第二组实验使用了目前广泛使用的 MODIS LC,标记为 MODIS/SM。第三组实验将研究中生成的 CFLC 数据放入模型中,标记为 CFLC/SM。三组实验输出 10 厘米深度的土壤水分模拟结果,每 6 h ( 00 : 00 , 06 : 00 , 12 : 00 6 h ( 00 : 00 , 06 : 00 , 12 : 00 6h(00:00,06:00,12:006 \mathrm{~h}(00: 00,06: 00,12: 00 (18:00 世界时)。模拟结果的空间分辨率为 0.0625 0.0625 0.0625^(@)0.0625^{\circ} ,与大气强迫数据一致。考虑到北方土壤观测
中国冬季的数据大多为无效值,我们选择了2014年生长季节(4月至10月)的 0 10 cm 0 10 cm 0-10cm0-10 \mathrm{~cm} 土壤水分模拟结果。
我们主要使用了三个评价指标:偏差、均方根误差(RMSE)和相关性系数 ( R ) ( R ) (R)(R) 来评估 Noah-MP 土壤水分模拟的结果。计算公式如下:
Bias = 1 N i = 1 N ( S i G i ) R M S E = i = 1 N ( S i G i ) 2 n R = i = 1 N ( S i S ¯ ) ( G i G ¯ ) i = 1 N ( S i S ¯ ) 2 i = 1 N ( G i G ¯ ) 2  Bias  = 1 N i = 1 N S i G i R M S E = i = 1 N S i G i 2 n R = i = 1 N S i S ¯ G i G ¯ i = 1 N S i S ¯ 2 i = 1 N G i G ¯ 2 {:[" Bias "=(1)/(N)sum_(i=1)^(N)(S_(i)-G_(i))],[RMSE=sqrt((sum_(i=1)^(N)(S_(i)-G_(i))^(2))/(n))],[R=(sum_(i=1)^(N)(S_(i)-( bar(S)))(G_(i)-( bar(G))))/(sqrt(sum_(i=1)^(N)(S_(i)-( bar(S)))^(2))sqrt(sum_(i=1)^(N)(G_(i)-( bar(G)))^(2)))]:}\begin{gathered} \text { Bias }=\frac{1}{N} \sum_{i=1}^{N}\left(S_{i}-G_{i}\right) \\ R M S E=\sqrt{\frac{\sum_{i=1}^{N}\left(S_{i}-G_{i}\right)^{2}}{n}} \\ R=\frac{\sum_{i=1}^{N}\left(S_{i}-\bar{S}\right)\left(G_{i}-\bar{G}\right)}{\sqrt{\sum_{i=1}^{N}\left(S_{i}-\bar{S}\right)^{2}} \sqrt{\sum_{i=1}^{N}\left(G_{i}-\bar{G}\right)^{2}}} \end{gathered}
其中 N N NN 表示样本数量, G i G i G_(i)G_{i} 表示观测数据, S i S i S_(i)S_{i} 表示模拟结果,而 G ¯ G ¯ bar(G)\bar{G} S ¯ S ¯ bar(S)\bar{S} 表示观测和模拟的平均值。

  3. 结果

通过建立基于改进的 D-S 证据理论和知识规则优化的融合方法,我们将 CNLULC、MODIS LC、FROM-GLC 和中国植被图相结合,获得了 2015 年为 NoahMP LSM(图 3)提供的中国融合土地覆盖数据(CFLC)。为了便于对融合结果进行比较分析,根据 Ran[30]提出的方法,将土地覆盖分类系统整合为一个 6 级系统,包括农田(表 1 中的融合代码 2 和 3)、森林(表 1 中的融合代码 5-9)、草地(表 1 中的融合代码 4)、水域(表 1 中的融合代码 11-13)、建设用地(表 1 中的融合代码 1)和裸地(表 1 中的融合代码 14 和 15)。
图 3. 2015 年中国为 Noah-MP LSM 提供的融合土地覆盖数据。

3.1. CFLC 与 CNLULC 的比较

2015 年,在 6 类系统中计算了每种土地覆盖类型的面积差异(图 4)。我们表明,CFLC 在每种类型的总面积上基本上与 CNLULC 一致。差异主要体现在农田和草地面积的下降以及森林和裸地面积的上升。通过查阅 2016 年的《中国土地与资源公报》,我们发现到 2015 年底,中国有农田 1 , 349 , 987 km 2 1 , 349 , 987 km 2 1,349,987km^(2)1,349,987 \mathrm{~km}^{2} 、森林 2 , 529 , 920 km 2 2 , 529 , 920 km 2 2,529,920km^(2)2,529,920 \mathrm{~km}^{2} 和草地 2 , 194 , 206 km 2 2 , 194 , 206 km 2 2,194,206km^(2)2,194,206 \mathrm{~km}^{2} 。CFLC 的农田、森林和草地与统计数据相比更接近,而 CNLULC 的差距更大。裸地面积的增加主要是由于新分类系统中将一些低密度植被纳入裸地。因此,通过分析六个类别的总面积差异,我们发现融合结果是合理的,CNLULC 在某些方面有所改进。
图 4. CFLC 与 CNLULC 之间 6 类总面积的比较。
通过建立 CFLC 和 CNLULC 之间的误差矩阵(生产者精度和遗漏误差)来分析空间差异。如表 3 所示,森林、建设用地和裸地的空间一致性超过 90 % 90 % 90%90 \% ,其次是超过 80 % 80 % 80%80 \% 的耕地。水域和草地的空间一致性超过 70 % 70 % 70%70 \% ,这主要归因于融合后添加的草本湿地土地类型,导致相对较低的空间一致性。融合结果的总体空间一致性为 84.5 % 84.5 % 84.5%84.5 \% ,Kappa 系数为 0.796。由于 CNLULC 产品是基于视觉图像解释生产的,在中国可以实现 95 % 95 % 95%95 \% 的分类精度[29,30]。因此,CFLC 的整体精度可以达到 80.3 % ( 84.5 % × 95 % ) 80.3 % ( 84.5 % × 95 % ) 80.3%(84.5%xx95%)80.3 \%(84.5 \% \times 95 \%) 。CFLC 保持了 CNLULC 的分类精度,并实现了从初始土地覆盖分类系统到 Noah-MP 土地覆盖分类系统的转换,增加了不同森林和湿地的土地覆盖类型等详细信息。
表 3. 在 6 类系统下的 CFLC 和 CNLULC 误差矩阵。
CFLC CNLULC
  耕地   森林   草原   水域   建设用地   裸地
  农田 0.801 0.022 0.015 0.038 0.005 0.003
  森林 0.102 0.904 0.050 0.037 0 0.005
CFLC CNLULC Farmland Forest Grassland Waters Construction Land Bare Land Farmland 0.801 0.022 0.015 0.038 0.005 0.003 Forest 0.102 0.904 0.050 0.037 0 0.005| CFLC | CNLULC | | | | | | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | | Farmland | Forest | Grassland | Waters | Construction Land | Bare Land | | Farmland | 0.801 | 0.022 | 0.015 | 0.038 | 0.005 | 0.003 | | Forest | 0.102 | 0.904 | 0.050 | 0.037 | 0 | 0.005 |
  表3.续表
CFLC CNLULC
  农田   森林   草原   水域   建设用地   裸地
  草原 0.091 0.068 0.790 0.152 0 0.090
  水域 0.003 0.002 0.002 0.750 0 0.002
  建设用地 0 0 0 0 0.994 0
  裸地 0.003 0.004 0.143 0.023 0.001 0.900
CFLC CNLULC Farmland Forest Grassland Waters Construction Land Bare Land Grassland 0.091 0.068 0.790 0.152 0 0.090 Waters 0.003 0.002 0.002 0.750 0 0.002 Construction land 0 0 0 0 0.994 0 Bare land 0.003 0.004 0.143 0.023 0.001 0.900| CFLC | CNLULC | | | | | | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | | Farmland | Forest | Grassland | Waters | Construction Land | Bare Land | | Grassland | 0.091 | 0.068 | 0.790 | 0.152 | 0 | 0.090 | | Waters | 0.003 | 0.002 | 0.002 | 0.750 | 0 | 0.002 | | Construction land | 0 | 0 | 0 | 0 | 0.994 | 0 | | Bare land | 0.003 | 0.004 | 0.143 | 0.023 | 0.001 | 0.900 |
总精度 = 84.5 % = 84.5 % =84.5%=84.5 \% 卡拉 = 0.796 = 0.796 =0.796=0.796 .

3.2. CFLC 与全球遥感土地覆盖数据的比较

3.2.1. 基于 Geo-Wiki 的分类精度比较

我们表明,在所有土地覆盖类别中,除了水域,CFLC 的生产者和用户精度都高于两种全球土地覆盖数据。CFLC 的整体精度相对于 GEO-WIKI 观测值(FROM-GLC 为 58.2%,MODIS 为 52.7%)较高。CFLC 中水域精度较低的主要原因是水域验证样本数量仅为 51 个,占总样本数的 3.94 % 3.94 % 3.94%3.94 \% 。样本数量较少无法客观评估水域分类结果的精度。总体而言,CFLC 的精度显著高于其他两种全球土地覆盖数据。
表 4. 基于 Geo-Wiki 的分类精度比较
  数据   农田   森林   草原   水域   建设用地   裸地
  生产者精度 CFLC 0.844 0.774 0.808 0.510 0.707 0.687
FROM-GLC 0.768 0.634 0.576 0.235 0.131 0.607
MODIS 0.568 0.377 0.476 0.608 0.393 0.483
  用户精度 CFLC 0.818 0.853 0.659 0.266 0.766 0.950
FROM-GLC 0.644 0.685 0.589 0.381 0.350 0.744
MODIS 0.543 0.585 0.478 0.724 0.506 0.662
Data Farmland Forest Grassland Waters Construction Land Bare Land Producer's accuracy CFLC 0.844 0.774 0.808 0.510 0.707 0.687 FROM-GLC 0.768 0.634 0.576 0.235 0.131 0.607 MODIS 0.568 0.377 0.476 0.608 0.393 0.483 User's accuracy CFLC 0.818 0.853 0.659 0.266 0.766 0.950 FROM-GLC 0.644 0.685 0.589 0.381 0.350 0.744 MODIS 0.543 0.585 0.478 0.724 0.506 0.662| | Data | Farmland | Forest | Grassland | Waters | Construction Land | Bare Land | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | Producer's accuracy | CFLC | 0.844 | 0.774 | 0.808 | 0.510 | 0.707 | 0.687 | | | FROM-GLC | 0.768 | 0.634 | 0.576 | 0.235 | 0.131 | 0.607 | | | MODIS | 0.568 | 0.377 | 0.476 | 0.608 | 0.393 | 0.483 | | User's accuracy | CFLC | 0.818 | 0.853 | 0.659 | 0.266 | 0.766 | 0.950 | | | FROM-GLC | 0.644 | 0.685 | 0.589 | 0.381 | 0.350 | 0.744 | | | MODIS | 0.543 | 0.585 | 0.478 | 0.724 | 0.506 | 0.662 |

3.2.2. 基于多种土地覆盖数据的交叉验证

我们计算了 MODIS LC、FROM-GLC、CNLULC 和 CFLC 之间的相对一致性,即每两种土地覆盖数据空间分布的一致性(表 5)。三种输入数据之间的低相对一致性表明,单个土地覆盖产品在模拟 LSMs 时具有很大的不确定性。融合结果与三种输入数据之间的相对一致性高于 0.7,表明融合过程与三种土地覆盖数据的丰富特征信息具有良好的兼容性,有助于减少由单一数据源引起的不确定性。CFLC-CNLULC 具有最高的相对一致性,表明在融合过程中,CNLULC 比其他两种全球土地覆盖数据提供了更多的信息,并在融合过程中具有最大的权重,继承了 CNLULC 的高精度。
表5.不同土地覆盖数据之间的相对一致性。
  数据集对   相对一致性
MODIS-FROMGLC 0.648
MODIS-CNLULC 0.587
MODIS-CFLC 0.710
FROMGLC-CNLULC 0.637
FROMGLC-CFLC 0.756
CFLC-CNLULC 0.845
Pair of Datasets The Relative Consistency MODIS-FROMGLC 0.648 MODIS-CNLULC 0.587 MODIS-CFLC 0.710 FROMGLC-CNLULC 0.637 FROMGLC-CFLC 0.756 CFLC-CNLULC 0.845| Pair of Datasets | The Relative Consistency | | :--- | :--- | | MODIS-FROMGLC | 0.648 | | MODIS-CNLULC | 0.587 | | MODIS-CFLC | 0.710 | | FROMGLC-CNLULC | 0.637 | | FROMGLC-CFLC | 0.756 | | CFLC-CNLULC | 0.845 |

3.2.3. 典型区域比较

为了直观比较 MODIS LC、FROM-GLC 和 CFLC 之间的差异,我们选择了两个典型区域(图 5)进行可视化比较。如图 5 所示,三种数据基本上反映了该区域的总体土地覆盖特征,但在局部细节特征的反映上存在一些差异。在区域 A 中,MODIS LC 将嫩江识别为草地。FROM-GLC 模糊地反映了嫩江的水道,但河岸的大量农田被识别为草地。CFLC 清楚地反映了嫩江及其周边农田的分布。在区域 B 中,三种数据都能显示出金塔绿洲的轮廓。然而,MODIS LC 将绿洲的大部分区域识别为草地,缺乏黑河河道的详细信息。FROM-GLC 能够清楚地反映绿洲内的农田分布,但缺乏城市建设用地的信息。CFLC 反映了金塔绿洲内农田和建设用地的分布,并清楚地显示了黑河的河道信息。 因此,CFLC 更符合两种全球土地覆盖数据的特征,并且因为它保留了 CNLULC 的精度,所以在反映局部土地覆盖的详细特征时,CFLC 更为详细和准确。
图 5.三种土地覆盖图之间的局部差异。区域(A)位于齐齐哈尔嫩江流域,中心坐标为 124.21 E 124.21 E 124.21^(@)E124.21^{\circ} \mathrm{E} 45.99 N 45.99 N 45.99^(@)N45.99^{\circ} \mathrm{N} ,区域(B)位于中国西北部的黑河 basin 的金塔县,中心坐标为 98.87 E , 40.24 N 98.87 E , 40.24 N 98.87^(@)E,40.24^(@)N98.87^{\circ} \mathrm{E}, 40.24^{\circ} \mathrm{N}

3.3.不确定性分析

3.3.1.确定性的空间分布

根据融合过程中的最大信念度,构建了全国尺度下 CFLC 的确定性空间分布图(图 6)。低信念度表示像素的高不确定性。如图 6 所示,西北地区和华北平原的像素确定性大多在 0.6 以上。这些地区的确定性高主要是由于相对均一的土地覆盖。西北地区以裸地和草地为主,而华北平原以旱地耕地为主。确定性低的区域主要分布在南部的丘陵地区、西南部的山区和青藏高原的部分地区。这些地区的复杂气候环境和地理条件使得土地覆盖高度异质,导致 CFLC 的不确定性增加。
图6. 2015年确定性度值的空间分布图。

3.3.2. 不同土地覆盖类型的确定性

我们在表 6 中展示了融合过程中不同土地覆盖类型的信念度分布。我们发现每种类型的信念度都大于等于 1 / 15 1 / 15 1//151 / 15 的基本概率,这表明融合过程中没有失败的像素。除了灌木地、草本湿地和木本湿地外,这些类型的平均信念度均超过 0.6,表明这些类型的整体不确定性相对较低。这些类型的最大值均超过 0.9,这表明 CFLC 在某些地区具有极高的确定性。灌木地的平均信念度约为 0.5。主要原因在于不同的土地覆盖数据对灌木覆盖密度和高度的定义不同,导致森林、灌木和草地之间的定义不统一,这增加了不确定性。草本湿地和木本湿地的确定性较低与输入土地覆盖数据缺乏直接证据支持这两种土地覆盖类型有关。
表6.不同土地覆盖类型的不确定性值分布。
  土地覆盖类型   最小值   最大值   范围   平均值
  城镇及建筑物用地 0.211 0.996 0.785 0.955
干旱耕地和牧场 0.111 0.991 0.880 0.774
灌溉耕地和牧场 0.185 0.954 0.769 0.669
  草原 0.117 0.990 0.873 0.811
  灌木林 0.129 0.986 0.857 0.538
落叶阔叶林 0.110 0.989 0.879 0.676
落叶针叶林 0.149 0.955 0.806 0.658
常绿阔叶林 0.154 0.989 0.835 0.620
常绿针叶林 0.175 0.989 0.814 0.608
  混交林 0.167 0.974 0.807 0.642
  水体 0.125 0.986 0.861 0.965
  草本湿地 0.115 0.831 0.716 0.557
  木本湿地 0.124 0.436 0.312 0.306
荒芜或稀疏植被 0.129 0.995 0.866 0.889
  雪或冰 0.165 0.980 0.815 0.771
Land Cover Type Min Max Range Mean Urban and built-up land 0.211 0.996 0.785 0.955 Dryland cropland and pasture 0.111 0.991 0.880 0.774 Irrigated cropland and pasture 0.185 0.954 0.769 0.669 Grassland 0.117 0.990 0.873 0.811 Shrubland 0.129 0.986 0.857 0.538 Deciduous broadleaf forest 0.110 0.989 0.879 0.676 Deciduous needleleaf forest 0.149 0.955 0.806 0.658 Evergreen broadleaf forest 0.154 0.989 0.835 0.620 Evergreen needleleaf forest 0.175 0.989 0.814 0.608 Mixed forest 0.167 0.974 0.807 0.642 Water bodies 0.125 0.986 0.861 0.965 Herbaceous wetland 0.115 0.831 0.716 0.557 Wooden wetland 0.124 0.436 0.312 0.306 Barren or sparsely vegetable 0.129 0.995 0.866 0.889 Snow or ice 0.165 0.980 0.815 0.771| Land Cover Type | Min | Max | Range | Mean | | :--- | :--- | :--- | :--- | :--- | | Urban and built-up land | 0.211 | 0.996 | 0.785 | 0.955 | | Dryland cropland and pasture | 0.111 | 0.991 | 0.880 | 0.774 | | Irrigated cropland and pasture | 0.185 | 0.954 | 0.769 | 0.669 | | Grassland | 0.117 | 0.990 | 0.873 | 0.811 | | Shrubland | 0.129 | 0.986 | 0.857 | 0.538 | | Deciduous broadleaf forest | 0.110 | 0.989 | 0.879 | 0.676 | | Deciduous needleleaf forest | 0.149 | 0.955 | 0.806 | 0.658 | | Evergreen broadleaf forest | 0.154 | 0.989 | 0.835 | 0.620 | | Evergreen needleleaf forest | 0.175 | 0.989 | 0.814 | 0.608 | | Mixed forest | 0.167 | 0.974 | 0.807 | 0.642 | | Water bodies | 0.125 | 0.986 | 0.861 | 0.965 | | Herbaceous wetland | 0.115 | 0.831 | 0.716 | 0.557 | | Wooden wetland | 0.124 | 0.436 | 0.312 | 0.306 | | Barren or sparsely vegetable | 0.129 | 0.995 | 0.866 | 0.889 | | Snow or ice | 0.165 | 0.980 | 0.815 | 0.771 |

3.4.基于 Noah-MP 陆面过程模型的土壤湿度模拟分析

在这里,我们根据第 3.3 节的方法设计了三组实验,使用不同的土地覆盖数据来模拟土壤湿度。我们在表 7 中展示了在 6 类系统中,每种类型在初始土地覆盖数据(USGS LC)和本研究生成的土地覆盖数据(CFLC)之间的面积差异。超过四分之一的 USGS LC 是农田,而中国近一半的 MODIS LC 是草地,这与 2016 年的《中国土地与资源公报》中的数据不符。相比之下,CFLC 中这些特征的分布比例更为合理。此外,CFLC 还改善了 USGS LC 和 MODIS LC 中对开放水域和建筑用地面积的低估。
表7.在6类系统中3种数据下土地覆盖类型的比例
  耕地   森林   草原   水域   建设用地   裸地
USGS 26.2 % 26.2 % 26.2%26.2 \% 29.4 % 29.4 % 29.4%29.4 \% 25.0 % 25.0 % 25.0%25.0 \% 1.0 % 1.0 % 1.0%1.0 \% 0.1 % 0.1 % 0.1%0.1 \% 18.3 % 18.3 % 18.3%18.3 \%
MODIS 15.7 % 15.7 % 15.7%15.7 \% 11.4 % 11.4 % 11.4%11.4 \% 46.1 % 46.1 % 46.1%46.1 \% 1.1 % 1.1 % 1.1%1.1 \% 1.2 % 1.2 % 1.2%1.2 \% 24.5 % 24.5 % 24.5%24.5 \%
CFLC 14.3 % 14.3 % 14.3%14.3 \% 24.9 % 24.9 % 24.9%24.9 \% 27.8 % 27.8 % 27.8%27.8 \% 2.9 % 2.9 % 2.9%2.9 \% 3.0 % 3.0 % 3.0%3.0 \% 27.0 % 27.0 % 27.0%27.0 \%
Farmland Forest Grassland Waters Construction Land Bare Land USGS 26.2% 29.4% 25.0% 1.0% 0.1% 18.3% MODIS 15.7% 11.4% 46.1% 1.1% 1.2% 24.5% CFLC 14.3% 24.9% 27.8% 2.9% 3.0% 27.0%| | Farmland | Forest | Grassland | Waters | Construction Land | Bare Land | | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | USGS | $26.2 \%$ | $29.4 \%$ | $25.0 \%$ | $1.0 \%$ | $0.1 \%$ | $18.3 \%$ | | MODIS | $15.7 \%$ | $11.4 \%$ | $46.1 \%$ | $1.1 \%$ | $1.2 \%$ | $24.5 \%$ | | CFLC | $14.3 \%$ | $24.9 \%$ | $27.8 \%$ | $2.9 \%$ | $3.0 \%$ | $27.0 \%$ |
偏差、均方根误差(RMSE)和相关性系数 ( R ) ( R ) (R)(\mathrm{R}) 被选用来评估模拟结果的可信度。正值(负值)偏差表示模拟值高于(低于)观测值。R 值越高、RMSE 值越低,说明模拟结果越接近观测值,即结果越可信。计算了 0 10 cm 0 10 cm 0-10cm0-10 \mathrm{~cm} 深度的模拟日平均土壤水分,并将其双线性插值到站点。本研究的模拟和观测数据显著性水平为 p < 0.01 p < 0.01 p < 0.01p<0.01 。如图 7 所示,USGS/SM 存在明显的低估,负偏差天数占比 74.8 % 74.8 % 74.8%74.8 \% 。MODIS/SM 也有相对较多的低估,占比 65.4 % 65.4 % 65.4%65.4 \% 。CFLC 对模拟的改进效果明显,模拟结果低估的天数占比 51.3 % 51.3 % 51.3%51.3 \% ,在三个实验组中最低。 三组实验的均方根误差(RMSE)在 152 天到 230 天之间普遍波动很大,主要是因为中国在这段时间内处于夏季,高降水频率降低了模型模拟的稳定性。CFLC/SM 的 RMSE 最低,而 MODIS/SM 的 RMSE 相对较高,原因可能在于本研究使用广泛应用的映射关系将 MODIS 土地覆盖数据转换为模型所需的数据,这增加了模拟的不确定性。通过分析相关系数,与 USGS/SM 和 MODIS/SM 相比,CFLC/SM 的相关系数普遍较高,改进效果较好。三组实验的相关系数均大于 0.6,均通过了 p < 0.01 p < 0.01 p < 0.01p<0.01 的显著性检验,但在第 274 天到第 304 天,模型模拟效果较差,这可能是由于模型本身的不稳定性所致。此外,由于土壤在土壤中的流动性,土壤水分往往在短距离内逐渐变化,这受到具有强异质性的外部因素的影响很大,如土壤质地和地形。 通过传统的插值方法(如双线性插值和最近邻插值)获得的场地土壤水分不准确,这在一定程度上也降低了模拟结果的总体相关性。总的来说,在日尺度上,使用 CFLC 模拟的 0 10 cm 0 10 cm 0-10cm0-10 \mathrm{~cm} 深度土壤水分优于 USGS LC 和 MODIS LC。1-1。
为了评估不同土地覆盖数据对模拟土壤水分空间分布的影响,我们计算了三组实验相对于观测的日平均土壤水分模拟 RMSE 的空间分布。如图 8 所示,西南地区站点的 RMSE 相对较高,可能是因为该地区的地形复杂且土地覆盖类型多样,导致土壤水分空间异质性较强。此外,通过插值获得的站点土壤水分不能很好地代表实际的土壤水分。
该站。三组实验在大多数中国东部站点取得了良好的模拟结果,均方根误差为 0 0.1 m 3 / m 3 0 0.1 m 3 / m 3 0-0.1m^(3)//m^(3)0-0.1 \mathrm{~m}^{3} / \mathrm{m}^{3} 。与 USGS 和 MODIS LC 相比,CFLC 数据提高了西南地区 RMSE 较高的站点,高于 R M S E R M S E RMSER M S E 的站点数量已减少。如图 8d 所示,对于 CFLC/SM,RMSE 高于 0.1 的站点数量占 20.1 % 20.1 % 20.1%20.1 \% ,与 USGS/SM 和 MODIS/SM 相比分别减少了 5.2 % 5.2 % 5.2%5.2 \% 3.1 % 3.1 % 3.1%3.1 \% 。而对于 CFLC/SM,RMSE 低于 0.05 的站点数量占 29.2 % 29.2 % 29.2%29.2 \% ,与 USGS/SM 和 MODIS/SM 相比分别增加了 6.7 % 6.7 % 6.7%6.7 \% 7.5 % 7.5 % 7.5%7.5 \% 。总体而言,通过空间站点分析,CFLC 在 0 10 cm 0 10 cm 0-10cm0-10 \mathrm{~cm} 深度的模拟土壤水分优于 USGS LC 和 MDOIS LC。
图7. 模拟结果与观测值之间的 0 10 cm 0 10 cm 0-10cm0-10 \mathrm{~cm} 土壤水分的日尺度分析。所有数据的显著性水平为 p < 0.01 p < 0.01 p < 0.01p<0.01
图 8.2014 年 Noah-MP 模拟的 0 10 cm 0 10 cm 0-10cm0-10 \mathrm{~cm} 每日平均土壤水分均方根误差的空间分布图。(a)USGS/SM 模拟结果。(b)MODIS/SM 模拟结果。(c)CFLC/SM 模拟结果。(d)不同时间间隔内均方根误差的百分比。

  4. 讨论

由于土地覆盖产品通常不是专门为土地表面模型或其他数值模型设计和生产的,因此单个土地覆盖数据难以满足分类系统、土地特征类别定义和时间空间分辨率的模型使用要求。在本研究中,通过改进 D-S 证据理论并结合数学模型和知识规则优化,建立了一种新的土地覆盖数据融合方法。我们展示了 2015 年由新方法生成的 CFLC 比基于视觉解释的 CNLULC 数据具有更丰富的土地覆盖类别,并且相对于两个全球土地覆盖数据(MODIS LC 和 FROM-GLC)具有更高的精度。
CNLULC 数据通过目视解译生成,由于在国家尺度上具有高精度,因此在环境、生态和气象领域得到广泛应用。然而,CNLULC 缺乏对植被特征如物候和叶形等的描述,这限制了其在土地表面模型(LSMs)中的进一步应用。在此,我们通过整合多个全球土地覆盖产品,为 CNLULC 提供了更丰富的土地覆盖类别,以满足 LSMs 的需求。我们的验证表明,融合结果保留了 CNLULC 的高精度特征,并丰富了 CNLULC 的原始土地覆盖类别,以满足 LSMs 的需求。
目前,研究各种地表与大气-陆地之间的物理和生物化学过程,以及进一步发展高级陆地表面模型(LSM),已成为全球变化研究的迫切需求。高质量的陆地覆盖数据为 LSM 提供准确的底层地表信息,以改善模型模拟。大多数先前研究旨在评估不同陆地覆盖数据对模型模拟的影响[41,42]。然而,单一来源的陆地覆盖数据的物理定义、准确性和分辨率存在很大不确定性,这使得难以找到一套适合国家尺度的 LSM 模拟的陆地覆盖产品。在这里,我们通过融合多种陆地覆盖数据,减少了单一套陆地覆盖数据的不确定性,从而具有提高模拟精度巨大潜力的 Noah-MP LSM 生成了高质量的陆地覆盖数据。
传统的 D-S 证据理论在不确定信息的融合中得到了广泛应用[36,37]。然而,面对严重不一致的信息时,也会出现融合失败的情况。在这里,我们采用数学模型方法改进了传统的 D-S 证据理论,使其具有处理严重不一致信息的能力,从而提高了理论的鲁棒性。尽管这项研究仅在 2015 年生成土地覆盖数据,但我们的方法仍然具有高度的可移植性和通用性,这意味着可以通过我们的方法融合更多的土地覆盖数据,例如 ESA CCI 300 米土地覆盖数据和最新发布的 ESA WorldCover 10 米土地覆盖数据,以生成具有特定土地覆盖分类系统的更高精度和长时间序列综合土地覆盖数据。我们的新方法为土地覆盖制图提供了新的途径。此外,生态环境、土地管理和农业管理等不同领域需要特定分类系统的土地覆盖数据,而当前的全球土地覆盖产品可能无法满足某些领域的需求。 本文提出的融合方法使得为不同领域开发土地覆盖数据成为可能。
尽管新的融合方法改进了多个输入数据,但不确定性分析表明,融合效果可能受到以下因素的影响:(1)输入数据的不确定性。土地覆盖数据的空间分类精度不均匀,这主要表现在同一区域的不同土地覆盖类型具有不同的分类精度,以及同一土地覆盖类型在不同区域具有不同的分类精度。本研究通过文献综述或产品手册获得了这些产品的分类精度,仅考虑了特定区域内每种土地覆盖类型的整体分类精度,这可能是 CFLC 地图 [ 16 , 30 ] [ 16 , 30 ] [16,30][16,30] 中不确定性最重要的来源。(2)亲和度分数的不确定性。为了构建 BPA 函数,对输入土地覆盖系统与目标土地覆盖系统之间的亲和度进行评分非常重要。当所有输入数据与特定目标类型没有显著相关性时,这可能导致该特定目标类型的亲和度分数低且模糊,这是 CFLC 地图中的另一个不确定性来源。 例如,输入数据中没有直接与目标类别木质湿地相关的定义,这增加了融合结果的不确定性。
土地覆盖数据可以通过遥感解译直接生成,或者通过基于像素级融合或特征级融合的多源遥感数据来吸收不同遥感数据的优点,这通常成本高昂,需要大量研究和人力资源。在这里,我们的方法通过基于决策级融合的现有成熟的遥感土地覆盖产品融合,获得了 LSMs 的新土地覆盖数据,这种方法高效且易于实现。然而,我们的融合方法仍存在一些局限性。由于不同遥感数据产品的分类系统和类别物理定义不同,研究人员需要更深入地了解不同土地覆盖类别之间的相似性和差异性,以实现基于知识规则优化的 BPA 函数构建。解决上述问题的一个潜在方案是建立一个基于人工自然语言的语义分析系统,以减少其影响。
关于融合过程中人类主观性的影响。输入土地覆盖数据的不可确定性也可能影响融合结果的可信度,这需要更多实地调查数据和高清遥感图像在未来进行验证。此外,本研究仅通过视觉比较评估了融合结果的空间分布,未来研究需要更多可靠的定量评估方法。总体而言,土地覆盖数据融合对于土地表面模型(LSM)的研究是一项具有挑战性的任务,需要在保持分类精度的同时融合不同数据的优势,并符合 LSM 对土地覆盖类别物理定义的要求,以满足模型运行的需求。本研究在一定程度上探讨了上述科学问题。随着遥感土地覆盖数据和人工智能语义分析技术的未来发展,我们的方法将继续得到改进。此外,受限于计算成本,本研究仅评估了新土地覆盖数据对土壤湿度模拟效果,以验证我们新方法的优越性。 然而,土地覆盖数据也会影响地表温度和土壤温度等地表参数的模拟[5,43],这些参数需要在未来的研究中进行全面评估。

  5. 结论

高精度的土地覆盖数据可以显著保证陆地表面模型(LSM)模拟的准确性。目前,广泛使用的全球遥感土地覆盖产品无法满足陆地表面模型(LSM)对分类系统、物理定义、数据精度和时空分辨率的要求。在本研究中,我们提出了一种为 LSM 生成集成土地覆盖数据的新方法。我们的研究结论如下:
(1)通过改进 D-S 证据理论,结合数学模型和知识规则优化,建立了一种新的土地覆盖数据融合方法。该方法可以减少输入数据之间的矛盾,并实现多个土地覆盖分类系统向 Noah-MP 分类系统的转换。
(2) 测量数据验证和视觉比较显示,2015 年采用新方法生成的中国融合土地覆盖数据(CFLC)比基于视觉解释的 CNLULC 数据具有更丰富的土地覆盖类别,与两个全球土地覆盖数据(MODIS LC 和 FROM-GLC)相比,精度更高。与 2015 年的 Geo-Wiki 观测相比,CFLC 的整体精度相对于其他两个全球土地覆盖数据(FROM-GLC 为 58.2%,MODIS 为 52.7%)分别为 71.4 % 71.4 % 71.4%71.4 \%
(3) 站点评估结果表明,与模型中初始土地覆盖数据和广泛使用的 MODIS 土地覆盖数据相比,新的集成土地覆盖数据提高了 Noah-MP LSM 模型中 10 厘米深度的土壤湿度模拟精度。与初始土地覆盖数据和 MODIS 土地覆盖数据相比,低估率降低了 23.5 % 23.5 % 23.5%23.5 \% 14.1 % 14.1 % 14.1%14.1 \% ,而 CFLC 模拟的土壤湿度相关系数和均方根误差均优于模型中初始土地覆盖数据和广泛使用的 MODIS 土地覆盖数据。
作者贡献:A.H.:概念构思、方法、形式分析、撰写初稿、审稿和编辑。R.S.:概念构思、监督、审稿和编辑。Y.L.:调查、形式分析、撰写。H.H.:调查、数据整理、撰写初稿。W.D.:软件、可视化。D.F.T.H.:审稿和编辑。所有作者都阅读并同意发表的手稿版本。
资金来源:本研究由中国国家重点研发计划(项目编号 2018YFC1506602)、国家自然科学基金重点项目(项目编号 91437220)以及南京信息工程大学本科生创新训练计划(项目编号 201910300170)资助。
机构审查委员会声明:不适用。