文章
将众包数据与土地覆盖产品整合:一种贝叶斯数据融合方法
Sarah Gengler * 和 Patrick Bogaert 地球与生命研究所,环境科学,天主教鲁汶大学,Croix du Sud 2/L7.05.16,B-1348 鲁汶拉讷, 比利时;patrick.bogaert@uclouvain.be * 通讯作者:sarah.gengler@uclouvain.be;电话:+32-10473611
学术编辑:Parth Sarathi Roy 和 Prasad S. Thenkabail 收稿日期:2016年5月8日;接受日期:2016年6月17日;发表日期:2016年6月27日
摘要
对于许多环境应用来说,准确的土地覆盖空间映射是一个主要关注点。目前,基于卫星数据的土地覆盖产品被期望能够快速且廉价地绘制大面积区域。然而,这些产品的质量在很大程度上可能依赖于研究区域。因此,各种产品之间常常存在不一致,其各自质量的评估仍依赖于地面验证数据集。最近,众包数据被提出作为一种可能帮助解决该问题的替代信息来源。然而,由于其固有的质量保证较差,众包数据在科学研究中仍然大多被忽视。本文旨在提出一种高效的方法,允许用户对众包数据提供的信息进行编码,即使没有事先的质量估计,并可能将这些信息与现有的土地覆盖产品融合,以提高其准确性。 首先建议将志愿者提供的信息编码为关于所访问地点各种土地利用类别概率的一组不等式约束。这反过来允许基于最大熵原理估计最优概率,随后进行这些志愿者信息的空间插值。最后,可以采用贝叶斯数据融合方法,将多位志愿者的贡献与遥感土地覆盖产品进行融合。本文通过聚焦埃塞俄比亚农田的制图来说明该方法,目标是改进表现不佳的土地覆盖产品中的农田制图。结果表明,众包信息能够显著提升最终产品的质量。相应的结果还表明,事先评估遥感数据质量能够显著提升众包活动的效益,因此需要同时考虑这两种信息源,以优化采样工作。
关键词:众包;土地覆盖产品;贝叶斯数据融合;最大熵;埃塞俄比亚
1. 引言
土地覆盖是空间环境建模中的一个重要分类变量,尤其是农田,在生态系统建模、粮食安全或全球环境变化等多种应用中都需要使用。基于卫星数据的土地覆盖产品预计能够提供准确的农田空间映射,供后续这些目标使用。然而,这些土地覆盖产品可能存在准确性有限的问题,影响其在依赖正确选择农田类别的应用中的使用[1-4]。此外,在世界的若干地区,仅依靠遥感数据难以准确绘制农田[5]。
为了克服这种准确性不足,已经进行了多次尝试。其中一些作者建议联合使用多种土地覆盖产品,旨在保留每个产品的优势,同时减弱各自的弱点[2,6-9]。其他作者则... 建议使用可以与这些产品结合的人口普查数据[10-12]。最近,[1]强调了利用众包数据作为空间预测农田的另一种方式,目前的研究正集中在如何将众包信息与现有的土地覆盖数据集融合[3]。
众包信息由公民自愿创建的地理空间数据组成[1]。事实上,越来越多的信息是由公民自愿提供的空间参考数据。众包信息的使用目前正在土地制图应用中进行研究[13],但其价值也在其他领域得到评估,如气候和大气科学[14]或灾害管理与响应(例如地震、飓风、快速洪水等)[15-17],这些领域需要最新的信息。此外,志愿者在为公司更新地理数据库方面贡献巨大,如 OpenStreetMap、TomTom 或 NAVTEQ[18]。众包的潜力也引起了国家政府组织的关注,以改进其自身的制图产品[19]。
虽然参与土地测绘众包活动的公民可能不是遥感专家,但这些众包数据可以成为提高土地覆盖产品质量的一种廉价方式。显然,这引发了对缺乏明确质量保证的众包数据质量的担忧[20-22]。在许多情况下,志愿者贡献的质量难以评估,因此这些众包信息通常被直接丢弃,不再进行后续处理[23]。
本研究的目的是提出一种高效的方法,使用户能够对众包提供的信息进行编码,即使没有质量保证,目的是随后将这些信息与现有的土地覆盖产品结合,以提高其最终的准确性。志愿者提供的信息以关于各类概率的不等式约束形式进行编码,随后基于最大熵/最小散度原理[24]估计志愿者的表现。贝叶斯数据融合方法使我们能够在同一具体位置融合多个志愿者的意见。借助明确考虑各志愿者相关表现的空间插值程序,这些信息随后可以被插值并与现有的土地覆盖产品结合[25,26]。
埃塞俄比亚农田制图的案例说明了这一理论框架,并通过强调各自的优势展示了结合众包信息和土地覆盖数据的优势。粮食不安全是埃塞俄比亚面临的问题[27],该国迫切需要获取有关农田的数据。因此,埃塞俄比亚被确定为实际农田制图的重点区域之一[28]。根据我们的结果,众包信息能够显著提升最终产品的质量。这些结果还表明,事先评估遥感数据的质量可以总体上提高众包活动的效益,通过恰当地识别出额外信息最有可能发挥最大帮助的地点。这也明确表明,遥感数据和众包活动的设计需要从研究一开始就共同考虑,以最大化联合使用它们时在生成改进的土地覆盖产品方面的益处。
2. 理论与方法
本节将介绍处理众包信息的主要框架,旨在考虑各个志愿者的信息,最终目标是改进最终的分类地图。该方法被设计得足够通用,以便应用于各种不同的情形,接下来将以顺序方式进行介绍。从单个志愿者开始,将展示如何通过适当的概率重编码来考虑相应的信息。此情况将扩展到已掌握志愿者表现信息的情形,以及多个志愿者对同一地点提供信息的情形。基于这些结果,将展示如何先对这些信息进行空间插值,然后再与另一张土地覆盖地图进行融合。
评估志愿者表现的一种常见方法是通过内部标注者一致性或将志愿者的贡献与已知专家标签进行比较[29]。这当然要求在研究开始前已有关于志愿者表现的一些信息,或者能够在研究过程中评估其表现。自然而然地,当没有关于某个志愿者的信息时,其贡献往往会被丢弃,不再进行后续处理,而优先考虑那些表现有更好记录的其他志愿者。
这里将展示最大熵原理在这种情况下的帮助,因为它允许我们估计志愿者的表现并利用他们的贡献,即使没有质量保证。最大熵原理在我们背景下的优势在于其能够基于简约信息构建概率分布,例如关于相应概率的不等式约束。更多概念细节可见[24]。值得注意的是,这一方法论已成功应用于其他环境背景,例如重建用于预测苯地下水污染羽流范围的概率表[30],以及整合岩性信息以预测比利时洛林地区的排水类别[24]。本文将其用于在面对二元选择时估计众包环境中志愿者的表现。涉及多于两个类别的分类变量的更复杂案例可见
[
24
,
30
]
[
24
,
30
]
[24,30] [24,30] 。
为了说明这个想法,我们关注一个简单的二元(即伯努利)随机变量
Z
Z
Z Z ,其取值为
z
∈
{
0
,
1
}
z
∈
{
0
,
1
}
z in{0,1} z \in\{0,1\} ,对应于任意空间位置上某属性的存在/不存在。如果没有先验信息,选择概率
P
(
Z
=
1
)
=
P
(
Z
=
0
)
=
0.5
P
(
Z
=
1
)
=
P
(
Z
=
0
)
=
0.5
P(Z=1)=P(Z=0)=0.5 P(Z=1)=P(Z=0)=0.5 是一个合乎逻辑的非信息性选择。现在假设第
i
i
i i 位志愿者对同一位置该属性的存在或不存在提供了他的意见,即
E
i
=
1
E
i
=
1
E_(i)=1 E_{i}=1 或
E
i
=
0
E
i
=
0
E_(i)=0 E_{i}=0 。为了将该意见转化为感兴趣的随机变量
Z
Z
Z Z ,我们考虑当
E
i
=
1
E
i
=
1
E_(i)=1 E_{i}=1 时,这被重新编码为
P
(
Z
=
1
∣
E
i
=
1
)
>
P
(
Z
=
0
∣
E
i
=
1
)
P
Z
=
1
∣
E
i
=
1
>
P
Z
=
0
∣
E
i
=
1
P(Z=1∣E_(i)=1) > P(Z=0∣E_(i)=1) P\left(Z=1 \mid E_{i}=1\right)>P\left(Z=0 \mid E_{i}=1\right) ,或等价地为
p
1
=
P
(
Z
=
1
∣
E
i
=
1
)
>
0.5
p
1
=
P
Z
=
1
∣
E
i
=
1
>
0.5
p_(1)=P(Z=1∣E_(i)=1) > 0.5 p_{1}=P\left(Z=1 \mid E_{i}=1\right)>0.5 和
p
0
=
P
(
Z
=
0
∣
E
i
=
1
)
<
0.5
p
0
=
P
Z
=
0
∣
E
i
=
1
<
0.5
p_(0)=P(Z=0∣E_(i)=1) < 0.5 p_{0}=P\left(Z=0 \mid E_{i}=1\right)<0.5 ,其中
p
0
+
p
1
=
1
p
0
+
p
1
=
1
p_(0)+p_(1)=1 p_{0}+p_{1}=1 。这可以解释为:当第
i
i
i i 位志愿者选择设置
E
i
=
1
E
i
=
1
E_(i)=1 E_{i}=1 (存在)时,假设存在
(
Z
=
1
)
(
Z
=
1
)
(Z=1) (Z=1) 比不存在
(
Z
=
0
)
(
Z
=
0
)
(Z=0) (Z=0) 更可能。对称地,
E
i
=
0
E
i
=
0
E_(i)=0 E_{i}=0 将被翻译为
P
(
Z
=
0
∣
E
i
=
0
)
>
P
(
Z
=
1
∣
E
i
=
0
)
P
Z
=
0
∣
E
i
=
0
>
P
Z
=
1
∣
E
i
=
0
P(Z=0∣E_(i)=0) > P(Z=1∣E_(i)=0) P\left(Z=0 \mid E_{i}=0\right)>P\left(Z=1 \mid E_{i}=0\right) 。 这种编码的原理是考虑志愿者的意见(因为我们有理由相信当志愿者选择考虑存在/不存在时,存在/不存在更有可能发生),同时避免直接为相应的概率设置具体数值。这样,
p
0
p
0
p_(0) p_{0} 和
p
1
p
1
p_(1) p_{1} 的具体数值不会引入虚假的信息,而只是通过不等式约束
p
1
>
p
0
p
1
>
p
0
p_(1) > p_(0) p_{1}>p_{0} 将它们相互关联。
对于
E
i
=
1
E
i
=
1
E_(i)=1 E_{i}=1 的情况,让我们再次考虑受不等式约束
p
1
>
p
0
p
1
>
p
0
p_(1) > p_(0) p_{1}>p_{0} 约束的未知概率向量
p
=
(
p
0
,
p
1
)
p
=
p
0
,
p
1
p=(p_(0),p_(1)) \mathbf{p}=\left(p_{0}, p_{1}\right) 。最大熵原理旨在基于对
Q
Q
Q \mathbf{Q} 上期望散度
E
[
D
(
p
‖
Q
)
]
E
[
D
(
p
‖
Q
)
]
E[D(p||Q)] E[D(\mathbf{p} \| \mathbf{Q})] 的最小化,选择
p
p
p \mathbf{p} 的最佳估计,其中
Q
Q
Q \mathbf{Q} 是满足该不等式约束的概率向量集合。同样,原理是选择最接近“无先验信息”状态(即
p
0
=
p
1
=
0.5
p
0
=
p
1
=
0.5
p_(0)=p_(1)=0.5 p_{0}=p_{1}=0.5 )的
p
p
p \mathbf{p} 的最佳估计,同时满足不等式约束
p
1
>
p
0
p
1
>
p
0
p_(1) > p_(0) p_{1}>p_{0} 。实际上,通过依赖定义为:
D
(
p
‖
q
)
=
∑
i
p
i
ln
p
i
q
i
D
(
p
‖
q
)
=
∑
i
p
i
ln
p
i
q
i
D(p||q)=sum_(i)p_(i)ln((p_(i))/(q_(i))) D(\mathbf{p} \| \mathbf{q})=\sum_{i} p_{i} \ln \frac{p_{i}}{q_{i}}
我们可以计算任何特定
p
p
p \mathbf{p} 选择的期望散度,具体为:
E
[
D
(
p
‖
Q
)
]
=
∫
S
∩
C
D
(
p
‖
q
)
f
(
q
)
d
q
E
[
D
(
p
‖
Q
)
]
=
∫
S
∩
C
D
(
p
‖
q
)
f
(
q
)
d
q
E[D(p||Q)]=int_(S nn C)D(p||q)f(q)dq E[D(\mathbf{p} \| \mathbf{Q})]=\int_{S \cap C} D(\mathbf{p} \| \mathbf{q}) f(\mathbf{q}) d \mathbf{q}
其中
f
(
q
)
f
(
q
)
f(q) f(\mathbf{q}) 是定义在单纯形
S
=
{
p
:
p
0
∈
[
0
,
1
]
,
p
1
∈
[
0
,
1
]
,
p
0
+
p
1
=
1
}
S
=
p
:
p
0
∈
[
0
,
1
]
,
p
1
∈
[
0
,
1
]
,
p
0
+
p
1
=
1
S={p:p_(0)in[0,1],p_(1)in[0,1],p_(0)+p_(1)=1} S=\left\{\mathbf{p}: p_{0} \in[0,1], p_{1} \in[0,1], p_{0}+p_{1}=1\right\} 与由不等式约束
C
=
{
p
:
p
1
>
p
0
}
C
=
p
:
p
1
>
p
0
C={p:p_(1) > p_(0)} C=\left\{\mathbf{p}: p_{1}>p_{0}\right\} 生成的域的交集上的
Q
Q
Q \mathbf{Q} 的概率密度函数。由于计算期望散度需要指定
Q
Q
Q \mathbf{Q} 的分布,基于最大熵原理的一致选择是在
S
∩
C
S
∩
C
S nn C S \cap C 上对
Q
Q
Q \mathbf{Q} 使用均匀分布。因此,该优化问题的解是一个估计的概率向量
p
^
p
^
widehat(p) \widehat{\mathbf{p}} ,满足:
p
^
=
arg
min
p
E
[
D
(
p
‖
Q
)
]
p
^
=
arg
min
p
E
[
D
(
p
‖
Q
)
]
widehat(p)=arg min_(p)E[D(p||Q)] \widehat{\mathbf{p}}=\arg \min _{\mathbf{p}} E[D(\mathbf{p} \| \mathbf{Q})]
尽管上一节中提出的程序在缺乏关于其性能的信息时,为单个志愿者提供了
p
p
p \mathbf{p} 的估计,但在存在基于验证数据集的信息的情况下,将这种方法扩展应用仍然存在一定的顾虑。从均匀分布
f
(
q
)
f
(
q
)
f(q) f(\mathbf{q}) 出发,标准的贝叶斯更新程序使我们能够额外考虑给定数量的验证点。
为了做到这一点,我们一般考虑向量
n
=
(
n
0
,
…
,
n
k
)
n
=
n
0
,
…
,
n
k
n=(n_(0),dots,n_(k)) \mathbf{n}=\left(n_{0}, \ldots, n_{k}\right) ,其中每个
n
i
n
i
n_(i) n_{i} 是给定贡献者在第
i
i
i i 类别中落入的验证点数量(对于我们具体的问题,这里有两个类别)。因此,我们可以计算从相应的多项式分布中观察到该样本
n
n
n \mathbf{n} 的似然性,其中各类别的概率由 q 给出,具体为:
P
(
N
=
n
∣
q
)
=
n
!
∏
i
n
i
!
∏
i
q
i
n
i
P
(
N
=
n
∣
q
)
=
n
!
∏
i
n
i
!
∏
i
q
i
n
i
P(N=n∣q)=(n!)/(prod_(i)n_(i)!)prod_(i)q_(i)^(n_(i)) P(\mathbf{N}=\mathbf{n} \mid \mathbf{q})=\frac{n!}{\prod_{i} n_{i}!} \prod_{i} q_{i}^{n_{i}}
其中
n
=
n
0
+
⋯
+
n
k
n
=
n
0
+
⋯
+
n
k
n=n_(0)+cdots+n_(k) n=n_{0}+\cdots+n_{k} 。贝叶斯定理的直接应用导致更新后的(即后验分布)
f
(
q
∣
N
=
n
)
f
(
q
∣
N
=
n
)
f(q∣N=n) f(\mathbf{q} \mid \mathbf{N}=\mathbf{n}) ,其表达式为:
f
(
q
∣
N
=
n
)
∝
Likelihood
×
Prior
=
P
(
N
=
n
∣
q
)
×
f
(
q
)
f
(
q
∣
N
=
n
)
∝
Likelihood
×
Prior
=
P
(
N
=
n
∣
q
)
×
f
(
q
)
f(q∣N=n)prop" Likelihood "xx" Prior "=P(N=n∣q)xx f(q) f(\mathbf{q} \mid \mathbf{N}=\mathbf{n}) \propto \text { Likelihood } \times \text { Prior }=P(\mathbf{N}=\mathbf{n} \mid \mathbf{q}) \times f(\mathbf{q})
总之,当由于缺乏验证点而完全没有先验知识时,基于最大熵原理的自然选择是使用均匀分布
f
(
q
)
f
(
q
)
f(q) f(\mathbf{q}) 。然而,当有验证点时,可以使用更有意义的选择,即使用更新后的分布
f
(
q
∣
N
=
n
)
f
(
q
∣
N
=
n
)
f(q∣N=n) f(\mathbf{q} \mid \mathbf{N}=\mathbf{n}) 。这种灵活性在需要同时处理没有性能评估的志愿者(即使用
f
(
q
)
f
(
q
)
f(q) f(\mathbf{q}) )和通过验证点进行性能评估的志愿者(即使用
f
(
q
∣
N
=
n
)
)
f
(
q
∣
N
=
n
)
)
f(q∣N=n)) f(\mathbf{q} \mid \mathbf{N}=\mathbf{n})) )的情况下尤其有趣。显然,这些验证点的数量也可能因志愿者而异。此外,对于相同数量的验证点,志愿者的表现也可能因人而异。所有这些可能性都通过使用公式(5)来处理,以便为每个志愿者使用特定的分布。
对于任意数量的类别,并且从单纯形上的均匀先验
f
(
q
)
f
(
q
)
f(q) f(\mathbf{q}) 开始,先验分布
f
(
q
)
f
(
q
)
f(q) f(\mathbf{q}) 对应于参数向量为
α
=
(
α
0
,
…
,
α
k
)
α
=
α
0
,
…
,
α
k
alpha=(alpha_(0),dots,alpha_(k)) \alpha=\left(\alpha_{0}, \ldots, \alpha_{k}\right) 的 Dirichlet 分布,使得
α
i
=
1
∀
i
α
i
=
1
∀
i
alpha_(i)=1AA i \alpha_{i}=1 \forall i ,相应的后验分布也在同一单纯形上服从 Dirichlet 分布。在我们特定的情况下,仅涉及与存在/不存在相关的两个类别,
q
0
q
0
q_(0) q_{0} 或
q
1
q
1
q_(1) q_{1} 的先验分布在
[
0
,
1
]
[
0
,
1
]
[0,1] [0,1] 上是均匀的,相应的后验分布服从 Beta 分布。图 1 展示了随着验证点数量增加,(截断的)Beta 后验分布形状如何变化。我们这里从
[
0.5
,
1
]
[
0.5
,
1
]
[0.5,1] [0.5,1] 上的均匀分布开始,而非
[
0
,
1
]
[
0
,
1
]
[0,1] [0,1] ,这是由于需要满足额外的约束
q
1
>
q
0
q
1
>
q
0
q_(1) > q_(0) q_{1}>q_{0} ,使得在该约束下
q
1
<
0.5
q
1
<
0.5
q_(1) < 0.5 q_{1}<0.5 的值是不可能的。
图1. 当验证点数量
n
n
n n 增加时,始终正确识别真实类别的志愿者(即
n
1
=
n
n
1
=
n
n_(1)=n n_{1}=n 和
n
0
=
0
n
0
=
0
n_(0)=0 n_{0}=0 ,且
n
0
+
n
1
=
n
n
0
+
n
1
=
n
n_(0)+n_(1)=n n_{0}+n_{1}=n )的
f
(
q
1
)
f
q
1
f(q_(1)) f\left(q_{1}\right) 的变化。
2.3. 贝叶斯数据融合以结合同一地点多个志愿者的意见
贝叶斯数据融合(BDF)方法已在各种环境背景下成功应用于结合针对同一感兴趣变量的多种信息源,旨在提高最终预测的质量。该方法已被广泛研究用于连续变量的预测([31-33]),并且 Gengler 和 Bogaert(2015)提出了针对分类变量的扩展。
设假设一个分类随机变量
Z
Z
Z Z ,其中
z
0
z
0
z_(0) z_{0} 对应于相应位置
x
0
x
0
x_(0) \mathbf{x}_{0} 的农田存在/不存在,因此
z
0
∈
{
0
,
1
}
z
0
∈
{
0
,
1
}
z_(0)in{0,1} z_{0} \in\{0,1\} 。考虑另一组定义在相同类别集合上的分类变量
E
0
,
1
,
…
,
E
0
,
m
E
0
,
1
,
…
,
E
0
,
m
E_(0,1),dots,E_(0,m) E_{0,1}, \ldots, E_{0, m} ,并在预测位置
x
0
x
0
x_(0) \mathbf{x}_{0} 可用,观测值为
e
0
=
(
e
0
,
1
,
…
,
e
0
,
m
)
e
0
=
e
0
,
1
,
…
,
e
0
,
m
e_(0)=(e_(0,1),dots,e_(0,m)) \mathbf{e}_{0}=\left(e_{0,1}, \ldots, e_{0, m}\right) ,在我们的语境中,每个
e
0
,
i
e
0
,
i
e_(0,i) e_{0, i} 对应于第
i
i
i i 位志愿者分配的农田存在/不存在(即
e
0
,
i
∈
{
0
,
1
}
e
0
,
i
∈
{
0
,
1
}
e_(0,i)in{0,1} e_{0, i} \in\{0,1\} 同样)。我们所寻求的是条件概率:
p
(
z
0
∣
e
0
)
=
p
(
e
0
∣
z
0
)
p
(
z
0
)
p
(
e
0
)
=
p
(
z
0
)
p
(
e
0
)
∏
i
=
1
n
p
(
e
0
,
i
∣
z
0
)
=
p
(
z
0
)
p
(
e
0
)
∏
i
=
1
n
p
(
z
0
∣
e
0
,
i
)
p
(
e
0
,
i
)
p
(
z
0
)
=
1
A
p
(
z
0
)
1
−
n
∏
i
=
1
n
p
(
z
0
∣
e
0
,
i
)
p
z
0
∣
e
0
=
p
e
0
∣
z
0
p
z
0
p
e
0
=
p
z
0
p
e
0
∏
i
=
1
n
p
e
0
,
i
∣
z
0
=
p
z
0
p
e
0
∏
i
=
1
n
p
z
0
∣
e
0
,
i
p
e
0
,
i
p
z
0
=
1
A
p
z
0
1
−
n
∏
i
=
1
n
p
z
0
∣
e
0
,
i
{:[p(z_(0)∣e_(0))=(p(e_(0)∣z_(0))p(z_(0)))/(p(e_(0)))],[=(p(z_(0)))/(p(e_(0)))prod_(i=1)^(n)p(e_(0,i)∣z_(0))],[=(p(z_(0)))/(p(e_(0)))prod_(i=1)^(n)(p(z_(0)∣e_(0,i))p(e_(0,i)))/(p(z_(0)))],[=(1)/(A)quad p(z_(0))^(1-n)prod_(i=1)^(n)p(z_(0)∣e_(0,i))]:} \begin{aligned}
p\left(z_{0} \mid \mathbf{e}_{\mathbf{0}}\right) & =\frac{p\left(\mathbf{e}_{0} \mid z_{0}\right) p\left(z_{0}\right)}{p\left(\mathbf{e}_{0}\right)} \\
& =\frac{p\left(z_{0}\right)}{p\left(\mathbf{e}_{0}\right)} \prod_{i=1}^{n} p\left(e_{0, i} \mid z_{0}\right) \\
& =\frac{p\left(z_{0}\right)}{p\left(\mathbf{e}_{0}\right)} \prod_{i=1}^{n} \frac{p\left(z_{0} \mid e_{0, i}\right) p\left(e_{0, i}\right)}{p\left(z_{0}\right)} \\
& =\frac{1}{A} \quad p\left(z_{0}\right)^{1-n} \prod_{i=1}^{n} p\left(z_{0} \mid e_{0, i}\right)
\end{aligned}
等式
p
(
e
0
∣
z
0
)
=
∏
i
=
1
n
p
(
e
0
,
i
∣
z
0
)
p
e
0
∣
z
0
=
∏
i
=
1
n
p
e
0
,
i
∣
z
0
p(e_(0)∣z_(0))=prod_(i=1)^(n)p(e_(0,i)∣z_(0)) p\left(\mathbf{e}_{\mathbf{0}} \mid z_{0}\right)=\prod_{i=1}^{n} p\left(e_{0, i} \mid z_{0}\right) 对应于
E
i
E
i
E_(i) E_{i} 在条件于
Z
Z
Z Z 时的相互独立性(参见[26]),其中
A
=
p
(
e
0
)
/
Π
i
p
(
e
i
,
0
)
A
=
p
e
0
/
Π
i
p
e
i
,
0
A=p(e_(0))//Pi_(i)p(e_(i,0)) A=p\left(\mathbf{e}_{0}\right) / \Pi_{i} p\left(e_{i, 0}\right) 是一个归一化常数,确保
∑
p
(
z
0
∣
e
0
)
=
1
∑
p
z
0
∣
e
0
=
1
sum p(z_(0)∣e_(0))=1 \sum p\left(z_{0} \mid \mathbf{e}_{0}\right)=1 。显然,概率
p
(
z
0
∣
e
0
,
i
)
p
z
0
∣
e
0
,
i
p(z_(0)∣e_(0,i)) p\left(z_{0} \mid e_{0, i}\right) (包括
z
0
∈
{
0
,
1
}
z
0
∈
{
0
,
1
}
z_(0)in{0,1} z_{0} \in\{0,1\} )对应于之前描述的每个志愿者关于农田存在/不存在的意见编码,即
p
0
p
0
p_(0) p_{0} 和
p
1
p
1
p_(1) p_{1} 的值。概率
p
(
z
0
)
p
z
0
p(z_(0)) p\left(z_{0}\right) 是我们在任何志愿者意见可用之前该位置的先验信息。从这个意义上讲,方程(6)允许我们通过考虑志愿者来更新该先验信息,每个比率
p
(
z
0
∣
e
0
,
i
)
/
p
(
z
0
)
p
z
0
∣
e
0
,
i
/
p
z
0
p(z_(0)∣e_(0,i))//p(z_(0)) p\left(z_{0} \mid e_{0, i}\right) / p\left(z_{0}\right) 衡量了由
第
i
i
i i 位志愿者相对于先验概率带来的信息内容。显然,
p
(
z
0
∣
e
0
,
i
)
p
z
0
∣
e
0
,
i
p(z_(0)∣e_(0,i)) p\left(z_{0} \mid e_{0, i}\right) 与
p
(
z
0
)
p
z
0
p(z_(0)) p\left(z_{0}\right) 的差异越大,该志愿者对最终结果的影响就越大。最后,值得再次提醒的是,各个
p
(
z
0
∣
e
0
,
i
)
′
s
p
z
0
∣
e
0
,
i
′
s
p(z_(0)∣e_(0,i))^(')s p\left(z_{0} \mid e_{0, i}\right)^{\prime} s 可能不同,因此方程(6)允许我们同时考虑表现不同的志愿者。
2.4. 贝叶斯最大熵法插值融合的志愿者意见
为了从有限的众包信息所在位置集合中获取地图,需要依赖一个可靠的插值过程。贝叶斯最大熵(BME)方法论使我们能够基于融合的志愿者在各个位置的意见来实现这一点,这得益于其处理相应概率(即软)信息的能力[34]。实际上,我们这里处理的是概率分布
p
^
=
(
P
^
(
Z
=
1
∣
e
)
,
P
^
(
Z
=
0
∣
e
)
)
p
^
=
(
P
^
(
Z
=
1
∣
e
)
,
P
^
(
Z
=
0
∣
e
)
)
hat(p)=( hat(P)(Z=1∣e), hat(P)(Z=0∣e)) \hat{\mathbf{p}}=(\hat{P}(Z=1 \mid \mathbf{e}), \hat{P}(Z=0 \mid \mathbf{e})) ,因此 BME 相比其他经典插值方法(例如在[3]中使用的反距离加权插值法)显示出显著优势。在我们的案例中,整个埃塞俄比亚的条件概率分布是利用邻近位置的概率分布知识计算得出的。为了实现这一目标,需要估计两个类别之间的双变量概率与对应位置间距离的函数关系,这一估计是按照[35]中提出的方法完成的。
2.5. 贝叶斯数据融合以结合插值地图与土地覆盖图产品
BME 方法为我们提供了一个仅基于众包信息的地图,而另一方面,我们还有一个通过遥感获得的土地覆盖产品。因此,需要得到一个基于这两种信息源的最终单一地图。BME 插值地图与土地覆盖产品的融合可以再次使用 BDF 方法来完成。实际上,这对应于一般 BDF 方法的一个特例,其中不需要考虑空间结构,且数据源在空间上是全面的(即,对于任意选定的空间位置集,数值都是可用的)。Xu 等人(2014)使用了类似的方法来合并不同的土地覆盖产品,他们的研究也可以看作是 BDF 方程的一个特例[9]。
令
L
0
L
0
L_(0) L_{0} 为一个分类变量,表示土地覆盖产品在预测位置上分配的农田存在/不存在情况,
l
0
l
0
l_(0) l_{0} 为其观测值。类似地,令
E
0
p
E
0
p
E_(0)^(p) E_{0}^{p} 为一个分类变量,其中
e
0
p
e
0
p
e_(0)^(p) e_{0}^{p} 对应基于众包信息的插值地图在预测位置上分配的农田存在/不存在情况。我们所寻求的是
p
(
z
0
∣
e
0
p
,
l
0
)
p
z
0
∣
e
0
p
,
l
0
p(z_(0)∣e_(0)^(p),l_(0)) p\left(z_{0} \mid e_{0}^{p}, l_{0}\right) ,即在土地覆盖产品和众包地图提供的信息下,农田存在/不存在的概率。利用基本的概率性质,得到:
p
(
z
0
∣
e
0
p
,
l
0
)
=
p
(
z
0
,
e
0
p
,
l
0
)
p
(
e
0
p
,
l
0
)
=
p
(
z
0
)
p
(
e
0
p
,
l
0
∣
z
0
)
p
(
e
0
p
,
l
0
)
=
p
(
z
0
)
p
(
e
0
p
,
l
0
)
p
(
e
0
p
∣
z
0
)
p
(
l
0
∣
z
0
)
=
p
(
z
0
)
p
(
e
0
p
,
l
0
)
p
(
z
0
∣
e
0
p
)
p
(
e
0
p
)
p
(
z
0
)
p
(
z
0
∣
l
0
)
p
(
l
0
)
p
(
z
0
)
=
A
p
(
z
0
∣
e
0
p
)
p
(
z
0
∣
l
0
)
p
(
z
0
)
p
z
0
∣
e
0
p
,
l
0
=
p
z
0
,
e
0
p
,
l
0
p
e
0
p
,
l
0
=
p
z
0
p
e
0
p
,
l
0
∣
z
0
p
e
0
p
,
l
0
=
p
z
0
p
e
0
p
,
l
0
p
e
0
p
∣
z
0
p
l
0
∣
z
0
=
p
z
0
p
e
0
p
,
l
0
p
z
0
∣
e
0
p
p
e
0
p
p
z
0
p
z
0
∣
l
0
p
l
0
p
z
0
=
A
p
z
0
∣
e
0
p
p
z
0
∣
l
0
p
z
0
{:[p(z_(0)∣e_(0)^(p),l_(0))=(p(z_(0),e_(0)^(p),l_(0)))/(p(e_(0)^(p),l_(0)))],[=(p(z_(0))p(e_(0)^(p),l_(0)∣z_(0)))/(p(e_(0)^(p),l_(0)))],[=(p(z_(0)))/(p(e_(0)^(p),l_(0)))p(e_(0)^(p)∣z_(0))p(l_(0)∣z_(0))],[=(p(z_(0)))/(p(e_(0)^(p),l_(0)))(p(z_(0)∣e_(0)^(p))p(e_(0)^(p)))/(p(z_(0)))(p(z_(0)∣l_(0))p(l_(0)))/(p(z_(0)))],[=A(p(z_(0)∣e_(0)^(p))p(z_(0)∣l_(0)))/(p(z_(0)))]:} \begin{aligned}
p\left(z_{0} \mid e_{0}^{p}, l_{0}\right) & =\frac{p\left(z_{0}, e_{0}^{p}, l_{0}\right)}{p\left(e_{0}^{p}, l_{0}\right)} \\
& =\frac{p\left(z_{0}\right) p\left(e_{0}^{p}, l_{0} \mid z_{0}\right)}{p\left(e_{0}^{p}, l_{0}\right)} \\
& =\frac{p\left(z_{0}\right)}{p\left(e_{0}^{p}, l_{0}\right)} p\left(e_{0}^{p} \mid z_{0}\right) p\left(l_{0} \mid z_{0}\right) \\
& =\frac{p\left(z_{0}\right)}{p\left(e_{0}^{p}, l_{0}\right)} \frac{p\left(z_{0} \mid e_{0}^{p}\right) p\left(e_{0}^{p}\right)}{p\left(z_{0}\right)} \frac{p\left(z_{0} \mid l_{0}\right) p\left(l_{0}\right)}{p\left(z_{0}\right)} \\
& =A \frac{p\left(z_{0} \mid e_{0}^{p}\right) p\left(z_{0} \mid l_{0}\right)}{p\left(z_{0}\right)}
\end{aligned}
其中等式
p
(
e
0
p
,
l
0
∣
z
0
)
=
p
(
e
0
p
∣
z
0
)
p
(
l
0
∣
z
0
)
p
e
0
p
,
l
0
∣
z
0
=
p
e
0
p
∣
z
0
p
l
0
∣
z
0
p(e_(0)^(p),l_(0)∣z_(0))=p(e_(0)^(p)∣z_(0))p(l_(0)∣z_(0)) p\left(e_{0}^{p}, l_{0} \mid z_{0}\right)=p\left(e_{0}^{p} \mid z_{0}\right) p\left(l_{0} \mid z_{0}\right) 对应于在条件 Z 下
L
L
L L 和
E
0
p
E
0
p
E_(0)^(p) E_{0}^{p} 之间的相互独立性,且
A
=
p
(
e
0
p
)
p
(
l
0
)
/
p
(
e
0
p
,
l
0
)
A
=
p
e
0
p
p
l
0
/
p
e
0
p
,
l
0
A=p(e_(0)^(p))p(l_(0))//p(e_(0)^(p),l_(0)) A=p\left(e_{0}^{p}\right) p\left(l_{0}\right) / p\left(e_{0}^{p}, l_{0}\right) 是一个归一化常数。
3. 结果与讨论
为了说明所提出方法的应用,我们将重点关注埃塞俄比亚的农田空间映射。为此,手头有三种信息来源,即:(i)2010 年获得的气候变化倡议土地覆盖(CCI-LC)地图,空间分辨率为 300 米[36];(ii)2012 年进行的一次广泛众包活动,涉及全国范围内的数据收集;以及(iii)来自全国范围内独立专家的 1000 个验证点。
对于 2012 年举行的众包活动,Geo-wiki 团队请志愿者使用 Google Earth 图像标注埃塞俄比亚各地样本
1
km
2
1
km
2
1km^(2) 1 \mathrm{~km}^{2} 中农田存在的程度。这些数据是使用简化版 Geo-wiki [4]收集的。共有 32 名志愿者提供了意见,收集了 77,465 条贡献记录。三名志愿者贡献超过
75
%
75
%
75% 75 \% 条(见表 1)。分类最初采用了四个农田出现等级,从无农田到高度耕作[3]。本研究中,仅将低、中、高耕作等级合并为两类。感兴趣的变量因此是一个二元(即伯努利)变量,表示埃塞俄比亚耕地的有无(见图 2)。同时,从 2010 年获得的气候变化倡议土地覆盖产品中,也导出了相同的二元变量。标签“耕地存在”对应所有包含农田的土地覆盖类别,即雨养农田、灌溉农田、洪水后农田和镶嵌农田。 剩余的类别被标记为“无耕地”(图3)。最后,基于卫星数据解译构建了一个验证数据集,该数据集由一位受过训练的专家完成。该专家随机调查了整个埃塞俄比亚范围内的1000个像素(图4)。其中包括500个有众包数据的地点子集。这些数据用于重新编码众包数据(第3.1节)。表1显示了众包活动中10个主要贡献者的验证点数量(这10个主要贡献者代表了众包数据总量的
96.8
%
96.8
%
96.8% 96.8 \% )。剩余的500个地点未用于校准过程,仅用于评估生成的土地覆盖图的准确性(第3.5节)。
表1. 十大主要贡献者的志愿者贡献和验证点。
贡献者编号
贡献数量
验证点数量
#1
20,497
279
#2
20,311
317
#3
19,238
284
#4
5575
83
#5
3311
49
#6
1536
29
#7
1534
16
#8
1427
11
#9
901
10
#10
659
10
Contributor ID Number of Contributions Number of Validation Points
#1 20,497 279
#2 20,311 317
#3 19,238 284
#4 5575 83
#5 3311 49
#6 1536 29
#7 1534 16
#8 1427 11
#9 901 10
#10 659 10 | Contributor ID | Number of Contributions | Number of Validation Points |
| :--- | :--- | :--- |
| #1 | 20,497 | 279 |
| #2 | 20,311 | 317 |
| #3 | 19,238 | 284 |
| #4 | 5575 | 83 |
| #5 | 3311 | 49 |
| #6 | 1536 | 29 |
| #7 | 1534 | 16 |
| #8 | 1427 | 11 |
| #9 | 901 | 10 |
| #10 | 659 | 10 |
图2. 众包信息的位置;浅灰色点对应“非农田”类别,黑色点对应“农田”类别(共计32,781个像素,平均密度为0.03像素
/
km
2
/
km
2
//km^(2) / \mathrm{km}^{2} )。
图 3. 基于 2010 年气候变化倡议土地覆盖(CCI-LC)产品的农田地图;浅灰色点对应“非农田”类别,黑色点对应“农田”类别。
图4. 1000个验证点的位置;浅灰色点对应“非农田”类别,黑色点对应“农田”类别。
CCI-LC 产品在特定的农田类别上远未达到理想状态,因为该产品的总体准确率为
76.8
%
76.8
%
76.8% 76.8 \% (表 2)。尽管土地覆盖对“非农作物”类别的用户准确率相当高,但“农作物”类别并非如此。实际上,如果土地覆盖将某像素标记为“农作物”,根据
P
(
Z
=
1
∣
C
C
I
=
1
)
P
(
Z
=
1
∣
C
C
I
=
1
)
P(Z=1∣CCI=1) P(Z=1 \mid C C I=1) 测量,实际观察到农作物的概率仅为
51.9
%
51.9
%
51.9% 51.9 \% 。这意味着当 CCI=1 发生时,CCI-LC 产品无法提供有意义的信息。正如 See 等人(2013)所建议的,这些错误可能是由于农田和草地类别表现出相似的光谱特征所致。为了改进土地覆盖产品,利用众包信息是一种可能的替代方案,尤其是在 CCI-LC 产品显示存在农作物的区域。
表 2. CCI-LC 产品的混淆矩阵(共 500 个像素)。
CCI-LC
农作物
非农作物
生产者准确率(%)
验证
作物
110
14
88.71
非作物
102
274
72.87
用户准确率(%)
51.89
95.14
76.80
CCI-LC
Crop No Crop Producer's Accuracy (%)
Validation Crop 110 14 88.71
No crop 102 274 72.87
User's Accuracy (%) 51.89 95.14 76.80 | CCI-LC | | | | |
| :---: | :---: | :---: | :---: | :---: |
| | | Crop | No Crop | Producer's Accuracy (%) |
| Validation | Crop | 110 | 14 | 88.71 |
| | No crop | 102 | 274 | 72.87 |
| User's Accuracy (%) | 51.89 | 95.14 | 76.80 | |
3.1. 重新编码众包数据
为了将众包信息与该土地覆盖产品结合,需要估计贡献者的表现。因此,这里应用了通过迭代 MinNorm 近似实现的最小散度原理来评估每个贡献者的质量。当没有志愿者表现信息时,一致的选择是使用均匀 分布
f
(
q
)
f
(
q
)
f(q) f(\mathbf{q}) 在
S
∩
C
S
∩
C
S nn C S \cap C 上,这导致概率
p
(
z
∣
e
i
)
p
z
∣
e
i
p(z∣e_(i)) p\left(z \mid e_{i}\right) 的估计值(受上述不等式约束)由下式给出:
P
^
(
Z
=
1
∣
E
i
=
1
)
=
0.8
P
^
(
Z
=
0
∣
E
i
=
1
)
=
0.2
P
^
(
Z
=
1
∣
E
i
=
0
)
=
0.2
P
^
(
Z
=
0
∣
E
i
=
0
)
=
0.8
P
^
Z
=
1
∣
E
i
=
1
=
0.8
P
^
Z
=
0
∣
E
i
=
1
=
0.2
P
^
Z
=
1
∣
E
i
=
0
=
0.2
P
^
Z
=
0
∣
E
i
=
0
=
0.8
{:[ hat(P)(Z=1∣E_(i)=1)=0.8, hat(P)(Z=0∣E_(i)=1)=0.2],[ hat(P)(Z=1∣E_(i)=0)=0.2, hat(P)(Z=0∣E_(i)=0)=0.8]:} \begin{array}{ll}
\hat{P}\left(Z=1 \mid E_{i}=1\right)=0.8 & \hat{P}\left(Z=0 \mid E_{i}=1\right)=0.2 \\
\hat{P}\left(Z=1 \mid E_{i}=0\right)=0.2 & \hat{P}\left(Z=0 \mid E_{i}=0\right)=0.8
\end{array}
然而,对于20名志愿者也有验证点,因此可以获得他们表现的更有信息量的估计。在我们的具体问题中,
n
=
(
n
0
,
n
1
)
n
=
n
0
,
n
1
n=(n_(0),n_(1)) \mathbf{n}=\left(n_{0}, n_{1}\right) 其中
n
1
n
1
n_(1) n_{1} 是被分配到“作物”类别的验证点数量,而
n
0
n
0
n_(0) n_{0} 是被分配到“非作物”类别的数量。初始的均匀分布
f
(
q
)
f
(
q
)
f(q) f(\mathbf{q}) 然后可以使用经典的贝叶斯更新过程(图1)进行相应修改,其中后验分布
f
(
q
∣
N
=
n
)
f
(
q
∣
N
=
n
)
f(q∣N=n) f(\mathbf{q} \mid \mathbf{N}=\mathbf{n}) 可能因各志愿者的表现不同而有所差异。
作为方法论和结果的一个示例,这里详细介绍志愿者#6的案例。对于这位志愿者,共有29个验证点,其中有7个点该贡献者标记为“作物”类别(因此其他22个验证点被标记为“非作物”类别)。在这个特定案例中,
n
=
(
n
0
=
0
,
n
1
=
7
)
n
=
n
0
=
0
,
n
1
=
7
n=(n_(0)=0,n_(1)=7) \mathbf{n}=\left(n_{0}=0, n_{1}=7\right) 表示当志愿者#6标记为“作物”类别时,
n
=
(
n
0
=
21
,
n
1
=
1
)
n
=
n
0
=
21
,
n
1
=
1
n=(n_(0)=21,n_(1)=1) \mathbf{n}=\left(n_{0}=21, n_{1}=1\right) 表示当志愿者#6标记为“非作物”类别时。当该贡献者支持某一特定位置存在作物时(
E
6
=
1
E
6
=
1
E_(6)=1 E_{6}=1 ),需要考虑的约束条件是
C
=
{
p
:
p
1
>
p
0
}
C
=
p
:
p
1
>
p
0
C={p:p_(1) > p_(0)} C=\left\{\mathbf{p}: p_{1}>p_{0}\right\} 。我们从均匀分布
f
(
q
)
f
(
q
)
f(q) f(\mathbf{q}) 开始,因此通过
q
=
(
q
0
,
q
1
)
q
=
q
0
,
q
1
q=(q_(0),q_(1)) \mathbf{q}=\left(q_{0}, q_{1}\right) ,这里简化为考虑:
f
(
q
)
=
{
2
∀
(
q
0
,
q
1
)
∈
S
∩
C
0
otherwise
f
(
q
)
=
2
∀
q
0
,
q
1
∈
S
∩
C
0
otherwise
f(q)={[2,AA(q_(0),q_(1))in S nn C],[0," otherwise "]:} f(\mathbf{q})= \begin{cases}2 & \forall\left(q_{0}, q_{1}\right) \in S \cap C \\ 0 & \text { otherwise }\end{cases}
其中
S
=
{
p
:
p
0
∈
[
0
,
1
]
,
p
1
∈
[
0
,
1
]
,
p
0
+
p
1
=
1
}
S
=
p
:
p
0
∈
[
0
,
1
]
,
p
1
∈
[
0
,
1
]
,
p
0
+
p
1
=
1
S={p:p_(0)in[0,1],p_(1)in[0,1],p_(0)+p_(1)=1} S=\left\{\mathbf{p}: p_{0} \in[0,1], p_{1} \in[0,1], p_{0}+p_{1}=1\right\} ,
n
0
=
0
n
0
=
0
n_(0)=0 n_{0}=0 是证明不存在的验证点数量(贡献者在这些位置判断错误),
n
1
=
7
n
1
=
7
n_(1)=7 n_{1}=7 是证明存在的验证点数量(贡献者在这些位置正确识别了真实类别)。根据公式(4),观察样本
n
=
(
n
0
=
0
,
n
1
=
7
)
n
=
n
0
=
0
,
n
1
=
7
n=(n_(0)=0,n_(1)=7) \mathbf{n}=\left(n_{0}=0, n_{1}=7\right) 的似然函数由此给出:
P
(
N
=
(
0
,
7
)
∣
q
)
=
7
!
(
0
!
)
(
7
!
)
(
q
0
)
0
(
q
1
)
7
P
(
N
=
(
0
,
7
)
∣
q
)
=
7
!
(
0
!
)
(
7
!
)
q
0
0
q
1
7
P(N=(0,7)∣q)=(7!)/((0!)(7!))(q_(0))^(0)(q_(1))^(7) P(\mathbf{N}=(0,7) \mid \mathbf{q})=\frac{7!}{(0!)(7!)}\left(q_{0}\right)^{0}\left(q_{1}\right)^{7}
根据公式(5),可以基于可用的验证点更新先验
f
(
q
)
f
(
q
)
f(q) f(\mathbf{q}) ,得到:
f
(
q
∣
N
=
(
0
,
7
)
)
∝
{
7
!
(
0
!
)
(
7
!
)
(
q
0
)
0
(
q
1
)
7
×
2
∀
(
q
0
,
q
1
)
∈
S
∩
C
0
otherwise
.
f
(
q
∣
N
=
(
0
,
7
)
)
∝
7
!
(
0
!
)
(
7
!
)
q
0
0
q
1
7
×
2
∀
q
0
,
q
1
∈
S
∩
C
0
otherwise
.
f(q∣N=(0,7))prop{[(7!)/((0!)(7!))(q_(0))^(0)(q_(1))^(7)xx2quad AA(q_(0),q_(1))in S nn C],[0quad" otherwise ".]:} f(\mathbf{q} \mid \mathbf{N}=(0,7)) \propto\left\{\begin{array}{l}
\frac{7!}{(0!)(7!)}\left(q_{0}\right)^{0}\left(q_{1}\right)^{7} \times 2 \quad \forall\left(q_{0}, q_{1}\right) \in S \cap C \\
0 \quad \text { otherwise } .
\end{array}\right.
同样,当贡献者支持特定位置不存在作物时(即,当
E
6
=
0
E
6
=
0
E_(6)=0 E_{6}=0 ),可以进行相同的计算,因此约束条件变为
C
=
{
p
:
p
0
>
p
1
}
C
=
p
:
p
0
>
p
1
C={p:p_(0) > p_(1)} C=\left\{\mathbf{p}: p_{0}>p_{1}\right\} 。为了说明,图 5 和图 6 展示了:(a)当未考虑志愿者表现信息时的初始均匀先验;(b)观察样本
n
n
n \mathbf{n} 的似然,即
P
(
N
=
(
n
0
,
n
1
)
∣
q
1
)
P
N
=
n
0
,
n
1
∣
q
1
P(N=(n_(0),n_(1))∣q_(1)) P\left(\mathbf{N}=\left(n_{0}, n_{1}\right) \mid q_{1}\right) ;(c)相应的更新分布
f
(
q
1
∣
n
)
f
q
1
∣
n
f(q_(1)∣n) f\left(q_{1} \mid \mathbf{n}\right) ;以及(d)当贡献者#6 分别支持存在和不存在时的期望散度
E
[
D
(
p
‖
Q
)
]
E
[
D
(
p
‖
Q
)
]
E[D(p||Q)] E[D(\mathbf{p} \| \mathbf{Q})] 。由于相同的程序可应用于每位志愿者,表 3 总结了十位主要贡献者的结果,提供了对应于期望散度最小值
E
[
D
(
p
‖
Q
)
]
E
[
D
(
p
‖
Q
)
]
E[D(p||Q)] E[D(\mathbf{p} \| \mathbf{Q})] 的
p
^
p
^
widehat(p) \widehat{\mathbf{p}} 值。
表3. 十位主要贡献者表现的最小散度近似值。
贡献者编号
E = 1
E
=
0
E
=
0
E=0 \mathrm{E}=0
#1
P
(
Z
=
1
l
P
(
Z
=
1
l
P(Z=1l \mathrm{P}(\mathrm{Z}=1 \mathrm{l} )
0.992
0.017
P
(
Z
=
0
∣
E
)
P
(
Z
=
0
∣
E
)
P(Z=0∣E) \mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})
0.008
0.983
#2
P
(
Z
=
1
∣
E
)
P
(
Z
=
1
∣
E
)
P(Z=1∣E) \mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})
0.990
0.044
P
(
Z
=
0
∣
E
)
P
(
Z
=
0
∣
E
)
P(Z=0∣E) \mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})
0.010
0.956
#3
P
(
Z
=
1
∣
E
)
P
(
Z
=
1
∣
E
)
P(Z=1∣E) \mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})
0.992
0.034
P
(
Z
=
0
∣
E
)
P
(
Z
=
0
∣
E
)
P(Z=0∣E) \mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})
0.008
0.966
#4
P
(
Z
=
1
∣
E
)
P
(
Z
=
1
∣
E
)
P(Z=1∣E) \mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})
0.831
0.089
P
(
Z
=
0
∣
E
)
P
(
Z
=
0
∣
E
)
P(Z=0∣E) \mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})
0.169
0.911
#5
P
(
Z
=
1
∣
E
)
P
(
Z
=
1
∣
E
)
P(Z=1∣E) \mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})
0.969
0.017
P
(
Z
=
0
∣
E
)
P
(
Z
=
0
∣
E
)
P(Z=0∣E) \mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})
0.031
0.983
#6
P
(
Z
=
1
∣
E
)
P
(
Z
=
1
∣
E
)
P(Z=1∣E) \mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})
0.931
0.066
P
(
Z
=
0
∣
E
)
P
(
Z
=
0
∣
E
)
P(Z=0∣E) \mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})
0.069
0.934
#7
P
(
Z
=
1
∣
E
)
P
(
Z
=
1
∣
E
)
P(Z=1∣E) \mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})
0.911
0.046
P
(
Z
=
0
∣
E
)
P
(
Z
=
0
∣
E
)
P(Z=0∣E) \mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})
0.089
0.954
#8
P
(
Z
=
1
∣
E
)
P
(
Z
=
1
∣
E
)
P(Z=1∣E) \mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})
0.931
0.103
P
(
Z
=
0
∣
E
)
P
(
Z
=
0
∣
E
)
P(Z=0∣E) \mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})
0.069
0.897
#9
P
(
Z
=
1
∣
E
)
P
(
Z
=
1
∣
E
)
P(Z=1∣E) \mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})
0.922
0.103
P
(
Z
=
0
∣
E
)
P
(
Z
=
0
∣
E
)
P(Z=0∣E) \mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})
0.078
0.897
#10
P
(
Z
=
1
∣
E
)
P
(
Z
=
1
∣
E
)
P(Z=1∣E) \mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})
0.857
0.164
P
(
Z
=
0
∣
E
)
P
(
Z
=
0
∣
E
)
P(Z=0∣E) \mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})
0.143
0.836
Contributor ID E = 1 E=0
#1 P(Z=1l ) 0.992 0.017
P(Z=0∣E) 0.008 0.983
#2 P(Z=1∣E) 0.990 0.044
P(Z=0∣E) 0.010 0.956
#3 P(Z=1∣E) 0.992 0.034
P(Z=0∣E) 0.008 0.966
#4 P(Z=1∣E) 0.831 0.089
P(Z=0∣E) 0.169 0.911
#5 P(Z=1∣E) 0.969 0.017
P(Z=0∣E) 0.031 0.983
#6 P(Z=1∣E) 0.931 0.066
P(Z=0∣E) 0.069 0.934
#7 P(Z=1∣E) 0.911 0.046
P(Z=0∣E) 0.089 0.954
#8 P(Z=1∣E) 0.931 0.103
P(Z=0∣E) 0.069 0.897
#9 P(Z=1∣E) 0.922 0.103
P(Z=0∣E) 0.078 0.897
#10 P(Z=1∣E) 0.857 0.164
P(Z=0∣E) 0.143 0.836 | Contributor ID | | E = 1 | $\mathrm{E}=0$ |
| :--- | :--- | :--- | :--- |
| #1 | $\mathrm{P}(\mathrm{Z}=1 \mathrm{l}$ ) | 0.992 | 0.017 |
| | $\mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})$ | 0.008 | 0.983 |
| #2 | $\mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})$ | 0.990 | 0.044 |
| | $\mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})$ | 0.010 | 0.956 |
| #3 | $\mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})$ | 0.992 | 0.034 |
| | $\mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})$ | 0.008 | 0.966 |
| #4 | $\mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})$ | 0.831 | 0.089 |
| | $\mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})$ | 0.169 | 0.911 |
| #5 | $\mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})$ | 0.969 | 0.017 |
| | $\mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})$ | 0.031 | 0.983 |
| #6 | $\mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})$ | 0.931 | 0.066 |
| | $\mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})$ | 0.069 | 0.934 |
| #7 | $\mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})$ | 0.911 | 0.046 |
| | $\mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})$ | 0.089 | 0.954 |
| #8 | $\mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})$ | 0.931 | 0.103 |
| | $\mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})$ | 0.069 | 0.897 |
| #9 | $\mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})$ | 0.922 | 0.103 |
| | $\mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})$ | 0.078 | 0.897 |
| #10 | $\mathrm{P}(\mathrm{Z}=1 \mid \mathrm{E})$ | 0.857 | 0.164 |
| | $\mathrm{P}(\mathrm{Z}=0 \mid \mathrm{E})$ | 0.143 | 0.836 |
图 5. (a) 当未考虑志愿者表现信息时的初始均匀先验;(b) 观察样本
n
n
n \mathbf{n} 的似然,即
P
(
N
=
(
n
0
,
n
1
)
∣
q
1
)
P
N
=
n
0
,
n
1
∣
q
1
P(N=(n_(0),n_(1))∣q_(1)) P\left(\mathbf{N}=\left(n_{0}, n_{1}\right) \mid q_{1}\right) ;(c) 相应的更新分布
f
(
q
1
∣
n
)
f
q
1
∣
n
f(q_(1)∣n) f\left(q_{1} \mid \mathbf{n}\right) ;以及(d) 在
E
6
=
1
E
6
=
1
E_(6)=1 E_{6}=1 情况下的期望散度
E
[
D
(
p
|
∣
Q
)
]
E
D
(
p
|
∣
Q
)
]
E[D(p|∣Q)]:} E\left[D(\mathbf{p}|\mid \mathbf{Q})]\right. 。
图 6. (a) 当未考虑志愿者表现信息时的初始均匀先验;(b) 观察样本 n 的似然,即
P
(
N
=
(
n
0
,
n
1
)
∣
q
0
)
P
N
=
n
0
,
n
1
∣
q
0
P(N=(n_(0),n_(1))∣q_(0)) P\left(\mathbf{N}=\left(n_{0}, n_{1}\right) \mid q_{0}\right) ;(c) 相应的更新分布
f
(
q
0
∣
n
)
f
q
0
∣
n
f(q_(0)∣n) f\left(q_{0} \mid \mathbf{n}\right) ;以及(d) 在
E
6
=
0
E
6
=
0
E_(6)=0 E_{6}=0 情况下的期望散度
E
[
D
(
p
‖
Q
)
]
E
[
D
(
p
‖
Q
)
]
E[D(p||Q)] E[D(\mathbf{p} \| \mathbf{Q})] 。
3.2. 特定位置多重贡献的融合
在众包活动中,志愿者共调查了 32,781 个像素点,其中包括 293 个仅由单个志愿者标注的像素;而绝大多数像素至少由两名贡献者检查。因此,可以使用 BDF 方法在每个位置结合多名志愿者的意见。为此,假设考虑一个特定像素点,共有
n
n
n n 名表现未知的志愿者对耕地的存在发表意见,其中
n
0
n
0
n_(0) n_{0} 名志愿者分配了
E
i
=
0
E
i
=
0
E_(i)=0 E_{i}=0 ,即有
n
1
=
n
−
n
0
n
1
=
n
−
n
0
n_(1)=n-n_(0) n_{1}=n-n_{0} 名志愿者分配了
E
i
=
1
E
i
=
1
E_(i)=1 E_{i}=1 。
先验分布基于手头的验证集进行评估,得到
P
^
(
Z
0
=
0
)
=
0.768
P
^
Z
0
=
0
=
0.768
hat(P)(Z_(0)=0)=0.768 \hat{P}\left(Z_{0}=0\right)=0.768 和
P
^
(
Z
0
=
1
)
=
0.232
P
^
Z
0
=
1
=
0.232
hat(P)(Z_(0)=1)=0.232 \hat{P}\left(Z_{0}=1\right)=0.232 。因此,方程(6)现在简化为:
P
^
(
Z
=
0
∣
e
)
∝
0.768
1
−
n
(
0.8
)
n
0
(
0.2
)
n
−
n
0
P
^
(
Z
=
1
∣
e
)
∝
0.232
1
−
n
(
0.2
)
n
0
(
0.8
)
n
−
n
0
P
^
(
Z
=
0
∣
e
)
∝
0.768
1
−
n
(
0.8
)
n
0
(
0.2
)
n
−
n
0
P
^
(
Z
=
1
∣
e
)
∝
0.232
1
−
n
(
0.2
)
n
0
(
0.8
)
n
−
n
0
{:[ hat(P)(Z=0∣e)prop0.768^(1-n)(0.8)^(n_(0))(0.2)^(n-n_(0))],[ hat(P)(Z=1∣e)prop0.232^(1-n)(0.2)^(n_(0))(0.8)^(n-n_(0))]:} \begin{aligned}
& \hat{P}(Z=0 \mid \mathbf{e}) \propto 0.768^{1-n}(0.8)^{n_{0}}(0.2)^{n-n_{0}} \\
& \hat{P}(Z=1 \mid \mathbf{e}) \propto 0.232^{1-n}(0.2)^{n_{0}}(0.8)^{n-n_{0}}
\end{aligned}
如果所有志愿者在特定位置意见一致,预计融合贡献的质量会随着志愿者数量的增加而提高[37]。BDF 方法也是如此,因为如果
P
^
(
Z
=
1
∣
E
i
=
1
)
<
0.5
∀
i
P
^
Z
=
1
∣
E
i
=
1
<
0.5
∀
i
hat(P)(Z=1∣E_(i)=1) < 0.5 AA i \hat{P}\left(Z=1 \mid E_{i}=1\right)<0.5 \forall i ,结果将趋近于零;而如果
P
^
(
Z
=
1
∣
E
i
=
1
)
>
0.5
∀
i
P
^
Z
=
1
∣
E
i
=
1
>
0.5
∀
i
hat(P)(Z=1∣E_(i)=1) > 0.5 AA i \hat{P}\left(Z=1 \mid E_{i}=1\right)>0.5 \forall i ,结果将趋近于一。
3.3. 融合意见插值
一旦在每个位置融合了多个贡献,就应用贝叶斯最大熵(BME)软信息方法对整个埃塞俄比亚的众包数据进行插值。空间结构的估计计算基于 500 个验证点,这些点既有众包数据,也有融合志愿者意见的位置,这些意见实际上可以视为硬数据,即概率为
P
^
(
Z
=
0
∣
e
)
>
0.99
P
^
(
Z
=
0
∣
e
)
>
0.99
widehat(P)(Z=0∣e) > 0.99 \widehat{P}(Z=0 \mid \mathbf{e})>0.99 的位置或概率为
P
^
(
Z
=
1
∣
e
)
>
0.99
P
^
(
Z
=
1
∣
e
)
>
0.99
widehat(P)(Z=1∣e) > 0.99 \widehat{P}(Z=1 \mid \mathbf{e})>0.99 的位置。插值计算基于 仅众包数据(此步骤不使用验证点)。相应的插值地图见图7。
图7. 基于众包数据的耕地地图,显示埃塞俄比亚“作物”类别的观测概率。
插值的质量取决于众包信息的空间密度和数据的空间结构。在我们的具体案例中,插值的质量预计较高,因为众包数据采样具有非常高的空间密度。然而,在许多情况下,众包信息并不具备如此高的空间密度。在这些情况下,插值可能导致较差的结果,融合只能在众包数据可用的局部区域进行。当只有少量众包数据可用时,它们可以在众包信息可用的少数位置局部更新土地覆盖产品,也可以作为收集训练样本的替代来源,并与卫星影像结合使用以生成土地覆盖图[38,39]。
3.4. 使用贝叶斯数据融合(BDF)将插值地图与 CCI-LC 产品结合起来
然后需要通过依赖条件独立假设的 BDF 方法将该插值地图与 CCI-LC 产品结合起来,以便
p
(
e
0
p
,
l
0
∣
z
0
)
=
p
(
e
0
p
∣
z
0
)
p
(
l
0
∣
z
0
)
p
e
0
p
,
l
0
∣
z
0
=
p
e
0
p
∣
z
0
p
l
0
∣
z
0
p(e_(0)^(p),l_(0)∣z_(0))=p(e_(0)^(p)∣z_(0))p(l_(0)∣z_(0)) p\left(e_{0}^{p}, l_{0} \mid z_{0}\right)=p\left(e_{0}^{p} \mid z_{0}\right) p\left(l_{0} \mid z_{0}\right) 。换句话说,在预测位置
x
0
x
0
x_(0) x_{0} ,从 CCI-LC 产品和众包数据得出的类别在给定真实类别的条件下是相互独立的。由于融合地图的结果依赖于该条件独立假设,因此验证其是否成立是非常重要的。为了检验手头众包数据的这一假设,采用了条件独立性的似然检验[40]。一般来说,设
r
,
s
r
,
s
r,s r, s 和
t
t
t t 分别为众包数据的类别数、土地覆盖产品的类别数以及验证集的类别数(在我们具体案例中为
r
=
s
=
t
=
2
r
=
s
=
t
=
2
r=s=t=2 r=s=t=2 )。设
i
∈
[
1
,
⋯
,
r
]
,
j
∈
[
1
,
⋯
,
s
]
i
∈
[
1
,
⋯
,
r
]
,
j
∈
[
1
,
⋯
,
s
]
i in[1,cdots,r],j in[1,cdots,s] i \in[1, \cdots, \mathrm{r}], j \in[1, \cdots, \mathrm{~s}] 和
k
∈
[
1
,
⋯
,
t
]
k
∈
[
1
,
⋯
,
t
]
k in[1,cdots,t] k \in[1, \cdots, \mathrm{t}] 。在条件独立的零假设
(
H
0
)
H
0
(H_(0)) \left(H_{0}\right) 下,条件概率由下式给出:
H
0
≡
p
i
j
∣
k
=
p
i
∣
k
p
j
∣
k
H
1
≡
∃
p
i
j
∣
k
≠
p
i
∣
k
p
j
∣
k
→
A
H
0
≡
G
2
≤
χ
1
−
α
2
(
r
−
1
)
(
s
−
1
)
t
H
0
≡
p
i
j
∣
k
=
p
i
∣
k
p
j
∣
k
H
1
≡
∃
p
i
j
∣
k
≠
p
i
∣
k
p
j
∣
k
→
A
H
0
≡
G
2
≤
χ
1
−
α
2
(
r
−
1
)
(
s
−
1
)
t
{:[H_(0)-=p_(ij∣k)=p_(i∣k)p_(j∣k)],[H_(1)-=EEp_(ij∣k)!=p_(i∣k)p_(j∣k)],[rarr AH_(0)-=G^(2) <= chi_(1-alpha)^(2)(r-1)(s-1)t]:} \begin{gathered}
H_{0} \equiv p_{i j \mid k}=p_{i \mid k} p_{j \mid k} \\
H_{1} \equiv \exists p_{i j \mid k} \neq p_{i \mid k} p_{j \mid k} \\
\rightarrow A H_{0} \equiv G^{2} \leq \chi_{1-\alpha}^{2}(r-1)(s-1) t
\end{gathered}
其中
log
log
log \log -似然比
G
2
G
2
G^(2) G^{2} 服从卡方分布,其参数为:
G
2
=
2
∑
i
,
j
,
k
N
i
j
k
ln
N
i
j
k
n
p
^
i
j
k
∼
n
→
∞
χ
2
(
r
−
1
)
(
s
−
1
)
t
G
2
=
2
∑
i
,
j
,
k
N
i
j
k
ln
N
i
j
k
n
p
^
i
j
k
∼
n
→
∞
χ
2
(
r
−
1
)
(
s
−
1
)
t
G^(2)=2sum_(i,j,k)N_(ijk)ln((N_(ijk))/(n hat(p)_(ijk)))∼^(n rarr oo)chi^(2)(r-1)(s-1)t G^{2}=2 \sum_{i, j, k} N_{i j k} \ln \frac{N_{i j k}}{n \hat{p}_{i j k}} \stackrel{n \rightarrow \infty}{\sim} \chi^{2}(r-1)(s-1) t
其中
n
=
500
n
=
500
n=500 n=500 ,
N
i
j
k
N
i
j
k
N_(ijk) N_{i j k} 是众包数据的观测计数,类别
i
,
j
i
,
j
i,j i, j 和
k
k
k k 被联合观测。对于我们的数据,条件独立假设显然是可接受的,因为
G
2
=
0.2511
<
χ
0.95
2
(
2
)
=
5.991
G
2
=
0.2511
<
χ
0.95
2
(
2
)
=
5.991
G^(2)=0.2511 < chi_(0.95)^(2)(2)=5.991 G^{2}=0.2511<\chi_{0.95}^{2}(2)=5.991 ,对应的
p
p
p p 值为
(
p
v
)
p
v
(p_(v)) \left(p_{v}\right) ,等于 0.8820 。这一结果确保了 BDF 是一种适合在我们的背景下融合插值众包贡献和土地覆盖产品的方法(见图 8)。
虽然理论上并不需要非常大的众包数据集来使用该方法,但显然如果手头只有少量众包数据,众包数据对先前土地覆盖产品更新的影响将较小。该方法的效益当然会受到众包数据量的影响。在我们的具体案例中,融合的效益预计很高,因为众包数据以非常高的空间密度采样。然而,在许多情况下,众包信息的采样空间密度并不高,融合的效益只会在局部出现,即在手头有少量众包数据的地方。
图8. 基于众包数据与土地覆盖产品融合的农田地图,显示埃塞俄比亚“作物”类别的观测概率。
3.5. 三种土地覆盖图的比较
在我们的具体案例中,比较了三个不同的产品用于埃塞俄比亚的农田制图:仅基于土地覆盖产品得出的地图,仅基于众包数据插值得出的地图,以及结合前两者的最终融合地图。表 2 显示土地覆盖产品存在较高的误报错误,因为它将“作物”标签分配给许多实际上没有农田的像素。可以计算出,如果土地覆盖产品显示存在作物,实际观察到作物的概率仅为
51.89
%
(
P
(
51.89
%
(
P
(
51.89%(P( 51.89 \%(\mathrm{P}( Validation
=
1
ICCI
=
1
)
=
0.52
)
=
1
ICCI
=
1
)
=
0.52
)
=1ICCI=1)=0.52) =1 \mathrm{ICCI}=1)=0.52) 。然而,土地覆盖产品在分配“无作物”标签时表现更好,准确率为
P
(
P
(
P( P( Validation
=
2
∣
C
C
I
=
2
)
=
0.95
=
2
∣
C
C
I
=
2
)
=
0.95
=2∣CCI=2)=0.95 =2 \mid C C I=2)=0.95 。另一方面,基于众包数据插值的地图在正确分配“作物”标签方面优于土地覆盖产品,准确率为
P
(
P
(
P( P( Validation
=
1
∣
=
1
∣
=1∣ =1 \mid crowdsourcing
=
1
)
=
0.82
=
1
)
=
0.82
=1)=0.82 =1)=0.82 ,而“无作物”标签的分配表现与土地覆盖产品相似,准确率为
P
(
P
(
P( P( Validation
=
2
∣
=
2
∣
=2∣ =2 \mid crowdsourcing
=
2
)
=
0.92
=
2
)
=
0.92
=2)=0.92 =2)=0.92 。
在我们的具体案例中,预计将众包信息与土地覆盖产品结合起来,准确性方面可能不会比单独使用众包数据获得的结果有显著提升。事实上,在土地覆盖标记为作物的区域,土地覆盖产品对融合图的影响不大,因为其表现不如众包信息。此外,在土地覆盖标记为“非作物”的区域,土地覆盖产品与众包信息通常是一致的。基于这些适用于本案例的非常具体的原因,融合图预计会产生与基于众包数据的插值图相似的结果。
为了比较这三种产品的质量,分别计算了它们的混淆矩阵(表 2、4 和 5)。对于使用众包信息制作的两张地图,这些矩阵根据基于相关样本的两个多项分布比较的卡方检验(
χ
o
b
s
2
=
0.667
,
p
χ
o
b
s
2
=
0.667
,
p
chi_(obs)^(2)=0.667,p \chi_{o b s}^{2}=0.667, p -值
=
0.4142
=
0.4142
=0.4142 =0.4142 )未显示显著差异。这些地图显示出比仅基于土地覆盖产品的地图(
(
76.8
%
)
(
76.8
%
)
(76.8%) (76.8 \%) )更高的整体准确率(
98
%
98
%
98% 98 \% )。McNemar 检验[41]证实该差异高度显著(
p
v
≃
10
−
10
p
v
≃
10
−
10
p_(v)≃10^(-10) p_{v} \simeq 10^{-10} )。
表4. 基于众包数据的插值地图的混淆矩阵(共500个像素)。
插值 众包
作物
无作物
生产者准确率(%)
作物
95
29
76.61
无作物
21
355
94.41
用户准确率(%)
81.90
92.45
98.00
Interpolation Crowdsourcing
Crop No Crop Producer's Accuracy (%)
Crop 95 29 76.61
No crop 21 355 94.41
User's Accuracy (%) 81.90 92.45 98.00 | Interpolation Crowdsourcing | | | |
| :--- | :--- | :--- | :--- |
| | Crop | No Crop | Producer's Accuracy (%) |
| Crop | 95 | 29 | 76.61 |
| No crop | 21 | 355 | 94.41 |
| User's Accuracy (%) | 81.90 | 92.45 | 98.00 |
表 5. 基于 CCI-LC 产品与众包数据融合的耕地图混淆矩阵(共 500 个像素)。
CCI-LC-众包融合
作物
无作物
生产者准确率(%)
作物
94
30
75.81
无作物
20
356
94.68
用户准确率 (%)
82.46
92.23
98.00
Fusion CCI-LC-Crowdsourcing
Crop No Crop Producer's Accuracy (%)
Crop 94 30 75.81
No crop 20 356 94.68
User's Accuracy (%) 82.46 92.23 98.00 | Fusion CCI-LC-Crowdsourcing | | | |
| :--- | :--- | :--- | :--- |
| | Crop | No Crop | Producer's Accuracy (%) |
| Crop | 94 | 30 | 75.81 |
| No crop | 20 | 356 | 94.68 |
| User's Accuracy (%) | 82.46 | 92.23 | 98.00 |
为了便于视觉比较并展示结果,选取了塔纳湖周围的较小区域来比较三张农田地图(图9)。两张包含众包数据的地图 数据显示出非常相似的模式,差异出现在土地覆盖图将“无作物”标签分配的区域,这与仅基于众包数据的地图相反。可以看出,对于融合后的地图,塔纳湖的边界比众包地图更为清晰。
在 2012 年举行的众包活动中,志愿者调查的 77,465 个像素点是从全国范围内随机选取的[3]。然而,由于土地覆盖产品在标注“非农作物”类别时表现良好,众包活动本可以通过聚焦于土地覆盖产品表现较差的区域(即标注为“农作物”的区域)来进行优化。在 CCI-LC 产品中,
40.8
%
40.8
%
40.8% 40.8 \% 的像素被标注为农田。由于调查其他像素点预期收益较小,采样本可以仅限于这些像素点,从而在相同的采样努力下增加有用的众包信息量。
图 9. 塔纳湖周边的农田地图,显示基于(a) CCI-LC 产品;(b) 基于志愿者意见的插值地图;(c) CCI-LC 产品与志愿者意见融合后的“农作物”类别观察概率。
在 2012 年环塔纳湖的调查活动中,在志愿者调查的总共 2091 个像素中,只有 857 个像素被 CCI-LC 产品标记为“作物”。如果所有的采样工作都集中在这些被标记为“作物”的像素上,产品的质量可以在不增加额外成本的情况下显著提高。为了说明优化众包活动的潜在好处,要求两名志愿者在那些被标记为“非作物”的像素中额外调查
2091
−
857
=
1234
2091
−
857
=
1234
2091-857=1234 2091-857=1234 个像素(图 10)。融合结果的地图现在考虑了这些信息 这1234条额外的众包信息,展示了相应的改进(图11)。
图 10. 环塔纳湖采样像素,(a)2012 年进行的众包活动采样,(b)基于 CCI-LC 产品性能优化采样时的像素分布。
图 11. 环塔纳湖耕地地图,显示基于(a)CCI-LC 产品与志愿者意见融合的“作物”类别观测概率,以及(b)基于 CCI-LC 产品性能优化采样后,CCI-LC 产品与志愿者意见融合的“作物”类别观测概率。
4. 结论
准确的农田空间映射对于许多应用来说是必不可少的,但仅基于卫星数据获得的土地覆盖产品的农田地图远非完美。本文提出,将众包数据与土地覆盖产品结合,可能会提高最终农田地图的准确性。然而,在许多情况下,评估志愿者在众包活动中的贡献质量可能是困难的。
在本文中,展示了如何通过最小散度和最大熵原理来评估贡献者的表现。贡献者提供的信息首先以不等式约束的形式编码,随后计算表现估计。本文显示的结果表明,即使没有关于贡献者表现的先验信息,将众包数据纳入农田空间预测也是值得的。将 CCI-LC 产品与众包信息融合得到的地图相比仅基于 CCI-LC 数据集的农田地图,整体精度更高。然而,对于本文所展示的埃塞俄比亚农田制图的具体案例,融合地图与仅基于众包数据的农田地图相近。差异仅出现在少数几个区域,在这些区域中,土地覆盖产品与众包地图存在分歧,土地覆盖产品将其标记为“非农作物”。 这是一个直接的结果,因为 CCI-LC 产品在分配“作物”标签时表现不佳,而在分配“非作物”标签时,众包信息的表现接近 CCI-LC 产品。
显然,融合图相较于仅基于众包数据的农田图的低收益,可以看作是两种信息来源完全独立收集的结果。实际上,众包活动是在不考虑土地覆盖产品结果的情况下进行的,尽管在众包之前本可以进行先期评估,从而通过聚焦于 CCI-LC 产品已知存在缺陷的区域(即当其标记为“作物”时)来轻松优化众包活动,且无需额外成本。因此,对遥感数据质量的合理先期评估能够显著提升后续众包活动的效益以及随后融合信息的效益,通过最大化利用每种信息来源的优势。基于埃塞俄比亚农田制图的这一单一应用,我们认为本文也强调了众包数据在改进土地覆盖产品方面的巨大潜力。基于这一目标,所提出的 BDF 方法及相应的处理框架相比传统方法,似乎提供了一种有前景的替代方案。
作者贡献:Sarah Gengler 实施了数据分析,并撰写了手稿。Patrick Bogaert 监督了该研究,并对手稿进行了重要修订。
利益冲突:作者声明无利益冲突。
参考文献
Fritz, S.; McCallum, I.; Schill, C.; Perger, C.; Grillmayer, R.; Achard, F.; Kraxner, F.; Obersteiner, M. Geo-Wiki.Org :利用众包改善全球土地覆盖。遥感,2009,1,345-354。
Fritz, S.; You, L.; Bun, A.; See, L.; McCallum, I.; Schill, C.; Perger, C.; Liu, J.; Hansen, M.; Obersteiner, M. 撒哈拉以南非洲的农田:使用五个土地覆盖数据集的协同方法。地球物理研究快报,2011,38,doi:10.1029/2010gl046213。
See, L.; McCallum, I.; Fritz, S.; Perger, C.; Kraxner, F.; Obersteiner, M.; Baruah, U.D.; Mili, N.; Kalita, N.R. 利用众包绘制埃塞俄比亚农田地图。国际地球科学杂志,2013,4,6-13。
See, L.; Fritz, S.; You, L.; Ramankutty, N.; Herrero, M.; Justice, C.; Becker-Reshef, I.; Thornton, P.; Erb, K.; Gong, P.; 等。改进的全球耕地数据作为粮食安全的重要组成部分。全球粮食安全,2015,4,37-45。
Hansen, M.C.; DeFries, R.S.; Townshend, J.R.G. 使用分类树方法进行 1 公里空间分辨率的全球土地覆盖分类。国际遥感杂志,2000,21,1331-1364。
Jung, M.; Henkel, K.; Herold, M.; Churkina, G. 利用全球土地覆盖产品的协同效应进行碳循环建模。遥感环境,2006,101,534-553。
Pérez-Hoyos, A.; García-Haro, F.; San-Miguel-Ayanz, J. 通过融合不同土地覆盖产品生成协同土地覆盖图的方法。国际应用地球观测与地理信息杂志,2012,19,72-87。
See, L.; Fritz, S. 一种比较和改进土地覆盖数据集的方法:应用于 GLC-2000 和 MODIS 土地覆盖产品。IEEE 地球科学与遥感汇刊,2006,44,1740-1746。
Xu, G.; Zhang, H.; Chen, B.; Zhang, H.; Yan, J.; Chen, J.; Che, M.; Lin, X.; Dou, X. 一种基于贝叶斯的方法,用于从现有土地覆盖产品生成协同土地覆盖图。遥感,2014,6,5589-5613。
Cardille, J.A. 通过合并卫星影像和人口普查数据表征亚马逊地区农业用地模式。博士论文,威斯康星大学麦迪逊分校,美国威斯康星州麦迪逊,2002 年。
Cardille, J.A.; Clayton, M.K. 一种基于回归树的方法,用于整合多尺度收集的土地覆盖和土地利用数据。环境生态统计,2007,14,161-179。
Hurtt, G.C.; Rosentrater, L.; Frolking, S.; Moore, B. 连接遥感土地覆盖估计与土地利用人口普查统计数据,以生成美国本土土地利用地图。全球生物地球化学循环,2001 年,15 卷,673-685 页。
Fonte, C.C.; Bastin, L.; See, L.; Foody, G.; Lupia, F. VGI 在土地覆盖地图验证中的可用性。国际地理信息科学杂志,2015 年,29 卷,1269-1291 页。
Muller, C.; Chapman, L.; Johnston, S.; Kidd, C.; Illingworth, S.; Foody, G.; Overeem, A.; Leigh, R. 气候与大气科学的众包:现状与未来潜力。国际气候学杂志,2015 年,35 卷,3185-3203 页。
Poser, K.; Dransch, D. 志愿地理信息在灾害管理中的应用及快速洪水损害评估。地理信息学,2010 年,64 卷,89-98 页。
Roche, S.; Propeck-Zimmermann, E.; Mericskay, B. GeoWeb 与危机管理:志愿地理信息的问题与展望。GeoJournal 2011, 78, 21-40。
Zook, M.; Graham, M.; Shelton, T.; Gorman, S. 志愿地理信息与众包灾难救援:海地地震案例研究。World Med. Health Policy 2010, 2, 6-32。
Coleman, D.J.; Sabone, B.; Nkhwanana, N. 向权威数据库志愿提供地理信息:将贡献者动机与项目效果联系起来。Geomatica 2013, 64, 383-396。
Sui, D.; Elwood, S.; Goodchild, M. 众包地理知识;Springer:德国柏林,2013 年。
Goodchild, M.F.; Glennon, J.A. 利用众包地理信息进行灾害响应:一个研究前沿。国际数字地球杂志 2010, 3, 231-241。
Goodchild, M.F.; Li, L. 确保志愿地理信息的质量。空间统计 2012, 1, 110-120。
Hunter, J.; Alabri, A.; Ingen, C.V. 评估公民科学数据的质量和可信度。并发计算实践与经验 2013, 25, 454-466。
Comber, A.; See, L.; Fritz, S.; Van der Velde, M.; Perger, C.; Foody, G. 使用控制数据确定关于土地覆盖的志愿地理信息的可靠性。国际应用地球观测与地理信息杂志 2013, 23, 37-48。
Bogaert, P.; Gengler, S. MaxEnt/MinDiv 问题的 MinNorm 近似用于概率表。在贝叶斯推断与最大熵方法科学与工程会议 MaxEnt 2014 论文集,法国安布瓦兹,2014 年 9 月 21-26 日;第 287-296 页。
Gengler, S.; Bogaert, P. 用于环境科学中类别变量空间预测的贝叶斯数据融合。在贝叶斯推断与最大熵方法科学与工程会议 MaxEnt 2013 论文集,澳大利亚堪培拉,2013 年 9 月 15-20 日;第 88-93 页。
Gengler, S.; Bogaert, P. 应用于土壤排水类别空间制图的贝叶斯数据融合。数学地球科学,2015,48,79-88。
Negash, M.; Swinnen, J.F. 生物燃料与粮食安全:来自埃塞俄比亚的微观证据。能源政策,2013,61,963-976。
Waldner, F.; Fritz, S.; Di Gregorio, A.; Defourny, P. 制定优先级以聚焦耕地制图活动:现有全球、区域和国家耕地地图的适用性评估。遥感,2015,7,7959-7986。
Tang, W.; Lease, M. 半监督共识标注用于众包。在 2011 年 SIGIR 信息检索众包研讨会论文集,北京,中国,2011 年 7 月 28 日;第 36-41 页。