复杂地形的格网人口数据集的比较评估:对中国西南地区的研究
接受日期:2020 年 9 月 17 日
(C) Springer Nature B.V. 2020
摘要
高分辨率空间格网单元的人口估计数据可以反映人口的详细空间分布,对流行病学研究、灾害风险评估和公共资源分配非常有价值。然而,选择数据源和生成格网人口数据集的方法可能会引入空间偏差,特别是在地理复杂的地区。我们评估了 2015 年四个格网人口数据集在中国西南地区滇桂黔地区的表现:世界人口格网第 4 版(GPW4)、全球人类定居(GHS)、LandScan 和 WorldPop。在城镇尺度上,我们发现 GHS 和 WorldPop 最接近用于验证的 2015 年人口数据。在城镇内部尺度上,由于不存在空间细分的人口验证数据,我们将每个数据集与谷歌地球高分辨率图像进行比较,发现 WorldPop 最接近可以从图像中推断出的人口分布。我们得出结论,总体而言,WorldPop 的表现优于 GPW、GHS 和 LandScan。
关键字 网格人口数据集
评估。中国西南部
GPW4
GHS。LandScan
WorldPop
介绍
人口是影响社会和经济发展的关键因素之一。可靠的人口数据可用作广泛公共规划和研究的关键组成部分,包括流行病学研究、健康负担估计和灾害风险评估(Fang 等,2014 年;Linard 等,2010 年;Ye 等,2012 年;Snow 等,2005 年;Calka 等,2017 年;Leyk 等,2019 年)。因此,在各个学科中对高质量人口数据的需求日益增加(Gaughan 等,2015 年;Freire 等,2020 年)。尽管对高空间分辨率人口数据的需求显而易见,但传统的从统计机构获得的人口数据仅提供每个空间单元中的总人口。然而,一个地区的人口可能表现出很高的空间变异性(Briggs 等,2007 年)。具体来说,先前的研究指出,在将人口数据聚合到不同级别的行政单元时,可能会出现可修改的区域单元问题(MAUP)由于缩放和分区效应(Flowerdew,2011 年;Su 等,2010 年)。此外,环境和健康研究通常需要将人口数据与其他空间数据集结合使用(例如。土地利用、环境属性和气候数据)。人口和其他数据之间空间尺度和聚合单位的不一致可能导致更严重的 MAUP 问题,这可能阻碍多源空间数据的融合(Langford 等人,2008 年)。
为了解决与传统人口数据相关的问题,人口空间化研究已经进行,以重新组织人口数据,从不规则的行政单位到规则的网格。与普查或统计人口数据(通常从统计年鉴或其他统计资料中获取的人口数据)相比,网格数据可以反映行政区域内人口的空间变异性,并且更容易与其他空间数据集结合。已经进行了许多关于人口空间化方法的研究,包括各种建模因素(Gaughan 等,2016 年;贾等,2014 年;齐等,2015 年;Silvan-Cardenas 等,2010 年;Tatem 等,2007 年;Wardrop 等,2018 年;叶等,2019 年;曾等,2011 年)。已经开发了几个全球或区域性的网格人口数据集,包括世界人口网格(GPW)、全球农村-城市映射项目(GRUMP)、WorldPop、全球人类定居(GHS)、LandScan、全球资源信息数据库(UNEP/GRID)、GEOSTAT、OpenPopGrid 和中国网格人口(CnPop)数据集。 这些数据集提供了不同年份和空间尺度的格网人口信息,可以有效用于流行病学研究、风险评估和气候行动(McGranahan 等,2007 年;Flies 等,2016 年;Mondal 和 Tatem,2012 年;Tatem 等,2011 年;Ouma 等,2018 年;Krishnatreya 等,2014 年;Larmarange 和 Bendaud,2014 年)。
为了评估现有格网人口数据集的可靠性,进行了一些比较研究。基于 1999 年肯尼亚的人口普查数据,Hay 等人(2005 年)评估了 GPW2、GPW3、GRUMP、UNEP/GRID 和 LandScan 数据集,发现 GRUMP 在次地区水平表现最佳,其次是 GPW3。Sabesan 等人(2007 年)比较了 LandScan 和 GRUMP 数据集在美国、英国和伊朗的表现,发现它们在空间模式方面差异很大。Tatem 等人(2011 年)比较了 LandScan、GPW、GRUMP 和 UNEP 在评估恶性疟原虫感染风险的国家级人口方面的表现,并指出没有数据集明显优于其他数据集。Hall 等人(2012 年)在瑞典验证了欧盟 27 国、GPW 3、GRUMP 和 LandScan,并指出 LandScan 表现最佳。Bai 等人(2018 年)将 GPW3、GRUMP、WorldPop 和 CnPop 与中国 2010 年人口普查数据进行比较,发现 WorldPop 的准确性最高。尽管一些研究评估了格网 人口数据如上所述,其中大部分主要基于 2000 年和 2010 年的早期人口数据。此外,所有这些现有的验证研究仅在行政区级别进行,但无法有效验证行政区内的人口分布。
在这项研究中,评估了 2015 年现有的四个全球格网人口数据集(GPW4、GHS、LandScan 和 WorldPop)在中国西南部复杂地形区域的城镇和城镇内尺度上的表现。本研究的目标是(1)比较四个人口数据集之间的空间模式,(2)利用统计人口数据作为参考,评估四个数据集在城镇尺度上的准确性,(3)利用 Google Earth 高分辨率图像作为参考,评估四个数据集在城镇内尺度上的可靠性,(4)讨论导致数据集之间差异的潜在驱动因素。
材料和方法
学习区域
滇桂黔(DGQ)地区位于中国西南部,包括云南省、贵州省和广西壮族自治区(图 1)。研究区域涵盖
,2015 年人口为 1.2673 亿。该地区广泛分布的碳酸盐岩形成了世界上最发达的岩溶地貌(Huang 等,2016 年)。复杂的地形、严重的岩石荒漠化和交通不便导致该地区人口分布极不均匀。此外,由于频繁的自然灾害和困难的生产生活条件,滇桂黔地区是中国最贫困的地区之一。准确的人口分布信息对于扶贫、防灾减灾、公共资源配置和公共卫生至关重要。
统计人口数据
中国的行政区划包括四个级别:省(最大)、地区、县和镇(最小)。我们从 2016 年《中国县级统计年鉴(乡镇卷)》中收集了镇级统计人口数据,该数据包括 2015 年镇级区的常住人口,以评估格网人口数据集。在中国,全国人口普查是在年份以 0 结尾的年份进行的。在两次人口普查之间的年份,每年进行一次全国人口抽样调查,以得出年度常住人口,而在全国人口普查后的 5 年,进行一次全国人口抽样调查以获得更好的代表性和准确性。最近一次全国人口普查是在 2015 年进行的,涵盖了 213 万人(占中国总人口的百分之几)。考虑到样本数量庞大,抽样调查可以有效反映两次人口普查之间的人口变化。根据抽样调查数据、以往的人口普查数据和户籍数据,中国国家统计局得出了常住人口数据。尽管 2015 年的统计人口数据无法达到人口普查的准确性,但仍然是评估的可靠参考
图 1 研究区域概述
格网人口数据集。2015 年统计年鉴未提供完整的镇级人口数据,但提供了研究区域内 4021 个镇级行政区中 3593 个镇级行政区的常住人口。
城镇级行政边界数据是从中国地理条件普查数据库中以 1:100,000 的比例尺获取的。数据库中缺少少量城镇行政信息。此外,由于近年来中国行政区划的调整,一些城镇级行政区的边界发生了变化,导致与统计年鉴不一致。通过比较行政边界数据集中城镇级行政区的面积与 2015 年统计年鉴中的面积,删除了这些不一致的城镇级行政区。最终保留了 3184 个城镇级行政区进行分析。
图 2 显示了 3184 个镇级区的人口密度,根据统计人口数据。研究区的东部人口密集,人口密度大多在 200 人以上。由于海拔较高,西部地区的人口密度相对较低,尤其是在西北部,人口密度大多在 100 人以下。表 1 显示了 3184 个镇级区的人口、面积和人口密度的最小值、最大值、平均值、标准差(SD)和变异系数(CV)。从这个表格可以明显看出,研究区镇级单位的人口、面积和人口密度差异很大。
格网人口数据集
现有的全球人口数据集主要包括 GPW(CIESIN 2018)、GHS(Freire 等,2016)、GRUMP、LandScan(ORNL 2019)、WorldPop(Tatem 2017)和 UNEP/GRID 数据集。其中,GRUMP 和 UNEP/GRID 数据仅更新至 2000 年。为了评估最新的人口数据集,选择了 2015 年的 GPW、GHS、LandScan 和 WorldPop 数据集进行评估。图 3 显示了来自 GPW、GHS、LandScan 和 WorldPop 的人口密度的空间分布。
图 2 DGQ 地区镇级统计人口密度的空间分布
GPW 数据集由 NASA 社会经济数据和应用中心(SEDAC)开发(https://sedac.ciesin.columbia.edu/data/collection/gpw-v4),现已推出第四个版本(GPW4)。GPW4 提供了 2000 年、2005 年、2010 年、2015 年和 2020 年的格网人口数据,空间分辨率为 30 角秒(
在赤道)。用于生成 GPW4 的人口数据来自 2010 年的人口普查。对于目标年份,使用年均增长率来估计人口。然后,将国家级估计数据调整为联合国人口司的世界人口展望,以匹配目标年份的国家总人口。然后,使用基于行政边界和人口数据的简单统一面积加权方法生成栅格人口数据,将人口均匀分配到每个行政单元(CIESIN 2018)。最后,遮蔽了格网人口数据中的水体和冰覆盖区域,以避免扭曲实际人口分布。
GHS 数据集是由全球人类定居层(GHSL)项目(https://ghsl.jrc.ec.europa.eu)开发的。GHS 提供了 1975 年、1990 年、2000 年和 2015 年的格网人口数据,空间分辨率为 250 米。GHS 的输入数据包括 GHS 建成区数据和 GPW4 人口估计数据。GHS 建成区数据可追溯到 1975 年、1990 年、2000 年和 2014 年。对于 GHS 建成区覆盖但 GPW4 未覆盖的两个目标年份(1975 年和 1990 年),进行了年度化处理。
表 1 3184 个镇级区的人口、面积和人口密度总结
最低
最大
意思
SD
CV
人口(人)
1642
274,360
30,915
24,313
0.79
区域(平方公里)
4.47
2824.65
211.61
158.52
0.75
人口密度(人
)
2.11
2565.43
193.02
179.62
0.93
图 3 DGQ 地区格网人口数据集的人口密度空间分布(a GPW4;b GHS;c LandScan;d WorldPop)
人口增长率是根据人口普查数据计算出来的,用于推导这两年的人口估计,以将人口与 GHS 建成区数据整合在一起。为了提高准确性,人口来源数据已按国家进行调整,以匹配联合国人口估计。GHS 格网人口数据最终通过一种简单的分区映射方法产生,该方法依赖于 GHS 建成区数据作为代理来限制和精细化人口分布(Freire 2016)。
LandScan 数据集是由奥克岭国家实验室(https://landscan.ornl.gov)开发的。LandScan 提供了 1998 年的格网人口数据,以及从 2000 年到 2019 年的年度数据,空间分辨率为 30 角秒(
在赤道)。输入建模数据包括次国家级人口数据和多个地理空间辅助变量。人口数据是来自美国人口普查局地理研究分部的年度中期国家人口估计数据。地理空间输入数据包括土地覆盖、道路、坡度、城市区域、村庄位置和高分辨率卫星图像分析。LandScan 格网人口数据集是通过多元数据模型框架(ORNL 2019)生成的。数据模型根据人口数据和空间指标计算了每个国家每个像素的概率权重。然后使用加权层来分配总人口计数。值得注意的是,LandScan 不代表居民人口的空间分布,而是环境人口的分布(平均 24 小时)。 居民人口通常是通过测量人们居住的地方而不是工作或旅行的地方来产生的。然而,环境整合了人口的白天运动和集体出行习惯(Dobson 等,2000 年)。
WorldPop 数据集是由 WorldPop 项目(https://www.worldpop.org)开发的。该数据集提供了从 2000 年到 2020 年的年度格网人口数据,空间分辨率为 100 米。WorldPop 的输入变量包括最新的官方人口普查数据和各种空间辅助数据集。空间数据集包括定居点位置和范围、夜间卫星图像、土地覆盖、道路、建筑地图、卫生设施位置、植被、地形和难民营。采用基于随机森林回归树的映射方法生成预测加权层,将人口计数重新分配到格网像素中(Stevens 等人,2015 年)。估计的格网人口也经过调整,以匹配联合国人口司国家总估计值的目标年份。
评估方法
根据 3184 个镇级行政区的行政边界,为四个格网人口数据集计算了每个镇级单位的人口密度,并计算了相对误差(RE)以表征每个数据集对每个镇级区的准确性,使用方程式 1:
其中
是统计人口数据中样本
的人口密度(单位:人
),
是格网人口数据中样本
的人口密度(单位:人
)。
相关系数
,均方根误差(RMSE),平均绝对百分比误差(MAPE)和平均代数百分比误差(MALPE)被计算出来描述格网人口数据集的整体准确性:
其中
是统计人口数据样本
的人口密度(单位:人
),
是格网人口数据样本 i 的人口密度(单位:人
),
是样本大小。
与传统普查或统计人口数据相比,格网人口数据具有反映行政区内详细人口分布的优势。因此,仅在镇级别评估格网人口数据集是不够的。还评估了行政区内的格网人口分布。由于缺乏更精细分辨率的普查或统计人口数据,通过与谷歌地球高分辨率图像进行比较,对格网人口数据集的空间分布进行了视觉评估。DGQ 地区的典型区域被展示并分析,作为研究区域的代表。利用卫星图像反映的定居点分布信息作为参考,定性分析了每个人口数据集描述镇内人口分布的能力。
结果
镇级别的验证
表 2 显示了 GPW4、GHS、LandScan 和 WorldPop 在城镇级别人口密度的总结误差统计数据。GHS 的误差最高(0.64),其次是 GPW4(0.64),WorldPop(0.63),LandScan 的误差最低(0.59)。然而,WorldPop 的均方根误差最低(178.36 人),其次是 GHS(212.47 人)和 LandScan(249.34 人),GPW4 的均方根误差最高(279.66 人)。WorldPop 和 GHS 的平均绝对百分比误差(分别为
和
)明显低于 GPW4 和 LandScan 的(分别为
和
)。LandScan 显示了最小的负 MALPE(
),其次是 WorldPop(
)和 GHS(
)。相比之下,GPW4 显示了更高的正 MALPE(
)。总体而言,WorldPop 和 GHS 在人口密度方面表现最佳,其次是 GPW4,而 LandScan 表现最差。
图 4 显示了从统计人口数据和镇级四个网格数据集派生的人口密度的密度散点图。密度以六边形表示,每个六边形的颜色代表其中落入的点的总数。在四个图中,大多数样本位于接近 1:1 线附近,表明统计人口数据和网格数据集之间存在良好的一致性。
表 2 四个格网人口数据集的人口密度验证
RMSE(人
)
MAPE(%)
MALPE(%)
GPW4
0.64
279.66
35.93
26.54
GHS
0.66
212.47
27.87
-8.93
LandScan
0.56
249.34
43.32
-4.18
WorldPop
0.63
178.36
29.78
-5.92
图 4 统计人口数据集中城镇级人口密度与格网人口数据集之间的散点图(a GPW4;b GHS;
LandScan;d WorldPop)。颜色条代表样本点的密度。
在四个散点图中,GHS 和 WorldPop 的样本更接近 1:1 线,而 LandScan 的样本呈现出更离散的模式。
每个数据集中都有一些具有极大误差的样本。在异常值中,只有很小一部分跨越了所有网格数据集,这些网格数据集的人口密度被所有网格数据集大大高估。它们在 2010-2015 年期间的人口增长率远低于其省份。中国 2015 年的网格人口数据集是根据基于人口普查的人口数据制作的,然后根据联合国 2015 年在国家级别的估计人口进行调整。这些城镇单位与整个研究区域之间的人口增长率差异导致了高估。然而,大多数异常值在每个网格人口数据集之间是不同的,并具有一系列特征,这些特征可能归因于不同城镇级单位的自然和社会经济条件,以及四个数据集的不同生产方法和输入变量。
在每个数据集中删除具有最大误差的
个样本(32 个样本)后,我们重新计算了摘要误差统计数据(表 3),结果有了显著改善,表明四个数据集的人口密度误差对大多数镇级区域来说相对较低,只有少数几个镇级区域存在较大误差。在去除异常值后,GHS 表现最佳,具有最高
,最低的 RMSE 和 MAPE,以及第三低的 MALPE。WorldPop 和 GPW4 也表现良好,而 LandScan 具有最低的
和最高的 RMSE 和 MAPE,但具有最佳的 MALPE 值。
图 5 显示了四个格网人口数据集的人口密度 REs 的空间分布。所有数据集显示出类似的广泛趋势。
表 3 在删除具有最大误差的
样本后,验证四个格网人口数据集的人口密度
RMSE(人们
MAPE(%)
MALPE(%)
GPW4
0.91
82.33
33.28
24.02
GHS
0.91
73.13
26.76
-9.72
LandScan
0.80
105.55
41.84
-5.52
WorldPop
0.85
88.12
28.73
-6.56
在西方地区高估,在东方地区低估。大多数行政区在 GPW4 中被高估(图 5a),特别是在西部,城镇级行政区高度高估的比例(
)非常高。GHS 在大多数城镇单位的表现相对较好(图 5b)。东部大多数城镇级单位的 RE 在-50 到
之间,很少有城镇级单位显示出非常高的误差。西部大多数城镇级单位以高估为特征,RE 主要在-25 到
之间,大误差行政区(
或
)的比例高于东部。图 5c 显示,LandScan 中大误差行政区(
或
)的比例明显高于其他数据集,特别是在北部和西部。LandScan 中的城镇级单位中有
表现出大误差(
或
)。相比之下,GPW4、GHS 和 WorldPop 中大误差样本的比例分别为
和
。这表明 LandScan 数据集的方法可能过度高估或低估。
图 5 四个数据集的人口密度相对误差的空间分布(a GPW4;
GHS;
LandScan; d WorldPop) 人口密度。图 5 d 显示,WorldPop 的误差分布模式与 GHS 相似,表现出东部低估和西部高估的总体趋势。然而,与 GHS 相比,WorldPop 中具有正 RE 的城镇单位更多,这表明 WorldPop 中被高估的样本数量比 GHS 中的多。
市镇尺度的视觉评估
图 3 显示了 GPW4、GHS、LandScan 和 WorldPop 数据集的人口密度空间分布。GPW4 采用面积加权方法开发,每个行政区内人口密度均匀,无法反映人口的详细分布。GHS、LandScan 和 WorldPop 显示了行政区内人口分布的空间细节,但这三个格网数据集展现出不同的空间模式。应评估这三个格网数据集在市镇尺度上描绘人口密度模式的能力。
我们将这些格网数据集的人口密度分布与 Google Earth 高分辨率遥感图像进行了视觉比较。通过这些图像,可以直观地识别住宅区、建筑密度,甚至建筑类型(高楼或平房),这在一定程度上可以反映人口分布。通过视觉评估,可以定性评估格网人口数据集在城镇内部尺度上的可靠性。
表 4 显示了来自 GHS、LandScan 和 WorldPop 的人口密度分布,以及高分辨率的谷歌地球影像和总结的土地覆盖和地形信息,涵盖了从大城市到人口稀少的山区等一系列环境,这些环境组合代表了研究区域。建成区覆盖范围是基于清华大学地球科学系提供的 2015 年 Finer Resolution Observation and Monitoring Global land cover (FROM-GLC)数据计算的,这是一种
分辨率的全球土地覆盖产品。平均海拔、平均坡度和平坦区域覆盖率是基于 Shuttle Radar Topography Mission (SRTM)数字高程模型(DEM)计算的,空间分辨率为 1 角秒(
在赤道)。
区域 A 是一个大城市的市中心地区。一般来说,三个网格数据集中所有高密度区域与谷歌地球图像中的建成区域表现出良好的一致性。GHS 在城市地区显示高密度,郊区密度很低。LandScan 在城市地区显示高密度,在郊区显示中等密度。WorldPop 也在城市地区显示高密度,在郊区显示中等密度,但其人口密度逐渐变化。区域 B 的中心部分是一个小城市区域,穿过该区域的是一条河流,周围是山区。GHS 在城市地区显示非常高的人口密度,但在郊区的人口密度极低。对于 LandScan,城市地区的人口密度也相当高,尽管其空间模式与居住区分布有所不同。例如,该地区的南部是一个人口密度低的村庄,但 LandScan 地图显示人口密度高。 WorldPop 的人口密度模式通常与 Google Earth 的人口密度模式一致,城市地区的人口密度较高,逐渐向郊区减少,并在河流地区达到零。区域 C 是一个
表 4 栅格人口数据集与 Google Earth 图像之间的比较
在东南部有相对平坦地形的山区,以及几个分散的居住区。GHS 人口密度地图主要以 3 个同质多边形为特征,因为 GHS 建成区未能识别行政区内的不透水表面。LandScan 地图显示分散的像素具有高人口密度,与 Google Earth 图像中识别的建成区不符。WorldPop 在整个区域内以中等人口密度为特征,南部的几个地方显示出稍高的人口密度,这是
人口和环境
表 4 继续
表 4 继续
与 Google Earth 图像一致。D 地区是一个没有明显定居点的森林地区。在 GHS 地图中,除了该地区北部中部的两个高密度聚集区外,大部分地区人口密度较低。LandScan 地图中显示的人口密度也较低,除了一些孤立的地区。 高密度像素。 WorldPop 地图中的人口密度也很低,没有高密度像素,尽管存在一个明显的边界,与省界相对应,这是由于根据行政区划的人口普查数据对 WorldPop 格网数据进行校正造成的。 E 地区是一个山谷地区,有一个小镇和几个分布在河两岸的村庄。在 GHS 地图中,山谷具有连续的高人口密度。在 LandScan 地图中,山谷中也可以找到高人口密度,显示出沿河流的弯曲模式。在 WorldPop 地图中,相对较高的人口密度仅出现在山谷中部的小镇,而在山谷的其他部分找不到。另外五个示例区域留给读者探索,在表 4 中也提供了。
讨论
在这项研究中,我们评估了四个全球格网人口数据集,涵盖了城镇和城镇内部两个尺度。这种比较代表了过去研究的进步,因为过去只有少数几项对格网人口数据的评估,而现有的数据验证研究大多是在行政区划尺度而不是城区尺度上进行的。根据定义,验证数据不存在比最小行政单位更精细的尺度,因此无法在这样细小的尺度上完全和定量地评估格网人口数据的准确性。相反,我们将格网人口数据集与谷歌地球的高分辨率图像进行比较,在这些图像中,建成区域很容易被视觉识别。这样可以相对和定性地评估空间模式,为研究人员和用户选择最能反映这一空间分辨率水平上人口分布的格网人口数据集提供有价值的参考。
在城镇尺度上,WorldPop 和 GHS 产生的人口密度估计值比从 GPW4 和 LandScan 估计的值更接近用于验证的统计人口数据。对于在城镇尺度或以上进行的与人口相关的应用程序,GHS 和 WorldPop 都是很好的选择。这些格网人口数据集在城镇级别上的良好准确性可以归因于它们生产中使用的数据来源和算法。尽管用于生产不同格网人口数据集的是不同的空间化方法,但它们所有的主要输入都是基于人口普查的人口数据,并且初步的映射结果被调整以匹配目标年份的全国总人口估计,这确保了格网人口数据集与行政单位的统计人口数据之间的一般一致性。然而,人口增长率的空间差异可能会导致与城镇级别的统计人口数据相比的偏差(图 5)。 例如,通过将 2000 年至 2010 年在地级市水平上的年增长率应用于 2010 年人口普查数据,估计了 2015 年中国的 GPW4 人口,然后将这些值在全国范围内调整以匹配 2015 年联合国人口司的国家总估计。然而,由于自然和社会经济条件的空间差异,研究区域内的乡镇单位人口增长率与全国平均水平不同,研究区域内乡镇单位的实际调整比例也与全国平均水平不同。因此,全国调整导致估计人口与乡镇层面的统计人口之间存在差异。此外,中国最近 进行频繁的行政区划调整可能导致格网人口数据集与镇级统计人口数据之间出现额外的差异。
四个格网人口数据集在城镇尺度上的表现与在城镇尺度上的表现有很大不同。由于使用统一面积加权方法来生成 GPW4,它未能反映行政区域内人口的空间分布。与 GHS 和 LandScan 相比,我们的视觉评估表明,WorldPop 更好地描绘了城镇级行政区内的人口分布。这一结果可以归因于用于生成 WorldPop 数据集的丰富空间辅助变量和机器学习技术。不同的空间辅助层,包括夜间光线、土地覆盖、道路网络和地形数据,以不同方式影响和反映人口分布。综合利用多个独立的空间变量可以有助于提高细分精度,特别是在使用机器学习技术时,这种技术可以对复杂的高维关系进行强大建模。LandScan 表现出高空间异质性,但与高分辨率影像中看到的实际情况不一致。 这种差异可能是由研究区域复杂的地形和社会经济条件引起的,这使得准确的土地覆盖识别成为一个巨大挑战。虽然 LandScan 也整合了多种空间辅助数据来重新分配人口,但它并不使用夜间光数据。夜间光数据可以有效反映夜间的人类活动,因此可以作为人口分布的良好指标。LandScan 在评估中表现不佳的另一个可能原因是它代表的是环境人口,而不是常驻人口。这是 LandScan 和其他格网人口数据集之间的根本区别。人口普查、统计人口数据以及高分辨率卫星图像中推断出的建筑区域通常代表常驻人口的空间分布,而不是环境人口。GHS 以极化为特征,城市地区、山谷和其他人口稠密地区人口密度非常高,而其他地方人口密度非常低。这一结果是由简单的分区映射方法引起的,该方法将人口分配给 GHS 建筑数据中的定居点。 视觉评估表明,在 GHS 数据中识别的定居点中存在许多错误。此外,GHS 无法很好地描述定居点人口的详细空间差异。
我们的研究表明,WorldPop 在城镇和城镇内部两个层面上表现出良好的可靠性,比 GPW、GHS 和 LandScan 更适合作为通用高分辨率格网人口数据集。因此,我们建议在需要格网人口数据的应用中使用 WorldPop 作为默认数据集。GHS 在城镇层面与统计人口数据表现出良好的一致性,但无法代表城镇单元内的空间细节。对于仅在城镇或更高行政单位进行的应用,可以考虑将 GHS 作为备选方案。
这项研究对栅格人口数据产品的用户是一个宝贵的参考。它提供了四个栅格人口数据集的生产回顾,与镇级人口数据进行性能的定量比较,以及对其描绘镇级人口密度分布能力的定性评估。这项研究聚焦于中国西南地区,该地区地形多样且复杂。其结果和结论对具有不同地形、文化和城市规划实践的地区的适用性可以通过类似的方式进行评估。 在其他地区的研究。对用于生成每个数据集的方法进行审查本身就可以让人推断它们的相对性能;实证评估仍然是必要的,以评估实际性能。例如,LandScan 和 WorldPop 数据集都是通过基于多个空间辅助数据的分区映射方法生成的,但它们的性能却有显著不同。
结论
在这项研究中,对 2015 年中国 DGQ 地区的城镇和城镇内尺度上的 GPW4、GHS、LandScan 和 WorldPop 人口数据集进行了评估。在城镇尺度上,将这四个数据集与城镇级别的统计人口数据进行了比较。这四个数据集显示出了非常不同的人口分布,平均而言,GPW4 高估了人口密度,而 GHS、LandScan 和 WorldPop 低估了人口密度。在城镇尺度上,GHS 和 WorldPop 的准确性较高,而 LandScan 显示出最低的准确性。在城镇内尺度上,与高分辨率卫星图像进行视觉比较表明,WorldPop 产生了最真实的空间人口模式,其次是 LandScan 和 GHS。由于 GPW4 的生产方式,无法反映城镇级别区域内人口的空间差异。
中国将于 2020 年进行第七次全国人口普查,预计将在 2022 年底发布更准确、更及时的人口信息。有了这些数据,可以进行更准确、更全面的中国格网人口数据评估。然而,需要注意的是,第七次人口普查数据仍然只提供镇一级的常住人口数据。在更精细的空间尺度上评估格网人口数据集,尤其是以定量方式进行评估,仍然是需要额外方法发展的挑战。
作者们要感谢美国国家航空航天局(NASA)/社会经济数据和应用中心(SEDAC)提供的 GPW 数据,全球人类定居图层(GHSL)项目提供的 GHS 数据,奥克岭国家实验室提供的 LandScan 数据,以及 WorldPop 项目提供的 WorldPop 数据。实验符合中国当前法律。
资金信息 本研究得到了中国教育部人文社会科学基金(17YJCZH205)、国家自然科学基金(41871028)、江苏省环境监测基金(1903 号)和江苏省青蓝工程项目(R2019Q03)的资助。
参考资料