Elsevier


可再生和可持续能源评论


第 96 卷,2018 年 11 月,第 352-379 页
Renewable and Sustainable Energy Reviews


可再生能源不确定性评估技术的不确定性表示和元平均化综述

EI检索SCI升级版 工程技术1区SCI基础版 工程技术1区IF 15.9SWJTU A++SWUFE A
https://doi.org/10.1016/j.rser.2018.07.042  获取权利和内容

 亮点


  • 广泛概述了可再生能源概率预测的不同构建和表示形式。


  • 从整体上看待不确定性表示形式,使概率预测算法具有更好的可比性。


  • 对创建分布预测的算法特点进行详细比较。


  • 对所提出的评分规则的性能分析和特点进行详细调查。


  • 详细研究评分规则分解的作用,并介绍分解成分在表达能力上的差异。

 摘要


预报算法的性能评估是质量评估和模型比较的基本要求。近年来,发布预测分布而不是点预测的算法得到了发展,因为它们能更好地代表基本数值天气预报和功率转换过程的随机性质。用于评估点预报的标准误差测量不足以评估概率预报。与确定性误差测量相比,许多概率评分规则缺乏直观性,因为它们必须满足可靠性和尖锐性等一系列要求,而确定性预报只需接近实际观测数据即可。本文旨在增强概率预测从业人员和用户的能力,使其能够根据所需的应用和可用数据选择适当的不确定性表示和评分规则。文章从整体上介绍了最常用的不确定性表示形式,包括单一预测和集合预测,随后介绍了最常用的评分规则。我们希望通过展示不同评分规则的差异,扩大对不同评分规则的工作原理和关系的理解,以及对连续变量概率预测的分解。因此,我们在大量案例研究中详细分析了评分规则的行为,也就是通常所说的 "元平均化"(metaverification)过程。

 关键词


功率预测概率预测性能评估预测验证评分规则分解集合方法

 术语

    x


    预报器 D 维),如 NWP 预报。

    y^


    发电量的确定性点预测。

    y


    预测变量,如发电量。

    p^(y)


    发电预测分布 (pdf) y.

    o


    观察到的 "真实 "功率测量值。

    P^(y)


    用于发电的预测性分布(cdf)。

    oinst


    发电厂的额定装机容量。

    τ


    预测分布的量值。

    N


    idx n=1,,N 的已评估项目数.

    y^(τ)


    定量 τy^(τ)=P^1(τ) 的点预测.

    J


    j=1,,J 的合奏中的成员数。.

    L


    idx为 l=1,,L 的分布中的量级数.

 1.导言


中短期电力预测算法(如当日预测和日前预测)几乎在所有情况下都基于数值天气预报(NWP)。天气预报是一个随机过程,也就是说,虽然当前的天气状况可以在一定程度上进行测量,但由于大气流体力学的混乱行为,未来的天气状况是无法准确预测的。天气预报过程中的这种不确定性会影响电力预报过程。此外,不确定性在很多情况下会被放大,例如,由于风力涡轮机功率曲线的非线性。因此,虽然确定性点预报的质量仍可提高(如通过模型组合),但其性能却趋向于基本 NWP 生成过程的内在不确定性。为了克服这个问题,近年来,人们已经从创建点预报的模式转向创建分布(或概率)预报[1]。概率预测以适应情况的方式量化预测的不确定性大小和方向,可用于在不确定条件下保持最佳决策性能。这在电网稳定和电力市场运作等应用领域的电力预测中尤为重要,可作为更好决策的基础。例如,可以根据预测的(不)确定程度来规划储备能力的大小 [2],[3]。概率预测还可用于经济报酬和成本函数 [4]、[5]。虽然二元事件的概率预测已被广泛应用,如天气事件预测(如降雨事件的概率),但在过去十年中,对序数和连续量的概率预测的需求日益增加。


可再生能源发电厂的间歇性发电特性是造成电网运行复杂化的不争原因,但其影响也会波及可再生能源的其他领域,如需求预测或电价预测。虽然本文主要以(风力)发电预测为例,但所介绍的表示方法和评分规则也可直接应用于可再生能源领域内外的其他应用。


1.1.概率预测和评估


近年来,出现了多种对连续量进行概率预测的可能性。这些预测系统的形式(如连续可变或逐步恒定的概率分布、区间或风险指数)和计算方式(参数或非参数不确定性分布、单次预测或集合预测)各不相同。根据不确定性表示形式的不同,出现了不同的性能评估方法,在某些情况下,这些方法专门用于特定形式的不确定性表示。虽然这些误差分值对于特定的表示形式可能是最佳的,但它们妨碍了不同表示形式的方法之间的可比性。


用于概率预测性能评估的误差分数通常被称为评分规则。与确定性误差测量相比,许多概率评分规则缺乏直观性。确定性预测需要接近观测值,而概率预测则必须正确评估概率分布的条件宽度(通常称为可靠性),并根据过程中的不确定性[1],理想地将概率质量集中在观测值附近(它们必须是尖锐的)。通过了解不同类型的错误如何影响评分规则,直觉就会上升。为了比较概率预测技术的性能,必须明确定义如何进行质量评估。评估概率预测的最一般方法是使用评分规则,将预测分布与实际观测结果进行比较。


下面,我们将简要介绍确定性预测和概率预测评估调查。点预测和确定性预测的误差评估是创建和评估概率预测的基础。一些文章描述并总结了独立于领域的确定性预测误差评估,如 [6]、[7]、[8]、[9]。其他电力预测调查也包括确定性预测误差分值的部分[10]、[11]、[12]、[13],但它们之间存在部分不一致,只提到了部分误差分值。文献[14]从决策理论的角度强调了对确定性预测的评估。文献[15]对误差分值进行了总结和比较。除确定性误差外,预测的不确定性评估也是电力预测中一个日益重要的方面。文献[16]、[17]和[1]中都有关于风电预测概率误差分值的章节。


在工业实践中,不确定性预测还很少被利用。文献[18]对概率预测的工作原理提出了有意义的见解,但对于实际决策中不确定性预测的信息内容往往缺乏更深入的了解。为了应对这一挑战,这项工作试图定义一个统一的术语,并呼吁实现标准化。它对天气模型中的不确定性估计以及如何将其转化为风能的不确定性进行了深入的背景介绍。此外,还指出了决策领域可能存在的困难,以及由此可能导致的错误。


1.2.本文的贡献和结构


本文的主要贡献在于对现有的预测不确定性估计和表示形式进行了结构化概述,并对概率预测的不确定性评估技术进行了研究,包括对分解特性的研究。


我们概述了估算不确定性的最相关技术,并重点介绍了最常见的不确定性表示形式。在此基础上,我们提出了概率预测问题的整体观点,通过将不同形式的不确定性表示转换为密度函数,使它们之间具有更好的可比性,而密度函数恰好是通常用于连续概率预测的最通用的不确定性表示形式。有了共同的表示形式,对其性能的评估也就更容易了。


在一些案例研究中,对提出的评分规则的特性进行了详细分析。这一过程在文献[19]中被定义为 "元平均化"(metaverification)。文献[19]描述了对性能指标的评估,并阐述了评分规则的理想特性,如适当性[20]和对冲鲁棒性[21],这两点在第 6 节中有进一步详细介绍。通过对案例研究的深入分析,我们讨论了每种误差分值在应用中的优势和局限性。


本文其余部分的结构如下:第 2 节介绍了不确定性表示技术的一般预期特性、可能的预测空间,以及适合表示所有常见概率预测不确定性表示形式的表示形式。3 从单一 NWP 预测模型构建预测分布,4 从集合预测模型构建预测分布,分别概述了从单一预测模型(单一 NWP)和集合预测模型(多个 NWP)创建不确定性表示的算法。第 5 节对所介绍模型的优缺点进行了评定。第 6 节重点介绍了利用概率预报评分规则评估概率预报质量的方法。在第 7 节中,通过大量实验研究了所介绍的不确定性评估技术的特性。第 8 节讨论了我们对实验的见解,第 9 节给出了使用概率预测和评分函数的实际案例。最后,第 10 节对本文进行了总结。


2.不确定性表示技术


确定性预测的目的是预测每个前瞻时间的单一值(点估算),而概率预测则试图额外评估预测的不确定性。有许多计算、表示和评估不确定性的技术。虽然不确定性并不一定要以概率的形式表示[22],但以概率的形式表示不确定性确实有很多优点,这些优点在 [23] 和 [24] 等文献中都有描述。


2.1.预测分布的表示


连续预测分布最常见的表示形式是概率密度函数(pdf) p^(y) ,可以对任意值 y(在功率预测应用中通常是功率值)进行求值,得到该值的概率密度。相应的累积密度函数(cdf) P^(y)(1)P^(y)=yp^(y)dy. 的形式计算。因此,可以对表示方法进行转换。预测分布可以以不同的形式构建,例如使用


  • (定义明确的连续密度函数(组合),如参数密度函数、


  • 从可能结果的(不可观测的)基本分布(如从集合预测系统(EPS))中抽取若干确定性预测、


  • 预测区间,可以用 pdf 表示,或

  •  量化预测。


连续密度函数(组合)的解释非常简单。第 3.5 节解释了从预测区间到密度函数的转换,第 4.1 节详细介绍了从底层分布抽取样本创建预测分布的过程。如文献 [25] 所述,量化是许多概率预测算法的基础,并为预测分布提供了决策理论上的最优框架。因此,我们将在下文中详细解释量化预测与预测分布的构造和关系。


在创建逐步恒定预测分布时,预测会尝试估计 L 个定义量级的量级预测,这些量级会系统地低估或高估中值点预测。量化值的数量取决于所需的密度函数精度。然后,整个量化预测 (y^(τ1),,y^(τL)) 可用于形成整体预测分布。假定随后两个量化值之间的数值范围包含一定的概率质量 pl ,该概率质量由 pl=τl+1τl 定义,从而得到图 10.1 所示的 pdf。因此,两个预测量化预测值 y^(τl),y^(τl+1) 之间的区间越窄,概率质量 pl 的值就越高。的概率密度函数值越高。图 10.1 给出的 cdf(有助于估算边际量化值的概率质量) y^=(0,y^(τ1),,y^(τL),oinst),τ=(0,τ1,,τL,1), 与装机容量 oinst (或其他假定的最大值),即预测值的最大可能值, y^,τRL+2v=1,,L+2 的 cdf 可以定义为 (2)P^(y)=τv+1τvy^v+1y^v·(yy^v)+τv,withy[y^v,y^v+1].

Fig. 1

  1. 下载 :下载高清图片 (232KB)

  2. 下载 :下载 : 下载全尺寸图片


图 1.一组给定量化预测的密度函数表示法。如果假设概率仓内的概率分布是均匀的(即,pdf 是一个片断常数函数),则相邻的量化值都有一个确定的概率质量,这导致了概率密度函数(pdf)的直方图表示(图 1.1)。对于累积密度函数(cdf)的构造,这将导致一个片断线性函数(图 1.2)。从集合构建 pdf 的其他变体见第 4 节。


这种形式的 cdf 表示法在估计极端量值时具有明显优势(例如,与基于抽样的密度表示法相比,见第 4.1 节),因为这些量值的概率质量定义明确。对于功率预测,预测值的取值范围通常以区间 [0,oinst] 为界。因此,可以很容易地定义边际直方图箱(见图 11.1 和 1.2)。此外,这种表示形式更适合直接评估 pdf 而非 cdf 的误差分值评估,例如无知分值(见第 6.2 节)。不过,这种 cdf 表示形式假定每个直方图分区内的概率密度分布是均匀的,这可能无法反映数值的真实分布。这一缺点可以通过为 pdf 结构创建更多的量值预测和预测极端量值(即 τ0τ1 )来部分克服。由于难以可靠地估计极值,因此可以采用其他技术,例如极值模型(如 [26] 中描述的模型),对边界进行更准确的概率估计。


此外,在处理坍缩为同一预测值的定量(或概率质量)时,也会出现挑战,特别是在电力预测应用中的下限(0 发电量)处经常出现这种情况。其中的概率质量坍缩为一个奇异值(导致概率密度值出现问题)。文献中有时使用离散-连续混合分布 [27],有时使用二项分布和其他分布的组合 [28],来解决此类概率分布问题。不过,如果只使用利用 CDF 表示预测的评分规则,折叠量值不一定会有问题(更多详情可参见第 6 节)。


2.2.预测分布的理想模型特性


与确定性预测相比,概率预测必须满足一些属性,才能带来好处。这些预测分布只有在正确估计观测值的条件分布时才是有益的。下面我们将重点介绍这些特性(参见 [29]、[30] 或 [17])。概率预测的主要特性是可靠性和敏锐性。


概率预测的一个核心方面是可靠性。对于二进制事件,可靠性描述的是预测算法给出的概率是否与任何给定概率水平上特定预测值的观测发生频率相匹配。因此,对发生概率为 0.7 的事件的预测必须与观测到的事件实际发生频率 70% 相对应,这样才是正确的。对于连续预测因子,可靠性描述的是条件方差(在参数密度预测的情况下)是否在每种情况下都能得到正确评估。因此,预测分布必须正确模拟观察到的不确定过程的目标变量的扩散。如果预测值和观测值的分布不匹配,预测系统就不可靠。最常见的误差类型如下所示:


  • 偏差误差:预测系统在预测分布方面存在系统误差,即预测结果过高或过低。这是一种偏移意义上的误差。在预报二元事件(如降雨事件)时,湿偏差或干偏差也是常用术语。


  • 置信度误差:置信度误差是指预测的分布(即正态分布的方差)没有得到正确评估。创建的分布过窄(过于自信的预报模式)或过宽(信心不足的预报模式)。在气象方面,分散也被称为离散,主要用于描述气象集合中集合成员的分散。


由于可靠性是从概率预测的实际应用中流行起来的一个术语,因此大多采用文字和视觉描述(如 [1]、[31]、[32]、[33])。文献[29]的作者提出了一种在非参数预测模型中使用量化预测 (y^(τ1),,y^(τL)) 元组来评估可靠性的方法。(然而,正如第 2.1 节所述,它们也可以由参数分布构建)。给定一个数据集,其中包含 o=(o1,,oN) 个观测值和每个评估时间点 n1,,N 的相应量化预测值。那么,观测值低于定量预测值的频率就可以用指标函数的和来确定 (3)ν(τ)=1Nn=1NH(y^n(τ)on) ,其中 H 是海维塞德(Heaviside)阶跃函数。观测频率 ν(τ) 与预期频率 τ 的差异可以用 (4)ν(τ)τ. 计算。虽然 [29] 的作者认为平均这些单个偏差可能会导致误差抵消效应(如果一个 ν(τi) 太低,而另一个 ν(τj)ij 太高),但我们认为在使用绝对偏差(或平方偏差)形成整体可靠性项 ν¯ 时可以考虑这一点。例如,可以采用 (5)ν¯=1Ll=1L|ν(τl)τl|. 的形式。此外,我们还提出了可靠性评估的一般化方法,它也可用于连续分布,如参数预测中的 (6)ν¯=τ=01|ν(τ)τ|dτ, ,其中每个 y^(τ) 可用 y^(τ)=P^1(τ) 计算。.决定预测模型是否可靠的方法有多种(例如,使用 ν¯ 的阈值,使用每个 |ν(τl)τl| 的阈值,使用每个 χ2 的阈值,使用每个{{18}}的阈值)。在每个 |ν(τl)τl| 上使用阈值,或使用 χ2 测试)。或使用 χ2 检验,如[34]中的方法,但[29]对此提出了质疑,因为不相关误差的假设可能不成立)。一般来说,可靠性只有助于对预测模型进行诊断评估。预测的可靠性也可以通过评分规则分解(见第 6 节)或图形评估技术来评估,如概率积分变换(PIT)直方图[29]或 QQ 图[35]。在某些情况下,可靠性也被直接称为校准,例如在文献[36]中,而不是将校准作为修改预测分布以实现可靠性的过程。


可靠性并不是衡量准确的点估计的预报精度,而只是表示预报分布与相应观测情况的长期匹配程度。例如,气候学预报(见图 2.1)总是发布与特定观测天气状况无关的相同的长期平均概率分布。这类预报具有最佳可靠性(给定足够的输入数据并假定时间序列的长期静止性),但它们缺乏锐度,而锐度是概率预报的第二个核心属性。锐度衡量的是概率分布的 "窄度"。至于可靠性,锐度大多是通过文字和视觉来描述的(如 [1]、[31]、[32]、[37]、[29])。不过,[29] 的作者使用对称量值集 (7)κ(α)=1Nn=1N(y^n(τu^)y^n(τl^)), 来定义非参数预测模型的锐度,其中 (1α) 是名义覆盖概率(假定下限 y^(τl^) 和上限 y^(τu^)α[0,1] 所定区间内的样本分数)。与 (8)α2=1τu^=τl^. 例如,名义覆盖概率为 (1α)=90% 时(含 α=0.1 (7}} ),区间由下界 y^(0.05) 和上界 y^(0.95) 定义。.有关区间定义的更多详情,请参见第 3.5 节。虽然文献中没有讨论,但对单个 α 的锐度 κ(α) 进行平均,可以得到所有 τ1,,τL 量化值与 (9)κ¯=1L2l=1L2κ(2·τl), 的预测分布的整体锐度,其中 L2 是一个将 L2 向下舍入的函数(这意味着如果量化值为奇数,则不对中心量化值进行评估)。此外,我们还提出将尖锐度扩展到连续预测分布(如参数预测),可以用 (10)κ¯=α=01κ(α)dα, 进行研究,其中的区间可以用 y^n(τl^)=P^1(α2)y^n(τu^)=P^1(1α2) 计算。分别计算。

Fig. 2

  1. 下载 :下载高清图片 (558KB)

  2. 下载 :下载 : 下载全尺寸图片


图 2.锐度和可靠性属性的可视化。上图显示了经过训练的概率模型的数据集(深色圆圈),预测的累积密度函数(cdf)用灰色区间表示,显示了 0.001,0.01,0.1,0.25,0.5,0.75,0.9,0.99,0.999 的cdf值。.有关预测分布的更多详情,请参见第 2.1 节。图 2.1 显示了一个气候预测模式样本。从与风速无关的非常宽泛的概率分布可以看出,该模式发布的预报并不精确。不过,该模式是可靠的,因为样本分布在阴影区域,正如给出的概率所示。图 2.2 显示了一个可靠的模式,其预报与气候学预报相比更加敏锐,概率分布较窄。图 2.3 显示了一个过于锐利的模式,因此产生了不可靠的预报。最远界值表明,分别只有 1‰的样本高于或低于最远界值,本例中的情况显然不是这样。如果急剧预测不可靠,就会假定概率分布的置信度不切实际,因此并不可取。


如果给出两个可靠的概率预测,锐度较高的预测更可取(见图 2.2 与图 2.1 的比较)。但是,如果锐度较高的预测不可靠,则会假定概率分布的可信度不切实际,因此并不可取(见图 2.3)。正如文献[17]、[29]等所指出的,可靠性是预测概率分布的首要条件。其他评估尖锐度的技术是给出 κ(α) 与标称覆盖概率 1α 的函数关系的图表,如[29]中所述。


简而言之,可靠性指的是发布的预测分布是否正确,而敏锐度(给定可靠性)则能揭示预测的质量(进而有用性)。概率预测系统的模型训练目标是在保持可靠性的同时最大限度地提高锐度( κ¯ 的低值)。这可以通过同时优化可靠性和敏锐度的损失函数来实现。这些函数通常被称为评估预测技能的评分规则。技能量化了概率预测技术在数据集上的可观测误差,因此包含了可归因于可靠性误差和锐度误差的误差。预测分布的误差类型(如可靠性误差)可以通过对误差成分的分解来揭示,许多评分规则都提出了这种分解方法,也可以通过可视化验证技术来揭示,这将在下一节详细介绍。评分规则详见第 6 节。


如果预报系统不能满足预报技能方面的要求,可以利用后处理技术对其进行部分优化。这种最大化预报技能的过程被称为统计预报校准(如文献[30]所述),通常用于实现可靠性。


3.从单一 NWP 预测模型构建预测分布


本节概述了创建预测性分布的方法。最重要的方法见表 1。我们对这些方法进行了分类,即从单一预测模型或天气集合中构建,以及这些技术产生的是参数概率分布还是非参数概率分布。此外,还说明了所得到的模型是连续可变(C)pdf,还是逐步恒定(S)pdf。表 2 概述了不确定性表示法的总体特征。


表 1.现有预报不确定性表示方法的分类,按其来源于单一预报模式或气象集合方法。(C)和(S)分别表示连续或逐步恒定(非连续可变)的概率分布。EPS 是集合预报系统的缩写,详见第 4.1 节。第 3 节详细介绍了来自单一 NWP 预测因子的概率预测模型,第 4 节介绍了使用集合方法进行的概率预测。

Empty CellEmpty CellParametricNon-parametric
 单一 NWP 预测器(C) 均方差 [38]
核密度预测 [40]
 (无合奏) 异速[39]
Empty Cell(S) 模拟合奏[41]
Empty Cell
定量回归 [42], [43]
Empty Cell
预测区间 [44], [45]

 多。NWP 预测因子(C)
分布拟合 [46]、[47]

组合敷料 [48], [49]

(气象合奏)
(S) EPS 组合 [50]
Empty Cell
技能类别预测 [33], [51]


在电力预测方面,一个时间点的可用预测因子是单个 NWP(无集合)或一组多个 NWP(气象集合)。在这种情况下,可以使用参数密度函数(如异方差模型)、基于相似性的预测(如模拟集合或核密度预测)或使用修正成本函数直接训练机器学习模型(如预测间隔预测)来创建单个 NWP 的预测分布。另一方面,来自 NWP 的概率集合方法可以通过采样直接构建 pdf(通常在有 EPS 时执行)、处理集合成员密度函数(如分布拟合或集合修整)或使用技能类别和风险指数估计不确定性来构建。


本节介绍从单一 NWP 模式,即不使用气象集合(如 EPS 或多模式集合)构建预测分布。有关利用气象集合构建预测分布的更多详情,请参阅第 4 节。


3.1.参数密度函数


参数密度函数通过估计具有预定基本形状(即函数形式)的密度函数参数来创建预测密度函数。在同方差情况下(即密度函数的宽度在预测空间 y 上不发生变化),预测分布 p^(y) 可以使用正态分布 N 等方法创建。.期望值可以由基于 NWP x 的确定性预测 y^=μ(x) 给出。而标准偏差 σ 则是在模型训练过程中利用 (11)σ=1N1n=1N(onμ(xn))2(12)p^(y|x)=N(y|μ(x),σ). 的验证集估算的。例如,[38] 提出了一种简单的同弹性方法。由于同弹性概率分布过于简化,因此在实际中很少应用。在异方差的情况下,可以将分布扩展为以 x 的函数来模拟概率分布的扩散(例如,以 x 的函数来模拟概率分布的扩散)。(例如 p^(y|x)=N(y|μ(x),σ(x)) )。此外,还可以选择更适合发电量测量分布的概率分布(如贝塔分布、伽马分布或对数正态分布),如图 3 所示的{{9},图 3 显示了贝塔分布,其参数 a 和 b 被选择为 x 的函数。}.[17] 中讨论了其他参数分布的使用。同质(非)线性回归是一种常用的参数异方差方法,在 [39] 等文献中提出。在统计领域,异方差自回归模型也经常被使用(例如,[52])。

Fig. 3

  1. 下载 :下载高清图片 (96KB)

  2. 下载 :下载 : 下载全尺寸图片


图 3第 3.1 节详述的同源参数高斯函数。密度函数的期望值位于确定性预测的位置。


3.2.核密度估计


利用核密度估计(KDE)技术,可以通过一组核来表示 pdf,有关用于电力预测的 KDE 方法的概述,请参阅 [17]。KDE 执行非参数密度估计,可表示为 (14)p^(y)=1Nn=1NK(yonh), ,观测值为 on ,其中 h 是核宽度参数,N 是用于 KDE 的数据点数量。K 是核函数,核函数经过归一化处理,因此 (15)+K(yonh)dy=1. 。根据预测对象的边界类型(对于典型的电力预测,边界为 [0,oinst] ),可以应用不同的核函数,如 [17] 中所述的正态核、贝塔核或伽马核。核密度方法的优点是不对整体概率分布的函数形式做任何假设,因此非常适合多模态或倾斜分布建模。另一方面,KDE 方法需要很多样本才能进行准确的核密度估计。对于大多数核来说,其结果是一个连续可微分函数。在训练过程中对所有可用的预测者-预测者对进行 KDE 时,其结果可视为数据集(气象学中为样本气候学)的无条件概率密度,如 [17] 和 [53] 中所述。该预测系统如图 4.1 所示。可以看出,预报并不依赖于风速的实际值,而是恒定的,因此预报的锐度很小。

Fig. 4

  1. 下载 :下载高清图片 (711KB)

  2. 下载 :下载 : 下载全尺寸图片


图 4.条件核密度估计(KDE)的表示方法,正态分布在区间 [0,1] 中截断。.黑点是训练数据集中的观测值 o。灰色线条代表发电量的条件概率分布,取决于风速。虽然图 4.1 中的无条件 KDE 可能是可靠的,但由于是无条件预测,质量较差。条件 KDE 更好地体现了风速与发电量之间的关系。


但实际上,在进行 KDE 时,应选择观测数据的条件子集(例如,以当前 NWP 预报为条件,对其进行概率功率预报),以创建更清晰的预测分布。图 4.2 举例说明了这些条件 KDE 预测。在该示例中,条件概率分布(灰线)是根据观测值 o(黑点)创建的。使用 KDE 进行预测时,将使用与预测风速相对应的概率分布。


这一过程与模拟集合有关,见第 3.3 节。文献[54]分析了用于长期预报的 KDE 方法。文献[55]详细介绍了用于风分布建模的 KDE 多变量变体。在这一变体中,创建了多元预测变量和预测因子的联合 KDE。然后,对这一联合 KDE 进行调节(例如,通过预测因子),以创建锐度更高的预测分布(与图 4.2 中的情况类似)。KDE 预测的主要挑战在于如何处理有界变量(例如,存在于 [0,oinst] 范围内的功率预测值)。这个问题可以通过 pdf 的截断技术、反射技术(如 [56] 中的反射技术)、重采样技术 [57] 或使用仅为正定 义的非对称核函数(如伽马核函数 [58])来解决。

 3.3.模拟集合


模拟集合是一种近邻搜索技术,它根据历史上相似的天气情况创建预报。其基本思路是,利用适当的距离度量(如欧氏距离),在历史数据集中找到一定数量的 J 相似天气情况(其中每种情况由 NWP 预测 x 表示)。相应发电量测量值 y^(AE)=(y^1,,y^J) 的排序元组(从低到高)组成集合,集合由距离 x 最小的 J 个 NWP 预测的发电量测量值组成。该集合由距离 x 最小的 J 个 NWP 预测的功率测量值组成,可用于加权确定性预测(如 [59] 中的预测)或预测不确定性评估 [41]。然后,只需按照 (16)y^(τ)=y^j(AE),withj=inf{j:j>τ·J},jN, 的形式计算直到元素 j 的排序预测,就可以创建相应的量化预测 y^(τ) ,从而得到一个逐步恒定的概率表示,该概率表示可通过公式(2)转换为 pdf。虽然该技术构建的是一个逐步恒定的预测分布,但它与基于相似性构建预测分布的核密度估计技术有相似之处,如创建渐近无偏预测(即使用所有可用数据点计算 pdf 时的气候预测)的特性,这在文献[60]中有描述。

 3.4.定量回归


量子回归(QR)的理念是在模型训练过程中使用修正的平均绝对误差(MAE)成本函数来优化预测模型。不使用 MAE 或 MSE 作为误差标准,而是选择 MAE 的一种修正形式,称为量化得分(通常也称为弹球或校验函数)。由此产生的预测模型将创建一个量化预测 y^(τ)=fτ(x) ,而不是一个相对于 MAE 最佳的预测。其中,参数 τ[0,1] 的选择代表各自的量值 τ 。.


如图 5 所示, e=oy^(τ) 和观测值 o 的误差函数定义为 (17)ρτ(e)={τ|e,ife0,(1τ)|e,ife<0, 。参数 τ=0.5 相当于传统的 MAE 函数。在模型训练过程中,当使用公式(17)作为损失函数时,相对于所使用的损失函数,模型的损失最小(弹球函数在数值分布的 τ 量级达到最小值,我们已在附录 A 中给出了证明)。对于量化得分,当预测模型创建不确定观测值分布的量化预测值 y^(τ) (而不是中位数预测值等)时,就可以实现这一目标。模型训练完成后,对功率预测模型进行优化,以创建一个量化预测,即 y^(τ) 的值。.如果对多个 L 预测模型重复这一过程,每个模型都使用误差函数 ρτ 中不同的 τ 值进行训练,那么所有训练过的模型都会得到一个量化预测值。这样,所有经过训练的模型就可以创建一个量化预测元组 (y^(τ1),,y^(τL)) 。.利用公式 (2) 可以根据预测的量化预测值创建一个 cdf。

Fig. 5

  1. 下载 :下载高清图片 (100KB)

  2. 下载 :下载 : 下载全尺寸图片


图 5.用于量化回归的弹球函数的可视化。在量子回归中,使用的是 MAE 的调整形式。它根据所选的 τ 值计算偏斜误差。.


QR 相对直观,因为确定性预测模型可以直接使用修正的成本函数。不过,QR 技术通常使用正则化技术(惩罚相邻量化预测位置过近)来避免相邻量化函数的 "线交叉"(因为根据定义,量化预测不允许交叉)。图 6 展示了 "线交叉 "现象。图中显示了一组不同 τ 值的量子回归模型,这些模型形成了信心不足的预测分布(过于分散)。右上角可见越线效应。

Fig. 6

  1. 下载 :下载高清图片 (220KB)

  2. 下载 :下载 : 下载全尺寸图片


图 6.导致预测分布不确定(过于分散)的五个量化回归模型的集合。右上角可见线交叉效应。根据定义,量值不允许交叉。如果在训练过程中采用正则化技术,这种现象就可以得到抑制。


文献[61]阐述了量化回归的思想,而文献[42]则将该方法扩展到非线性量化回归函数,并应用于概率风电预测。文献[43]将用于风力预测的量值回归与根据分解小波特征训练的模糊 ARTMAP 网络结合使用。


3.5.预测间隔预报


预测区间(PI)预测是一种不确定性估计技术,它通过创建区间来估计概率分布。区间预测技术领域的概述可参见 [44], [45]。本节将解释区间预测的主要原理,以及区间预测与使用定量表示的关系。在 PI 预测中,算法会尝试在给定名义置信度 (1α) 的情况下预测一个条件区间 Iα ,置信度 α[0,1] 指定观测值在区间 (18)Iα=[l^,u^], 内出现的期望概率,其中 l^ 是各自预测区间的下限, u^ 是上限。因此,预测区间的窄度可以用 u^l^ 表示。.对于区间训练,定义了一个目标函数,即区间得分(IS)[45]。其基本形式为 (19)ISα=(u^l^)+2α·(ou^)·H(ou^)+2α·(l^o)·H(l^o), ,其中 H 是一个 Heaviside 阶跃函数。第一项奖励 PI 的窄度,第二项和第三项惩罚区间外观测的发生。在模型训练过程中,整个预测技术会在数据集上进行优化,以最小化 IS。


PI 不一定要以预测因子基本概率分布的中位数为中心(就概率质量而言)。虽然两个 PI 的名义置信度 (1α) 可能相同,但它们在 pdf 中的位置可能不同。但它们在 pdf 中的位置可能不同。只有从居中的 PI 中才能得出 PI 外样本的方向分数。然而,正如我们所证明的(见附录 C 中的证明),当 PI 预测技术在 IS 上进行优化时(见公式 (19)),通常会产生居中的预测区间,因为在名义置信度 (1α) 的情况下,分数会在居中 PI 的位置达到最小值。.此外,每个区间边界的 IS 最小值位置与其对应位置无关。


在文献中,区间通常被视为一种不确定性表示形式,它独立于作为预测分布的表示形式。因此,它们具有不同的质量评估形式(如 PI 名义置信度、PI 覆盖概率或区间得分 [36], [17]),因此不能与其他形式的不确定性表示直接比较。正如文献[62]所指出的,预测分布可以从 PI 中创建(反之亦然)。事实上,IS 只是两个弹球函数(式 (17))的一个版本,与 a2 的比例关系为 (20)α2·ISα(o)=ρτl^(oy^(τl^))lower boundarypinball score of+ρτu^(oy^(τu^))upper boundarypinball score of. 。我们在附录 B 中对这一关系进行了证明。第 8.1 节讨论了这一关系的后果。由此得出的居中 PI 可以解释为预测 cdf,与使用公式 (2) 进行量化预测的方法相同。重复计算不同覆盖率的居中 PI 可以得到更详细的 cdf 形式,这可能是某些决策问题所需要的,如文献 [62] 所述。然而,非居中 PI 不太适合构建预测密度函数,因为对于每个名义置信度值,PI 在 pdf 中的位置可能不同。在文献中,区间边界 l^,u^ 是使用自回归模型估算的[63],其他方法则使用人工神经网络[64]或极端学习机[65]进行区间预测,并使用非基于梯度的优化算法(因为 IS 不是连续可微分的)来训练模型参数,例如使用粒子群优化(PSO)。从使用的算法类型(如 PSO)可以看出,PI 算法通常使用计算成本高、训练时间长的方法。


4.从集合预测器构建预测分布


许多概率预报算法都是以集合预报为基础的,集合预报是将多个预报汇总为一个整体预报的总称。第 3 节介绍了从单一 NWP 模式创建预测分布的方法,本节将详细介绍从多个 NWP 模式创建预测分布的方法。


虽然从技术上讲,每一种集合原理(如集合预测系统 EPS [66]、多模型集合 MME [67]或时滞集合 TLE [68])都可用于不同形式的预测分布创建,但往往只有在特定技术中使用单一类型的集合才有意义。在此,我们将重点讨论创建粒度时间点预测的技术(即无情景或轨迹预测)。情景(或轨迹)预测可生成未来可能发生的事件,在许多应用中都非常重要,例如机组承诺或能源存储规划。这些类型的预测与上述集合类型的单个时间步的概率预测密切相关。情景预测通常使用能量得分[36]进行评估,能量得分是连续排序概率得分(CRPS,详见第 6.1 节)或变异图得分(详见文献[69])的多变量广义化。不过,本文主要关注独立时间步长和单一地点的预测(即不特别关注节奏空间一致性预测)。因此,情景或轨迹预测不在本文讨论范围之内。有兴趣的读者可参阅 [70]、[71]。不过,我们将在第 9 节讨论情景预测的一些可能应用。


4.1.概率分布采样(EPS 集合)


如前所述,NWP 可被视为某一时间点可能出现的天气情况的基本(不可观测)概率分布中的一个样本。有些预报系统从基本概率分布中抽取多个样本,这些系统通常是集合预报系统(EPS)[50] 或情景预报系统[71]。给定一些 J 采样的 NWP 预报,可以为每个 NWP 创建一个确定性功率预报,形成一组功率预报值 y^1,,y^J 。.这些功率预测值反过来又是发电空间中潜在预测分布的样本,假定它们是独立且相同的分布(i.i.d.)。


与用于构建预测分布(见第 2.1 节)的定量预测不同,这些预测并不提供其在密度函数中的位置信息,因为它们是基础概率分布的随机样本。因此,它们在集合中的功率预测值之间也没有确定的概率质量。相反,它们是随机过程的实现,对集合的贡献相同。因此,可以从一组功率预报值中估算出一个密度函数,其形式为对每个集合成员具有相同权重 1J 的多个 δ 函数,这些 δ 构成了具有 (21)p^(y)=1Jj=1Jδ(yy^j). 的整体pdf。这种形式的密度函数如图 7.1 所示。因此,相应的 cdf 定义为 (22)P^(y)=1Jj=1JH(yy^j), ,其中 H 是海维塞德阶跃函数,单次幂级数预测作为整体 cdf 的增量。图 7.2 也是这种 cdf 形式的示例。

Fig. 7

  1. 下载 :下载高清图片 (264KB)

  2. 下载 :下载 : 下载全尺寸图片


图 7.表示集合概率分布的不同变体。图 7.1 显示了集合成员的原始分布。使用 EPS 的直接采样策略(见第 4.1 节),可以以阶跃函数的形式构建 cdf(图 7.2)。这种表示方法通常用于集合预测系统的不确定性表示。pdf 也可以连续表示。分布拟合(见第 4.2 节和图 7.3)使用分布均值和展宽的线性修正项对整个集合成员的参数密度函数进行拟合。另一方面,集合修整方法(第 4.3 节和图 7.4)将整体概率分布表示为由一组单独(确定性)预报定义的分量组合。


EPS 样本在许多情况下都会出现系统误差,必须将这些误差考虑在内才能得出准确的预测结果。这一过程通常称为校准。校准的复杂程度各不相同,从简单的偏差校正到更复杂的技术,如模式输出统计(见[46]和第 4.2 节)或集合修整技术(见[47]和第 4.3 节)。文献[72]进一步讨论了校准的必要性,文献[73]比较了不同的降水预报校准技术。


这种 cdf 表示形式在气象科学领域很流行,特别是用于 EPS 的概率表示。虽然 cdf 结构简单,在使用 EPS 样本时有明确的动机,但它在边际量值方面有一些弱点。例如,EPS 假设观测值低于 EPS 最低成员的概率为 0,而对于一个完美校准的集合,发生这种情况的概率为 2/(J+1) [74]。因此,在设计步骤 cdf 时可以包含 "样本外 "概率[75]。这可以通过使用后处理技术来解决,例如分布拟合或集合修整,其中 EPS 成员与连续分布的期望值相关。


4.2.分布拟合/模型输出统计


从集合中创建预测分布的一种常用技术是对集合预测 y^=(y^1,,y^J) 拟合参数分布。.一些作者将这种技术定义为对预测分布的模式输出进行修正,因为预测分布可能会受到模式偏差和分散误差的影响(而不是构建预测分布)。这些类型的误差可能是由于(季节性)采样效应、长期非稳态(即数据分布的系统性随时间变化,如由于气候的变化)、分散性不足或 EPS 预测偏差造成的。这种影响可以通过某种形式的统计后处理(也称为模式校准)来纠正,以保证可靠性。模式校准的主要原则是利用过去预报-观测数据对的结构来纠正模式输出中的系统误差。这一过程通常也称为(集合)模式输出统计,或(E)MOS。传统的 MOS 可以对确定性模式进行偏差校正。其他相关的概率校准方法有等差数列校准[76]或等比数列回归技术[77]。


另一方面,EMOS 创建的是概率密度预测。这一过程的假设是,集合成员是从可能结果的同一概率分布中独立抽取的样本。然后以 (23)p^(y)=K(yμσ), 的方式构建分布拟合,其中 μ 是 EMOS 中心, σ 是扩散参数。K 是符合公式 (15) 的归一化核函数,其中 y=+K(y)dy=1 .然后使用 (24)μ=a0+a1·y^1++aJ·y^J, 来定义参数。 (25)σ=b0+b1·Std(y^),a0,,aJ,b0,b1Rσ>0 。.其中, y^¯ 是集合平均值, Std(y^) 是集合的经验标准偏差。参数 a0,,aJ 定义了集合成员与最优密度函数中心之间的线性关系,而参数 b0,b1 则模拟了集合扩散与拟合密度函数扩散之间的线性关系。图 7.3 展示了利用 EMOS 创建的概率分布结果。


文献 [78] 提出了一种固定 a0=0,a1=1,,aJ=1b0=0,b1=1 的简单技术(因此无需模型训练)。(因此不需要模型训练)的简单技术。文献[46]的作者提出了一种与 CRPS 评分相关的优化方法(见第 6.1 节)。文献[47]将分布拟合方法的性能与集合修整方法进行了比较(见第 4.3 节)。


4.3.集合/内核敷料


集合或内核修正是一种与内核密度估计(KDE)相关的技术。不过,核校正的基础是一些集合预报,而不是一组历史功率测量值。工作原理如图 70.4 所示。在某些情况下,这一过程也被称为统计后处理。其基本思想是利用 J 个集合成员的 (26)p^(y)=j=1J(πj·K(yμjσ)), 构建一个预测密度函数,其核为 K,中心为 μj ,带宽参数为 (26)p^(y)=j=1J(πj·K(yμjσ)), 。、带宽参数 σ 和加权系数 πj 。和加权系数 πj ,同时确保 +p^(y)=1,p^(y)0j=1Jπj=1,πj0 的一致性。.虽然原则上也可以单独调整每个 j 个基础预测因子的参数 σ ,但文献中通常不进行这种调整,而只是将其作为集合成员的函数进行估计,如下文所述。


文献[47]为核敷料方法的分类提供了一个框架,其中包括以下类别


  • (标准)果核敷料(SKD)[79]、


  • 贝叶斯模型平均法(BMA)[80] 和


  • Affine Kernel Dressing(AKD)[47]。


这两种方法在构建参数 μjσ 的方式上有所不同。SKD 使用公式 (27)μj=a0+y^j, 确定参数。 (28)σ=b1·Std(μ),μ=(μ1,,μJ) 其中 a0,b1 为待优化参数。因此,SKD 可以通过修改 a0 对集合成员进行偏差修正,并能改变带宽。带宽参数 σ 是集合成员的分布和参数 b1 的函数。.在 SKD 中,加权系数的常见选择是平均加权。BMA 将修正项扩展为 (29)μj=a0+a1·y^j, (30)σ=b0. ,其中参数 σ 是直接训练的。因此, a0,a1 可以在第一步使用线性回归进行优化。之后,参数 σ 和单个权重 πj 将使用期望最大化算法进行训练,如文献[80]所述。


除了这个修正项之外,贝叶斯预测法还通过在贝叶斯框架中的应用,在加权系数 πj 方面有了不同的视角:BMA 预测是在一组集合点预测的基础上,根据单个模型正确的可能性加权得出的单个预测的平均值。


如果模型的预期质量不同,例如对于多模型集合,BMA 被认为优于 SKD。文献[81]介绍了将多模型集合扩展到 BMA 框架的情况。在文献[49]中,使用 BMA 创建了一个多模型水文预测集合,以优化预测的分散性。多变量时间-空间一致性校准技术通常基于高斯协方差[82],其中包括作为协方差创建前提的 BMA。


另一方面,AKD 将集合解释为信息源,而不是一组可能的结果,其中一个结果被假定为真(如 BMA 方法中的假定)。它再次将校正项扩展为 (31)μj=a0+a1·y^j+a2·y^¯, (32)σ=b0+b1·Std(μ), ,从而将各要素结合起来。 (32)σ=b0+b1·Std(μ),,从而结合了 SKD 和 BMA 的要素,同时还包括一个基于集合平均值 y^¯ 的项,如 [47] 所述。文献[48]对区域气候变化的预测进行了案例研究,使用了扩展了时间自变量的集合修整,包括多变量修整函数和 AKD。文献[60]讨论了集合修整和 KDE 的区别。如文献[17]所述,对于发电量或风速等有界变量,使用 Beta 或 Gamma 核而不是高斯核可能更有优势。


4.4.根据风险指数预测技能类别


技能类别预测是一种不确定性评估技术。它创建了估计技能(估计预测质量)的类别,这些类别是利用预测的风险度量确定的。这种风险指数可以先验计算,即在计算风险指数时不需要观测值(真实功率测量值)。两种最常用的风险指数是归一化风险预测指数(NRPI)和气象风险指数(MRI)。归一化风险预测指数根据集合预测的传播计算风险[33],而气象风险指数则直接评估 NWP 预测在滞后时间跨度上的风速差异[51]。


风险指数值通常被离散化,以表示一些易于解释的技能类别,例如从 1(非常确定)到 5(非常不确定)的 5 个类别,或颜色代码(绿色、黄色和红色)。有了一个包含 N 个数据点的历史数据集,并从中计算出相应的预测误差 e 和风险指数 re,rRN 元组,就可以按以下方法创建风险类别。对风险指数值进行排序,在风险指数值上定义 p 个技能类别(在技能类别之间使用技能类别边界),使各类别的样本数相等(每个类别有 Np 个样本)。


然后,根据每 p 个风险类别中存在的相应预测误差子集创建误差分布。图 8 举例说明了由风险指数和相应误差估计值组成的五个技能类别。横轴表示风险指数的值,在图中的情况下,风险指数被分为五个相同的技能类别。然后,在纵坐标上,每个技能类别的预期误差(MAE)都是通过量化估算计算得出的,如方框图所示。

Fig. 8

  1. 下载 :下载高清图片 (91KB)

  2. 下载 :下载 : 下载全尺寸图片


图 8.技能得分-误差量化图,显示了每个技能类别的预期误差。技能类别取决于预测的预期风险。


经过这一训练过程后,在进行业务预测时,首先要计算当前预测的风险指数,然后使用匹配风险类别误差的条件分布作为不确定性估计。当假定所得到的误差分布是一个对称区间时,就可以创建预测 pdf,例如使用公式 (2)。


5.不确定性表示的评级


表 2 给出了 3 从单一 NWP 预测模式构建预测分布和 4 从集合预测模式构建预测分布的概率预测技术的评级。箭头表示负面、中性或正面特征。评价类别如下


表 2.对第 3 节和第 4 节的概率预测技术进行多类别评级。符号 , 分别表示负面、中性或正面特征。

Empty CellDistribution assumptionAmount of required training dataInterpolation / extrapolation propertiesBoundary characteristicsQuality of extreme quantiles (EQ)
 准公制 固定、不灵活
只有少量参数

良好的线性内推和外推法
 取决于分布 取决于分布
KDE 非参数
所需数据随预测因子维度的增加而增加

没有趋势,只是看到了数据点。

所需的边界方法(如反射法

取决于分布和核宽度
AE 非参数
所需数据随预测因子维度的增加而增加

没有趋势,只是看到了数据点。
 不成问题
可能尚未观测到的罕见事件
QR
非参数量值集

准确的极端量值需要大量数据

良好的线性内推和外推法

某些模型需要截断

仅取决于几个极端数据点
PI
非参数对称区间集

精确的极端覆盖需要大量数据

良好的线性内推和外推法

某些模型需要截断

仅取决于几个极端数据点

 EPS 采样器
非参数无参数 pdf 构建

理论上,pdf 构建不需要训练数据

取决于确定性功率模型

取决于确定性功率模型

对 EQ 而言,物理模型的典型确保尺寸太小
 Distr.配件 固定、不灵活
只有少量参数

良好的线性内推和外推法
 取决于分布 取决于分布
 恩斯着装 非参数
只有少量参数

良好的线性内推和外推法
 取决于分布 取决于分布
 技能猫预测  非参数对称
灵活的类别数量

猫与猫之间没有突然过渡的趋势。
 需要截断 不够精确


是否对分布的形状做出假设,这一点很重要。由于典型的误差分布可能是长尾和严重倾斜的,因此能够适应不同形状的 pdf 的技术更为可取。在实际应用中,所需的训练数据量至关重要。在某些应用中,能用很少的可用训练数据做出准确的预测至关重要。模型的内推和外推能力(即为不在训练数据集(密集)区域的数据点创建预测的能力)也是一个重要特征。我们认为,能够创建(平滑的)线性内推/外推的模型比假定预测对象恒定发展的模型更可取。另一个重要方面是模型在边界(如发电量等正向量的 0 或 oinst )上的特征。没有边界问题的模型自然更好。此外,还要对模型创建精确的极值量值估计的能力进行评级。对于大多数模型来说,极值量值估计都是一个挑战。根据定义,极值样本是罕见的,因此不适于对量位数等统计量进行令人满意的估计。如果无法对分布做出假设,问题就会特别严重。在许多应用中,具有便于估计概率分布中这些定量的特性的模型更为可取。


表 2 总结了上述所有预测模型的特征。作为结论,可以找出具有相似特征的几组模型,如(1)参数模型、分布拟合和集合修整,(2)KDE 和 AE,以及(3)QR 和 PI。可以看出,参数模型(包括分布拟合和集合修整)更适合训练数据较少的情况,但非参数技术在数据可用性较高的情况下可能表现更强。对于除 AE 以外的大多数模型来说,边界处理都不是难事。从理论层面上讲,EPS 集合因其物理驱动的构造原理而非常优雅。这种构造使 EPS 能够更容易地发现极端天气事件,即使该事件的数据中没有或只有很少的历史证据。EPS 模型还可以通过扰动更容易地显示可能的极端效应。在实践中,它可能会出现分散误差,需要使用校准技术。


估计极端量值是一项非常困难的任务,对所有模型都是一个挑战。使用极值理论中的补充技术(如 [26] 的技术)可能有助于估计这类极值量值。在许多情况下,参数分布(如指数分布或 Weibull 分布)可用于稳健地估算预测的非参数分布的尾部,并对样本很少或没有样本的区域进行推断。量化回归等方法(见表 3)的缺点可以因此得到部分改善或消除。


首先,计算单个或多个 NWP 预报是一项计算成本极高的任务。概率功率预报的计算时间(用于模型训练或应用)可能也与此有关。如果模型很少需要评估,那么选择不需要训练步骤的模型(如模拟集合或 KDE)可能是合理的。不过,由于每次评估都要搜索历史数据,因此评估这些模型的成本可能会更高。参数模型的优势在于,与非参数模型相比,参数模型的参数通常较少,这有可能加快训练过程。此外,与量化回归等非参数模型相比,参数模型可以在预测分布中的任意量化点进行评估。在 pdf 范围内预测点的模型(如 QR 或 PI)通常计算速度较快,但是,当希望得到精度更高的 pdf 时,必须针对不同的量化值重复这一过程。在时间要求较高的应用中,还应注意校准过程的计算时间。


表 2 中的许多评分都比较主观。例如,假设非参数建模更可取,因为建模过程可以是任意分布的。如果预测的分布是事先已知的,则最好采用参数分布来创建预测。另一个主观性的例子是 QR 的外推特性。QR 会考虑数据中的趋势,并试图对训练数据中未包含的区域做出更好的说明。然而,这可能会导致不切实际的错误,如带有负性能值的条件分布。与这些例子类似,我们也可以为许多评估找到反驳的理由。尽管如此,我们还是认为应该进行这样的评估,以加深我们对这些方法与问题相关的要求的理解。


6.评分规则和分数分解


本节介绍对概率预测-观测对进行数值评估的概念。第 6 节将讨论评分规则和评分规则分解的一般方面。6.1 连续概率排序得分(CRPS)、6.2 忽视得分(IGN / CRIGN)、6.3 量值得分(QS)介绍了已提出分解的最广泛使用的评分规则。


为了评估预测算法的质量,需要将预测的预测分布与预测分布试图预测的相应 "真实 "观测值进行比较。在概率时间序列预测中,与传统的分布比较的主要区别在于,预测分布通常是时变的,因此,每个评估的时间步长都不同。适合这类比较的误差分数称为评分规则。评分规则 S(p^,o) 对预测分布 p^ 与相应观测值 o 的关系进行评分。


表 3 概述了最常见的评分规则,[1]、[72]和[36]对这些规则做了部分详细介绍。表中给出了评分的计算方法,以及评分是否恰当、是否局部的说明。用于不确定性评估的评分函数最重要的标准之一是它是适当的。严格意义上的适当意味着,当(且仅当)预测的分布与 "真实的"(不可观测的)分布完全匹配时,评分才能达到最优值。从形式上讲,这可以用理想预测者的概念来描述,如 [30] 中所述。对于所有实例(或时间点) n1,,N ,"真实的 "数据生成器都是 "理想的"。对于所有实例(或时间点) n1,,N ,"真实 "数据生成过程的特征是分布 Gn ,该分布可能因每个 n 而异。对于每个评估的时间点,预测模型会创建一个预测分布 Hn=p^n(y) 。.理想的预测者总是会发布预测分布 Gn 。即 (33)Hn=Gn,n. 。如文献[83]所述,对于理想预测者和任意竞争预测模型 F 的 H 中的所有密度函数 (34)E[S(H,G)]E[S(F,G)] ,如果评分规则 S 是适当的,那么只有当 H=F 时,评分规则 S 才是适当的。.适当的分数是非对冲性的,这意味着不能利用分数定义中的系统性弱点来创建预测分布,从而获得更好的分数(如 [21] 中所述)。因此,适当的得分总是倾向于理想预测模型,而不是其他预测模型。我们以 PMCC 评分(表 3 中的 #10)为例,说明如何对冲评分。该分值由两部分组成,一部分用于惩罚期望值与实际观测值的平方差,另一部分用于惩罚预测分布的标准偏差(理论上应鼓励更敏锐的预测)。分值越接近零越好。如果我们想对冲这个分数,我们可以简单地发布一个过于尖锐的预测分布(其中 Std[p^(y)]0 ),这样会得到一个更好的分数,而不会产生任何副作用,因为期望值 E[p^(y)] 保持不变。因此,如果预测分布与 "真实 "分布相匹配,那么得分就不会达到最小值,因此是不恰当的。有关适当性的更多详情,请参阅 [20]、[29]、[36]。


表 3.连续变量最常用的评分规则概述。在区间一栏中,下划线值表示得分的最佳值,也就是正向或负向。

fx7


虽然适当性被普遍认为是一种理想属性,但对评分函数是否应具有局部性却有广泛的讨论。局部评分只评估观测点 o 所在位置的概率密度。图中显示了两个具有相应 cdf 的 pdf,它们由两个高斯的混合模型给出。两个混合模型的左侧高斯完全相同,而右侧分量在其中一个 pdf 中发生了偏移。局部评分(如 IGN 评分)与分布形式无关,因为它只评估观测点所在位置的概率密度(如图 9.1 和图 9.3 所示)。相比之下,非本地评分还考虑了观测点周围的概率密度。如图 9 所示,非本地评分的直观优势在于,(正确的)较窄预测分布应得到奖励。然而,文献中通常认为,在给定两个预测分布的情况下,非本地评分原则上会导致目标观测点概率密度较高的预测分布的评分较差。例如,[20]、[84]、[85] 等文献给出了支持和反对本地评分的更多论据。从表 3 中可以看出,评分规则具有不同的适当性和局部性。此外,它们在评估函数(pdf、cdf)、评估整体密度函数(如表 3 中的评分 1 - 6)或采样 cdf 值(如 QS 和 IS)以及是否只评估 pdf 的时刻(如 DSS、PMCC)等方面也各不相同。能量评分(表中未显示)是 CRPS 评分的多元概括[36]。因此,它经常被用于场景评估[86]、[87]。文献[88]分析了能量评分的判别能力。文献[1]的作者将确定性误差评分与(概率)评分规则框架联系起来,使用了一致评分函数这一术语,它构成了点预测(概率)评分规则的一个特例。

Fig. 9

  1. 下载 :下载高清图片 (285KB)

  2. 下载 :下载 : 下载全尺寸图片


图 9.局部性原理图解。图 9.1 和 9.3 显示了两个预测 pdf 和相应的观测值。这两个 pdf 由两个高斯的混合模型构建而成,其中左分量在两个 pdf 中完全相同。右分量在两个 pdf 中的偏移量不同。局部得分(如 IGN 得分)只评估观测点位置(深灰色线)的概率密度。因此,在两个 pdf 中, IGN 的误差分值(实际上)是相同的。然而,使用非局部评分(例如 CRPS )时,评估的是相应的 cdf 而不是 pdf。图 9.2 和 9.4 中的阴影区域表示 CRPS 的误差区域,与两个 pdf 相对应。从图中可以看出,对这一误差区域进行评估的非局部分数会对两种分布变体产生不同的误差。


对于有 n=1,,N 个预报-观测对的数据集的评估,所有评分规则的评分都可以用 (35)S¯=1Nn=1NS(p^n(y),on). 形式的平均值来计算。在质量评估中,通常将评分函数与作为基线的参考预报(如气候预报)进行比较,使用的技能评分方法为 (36)SS=1S¯/S¯ref. 这些技能的范围为 [,1] 。1 分表示结果完美,小于 0 分则表示 "不熟练",因为其表现不如基准技术。


评分函数评估预报系统的整体技能。不过,如果需要对可靠性和清晰度(解释见第 2.2 节)进行更详细的分析,一些评分规则可以分解为可靠性、分辨率和不确定性三个部分,形式为 (37)S¯=RELRES+UNC. 。可靠性属性详见第 2.2 节。分辨率描述了电力预测模型发布不同于评估时段平均观测值的预测的能力。因此,它在很大程度上取决于不确定性,即评估时段数据集中观测值的平均(无条件)分布。在某些情况下,术语 UNCRES 也被定义为潜在得分,如 [50] 和 [89]。潜在得分是 "考虑了不确定性的分辨率",因此与锐度属性关系更为密切。在可靠的预测系统中,分辨率的提高也会导致锐度的提高 [30]。通过对误差分值的分解,可以更好地了解误差产生的原因(即是由于系统不可靠还是由于锐度不够)。下面,我们将重点介绍


  • 连续排序概率评分(CRPS)[90]、[50]、


  • 无知分数(IGN)[74]、[91]和

  •  定量分值(QS)[92]


6.1 连续排序概率得分(CRPS)、6.2 忽视得分(IGN/CRIGN)、6.3 量值得分(QS),这些都是文献中提出的最常用的评分规则。


6.1.连续排序概率得分(CRPS)


连续排序概率得分(CRPS)可能是评估预测分布质量最著名的方法。它在 [90] 中首次提出。它是二元布赖尔得分(BS)的连续排序版本。CRPS 的原理是评估两个累积密度函数 (cdf) 之间的面积差。CRPS 由 (38)CRPS=(P^(y)H(yo))2dy, 计算得出,其中 P^(y) 是特定时间点的预测分布 cdf, H(yo) 是观测值的相应 cdf,它是一个海维塞德(Heaviside)阶跃函数,其阶跃点位于观测位置。如果预测分布的不确定性与观测值的平均分布相匹配,则 CRPS 的值最小。如果用 CRPS 评估确定性预测,误差函数就等同于平均绝对误差 (MAE),因为确定性预测的 cdf 在这种情况下是一个阶跃函数。CRPS 可以解释为所有可能阈值的布赖尔分数积分,这也导致了 [74] 中所述的分解。用于集合预测系统的 CRPS 的另一种分解形式见 [50]。此外,还有用于分类预测任务(RPS)的 CRPS 版本[74]。文献[93]讨论了用于多模型集合的 CRPS 变体,作者还进一步介绍了 CRPS 的变体 CRPSSD 。该变体旨在消除 CRPS 对 EPS 采样分布(公式 (22))和较小集合规模的一些偏差影响。在 [83] 中,CRPS 的量子加权变体用于强调预测分布的某些部分。


6.2.无知得分(IGN / CRIGN)


从信息论评分中产生了许多评分函数。Kullback-Leibler (KL) 发散等 "经典 "指标无法直接应用,因为预测分布 p^(y) 在每个时间步中都会发生变化,只能与当时的单个观测值 o 进行比较。因此,一种流行的评分规则是无知分(IGN),它是基于香农熵的 KL 发散的改进版 [60]。IGN 由 (39)IGN=lnp^(o), 定义,其中 p^(o) 是观测点位置预测分布的概率密度。如果概率 p(o) 为零,IGN 的取值可能会有问题。例如,[94]、[95] 等文献介绍了处理这一问题的技术。


与 CRPS 不同,无知度得分是一个局部得分,即它只评估观测点 o 所在位置的概率密度 p^(o) ,而不是整个预测分布。无知度得分有多种名称,如对数得分 [36]、[17]、分歧得分 [96] 或预测偏差 [97]。对于二元预测,如降水概率预测,交叉熵得分[98]、[96]与无知度高度相关。文献[91]、[74]对无知度得分进行了分解。对于连续预报,IGN 的分解只能以 (40)CRIGN=ln|P^(y)(1H(yo))|dy, 计算的连续排序形式(CRIGN)进行,这就失去了其局部性,因为要考虑的是整个预报分布,而不是观测点 o 的局部评估。

 6.3.定量分值(QS)


文献[61]中提出的量化评分(QS)或弹球损失是一种相当新颖的非局部评分规则,直接来源于用于量化回归的弹球函数 ρτ (见公式(17))。在经济学文献中(例如 [83]),量化得分函数也被称为 tick 或 check 函数。量分最初是为 3.4 节中介绍的量值回归设计的,但如果可以计算出反 cdf,它也可以应用于任何预测分布。单个量级 τ 的 QS 定义为 (41)QSτ=ρτ(P^1(τ)o), ,其中 P^1(τ)=y^(τ)τ 量级的量级预测。正如文献[99]所述,弹球损失函数是一种与 CRPS(见第 6.1 节)密切相关的适当评分规则,但据说比 CRPS 更容易实现。量化评分经常用于实际应用和数据科学竞赛中,例如在 [100] 中。弹球损失函数的分解方法与 CRPS [92]类似,都是对预测进行离散化处理。


量值分数(QS)评估的是单个量值 τ ,而不是整个预测分布。而不是整个预测分布。在实际操作和模型选择中,很多情况下,人们关心的是预测分布的整体形式,而不仅仅是单个量化值的位置(例如,分布的极值量化值)。我们可以认为,简单地对所有 L 个预测量值的量值分数进行平均,即 (42)QS¯=1Ll=1LQSτl 的形式,就能对整个预测分布进行评估。然而,这显然是有问题的,因为每个量化等级的 QS 误差值大小不同,我们将在第 7.2 节中进一步探讨。


7.实验评估


为研究分数特征(表 3 中提到的分数),使用了 EuropeWindFarm 数据集(可在[101]中公开获取)中的风场数据,其中包含欧洲 37 个风场两年内的测量数据和天气预报。如果没有特别说明,则使用 EuropeWindFarm 的风场 "wf3 "来研究某些误差效应。在实验中,第 7.1 节研究了评分规则的相似性和辨别能力(性能良好的概率预测模型与性能较差的预测模型的相似性和辨别能力)。在第 7.2 节中,对量化得分分解进行了分析。此外,还研究了偏差(第 7.3 节)、离散(第 7.4 节)、量化数(第 7.5 节)和参数变化(第 7.6 节)的影响。


7.1.分辨能力


为了评估不同评分的相似性和鉴别能力,对 37 个风电场中的每个风电场分别训练和评估了四个概率预测模型。选择功率预测模型的目的是提供一组具有不同质量和特征的多样化概率预测。最简单但仍然可靠的概率模型(Clim)是样本气候学模型,可预测训练数据集的功率测量经验边际分布。该模型不考虑与时间相关的天气信息。同塞尔德线性回归(LR)模型根据天气参数的加权组合创建预测,以正态分布的形式预测期望值。LR 的参数估计基于最大似然法,而最大似然法在无知分值方面是最优的。


图 10 显示了用表 3 中给出的分数对不同功率预测模型进行单独评估的结果(海瓦里宁分数除外,因为它与根据量值构建 pdf 的方法不兼容)。每个子图显示了四个功率预报模式的单独评分规则,图中位置越低,结果越好。在不使用现有输入天气数据的情况下,Clim 功率预测模型

Fig. 10

  1. 下载 :下载高清图片 (284KB)

  2. 下载 :下载 : 下载全尺寸图片


图 10.表 3 中给出的分数分析(Hyvärinen 分数除外)基于四种概率功率预测:气候预测 (Clim)、均方差线性回归 (LR)、模拟集合 (AE) 和 37 个风电场的量化回归 (QR)。由于模型的复杂性,可以认为 Clim 的性能最差,LR 的结果较好,而 AE 和 QR 的性能最强。得分轴的选择是为了使较好的预测结果处于较低的位置。相比之下,最简单的模型(Clim)显示的分数中值最差。除了 SphS 之外,其他模型的得分都没有显示出类似的预测能力排序。预计 AE 和 QR 模型的表现要好于 LR 模型(LR 模型是线性和同方差的)。CRIGN、CRPS、QS、IS 和 DSS 在按质量对模型排序方面表现出色,而 LS、QuadS、IGN 和 PMCC 则处于中间位置。在这一应用中,由于定量pdf 是逐步恒定的,因此 SphS 并不十分适用。


在所有风电场和功率预测模型中,每个分数都要计算 148 次。在此计算基础上,可以检查每个得分与其他得分之间的经验关系。图 11 显示了研究分数的分布图,其中两个分数之间的距离代表根据经典多维尺度得出的相关性大小,如文献[102]所示。分数以地图原点为中心,地图轴按方差排序。欧氏地图距离与皮尔逊相关系数成正比,因此距离为 1 相当于相关系数为 0。例如,PMCC 和 SphS 的相关性最小,约为 0.11,因此在地图中的距离最大。QS和CRPS的相关性最高,为 0.999 ,它们的位置非常接近。许多分数对的位置可以用表 3 中给出的分数公式的相似性来解释。在相应观测点的位置评估预测概率密度函数是 IGN、LS、QuadS 和 SphS 的共同特性。这些分数集中在地图的右侧。PMCC 和 DSS 基于预测概率预报的期望值和标准偏差,位于左上方区域。此外,IS 和 QS 基于观测值与各自量化值之间的线性非对称惩罚。CRPS 和 CRIGN 都是基于一个函数的积分,该函数对预测的 cdf 与观测值处的重边函数之间的差值区域进行惩罚。对于中位数的单量化预测,QS 和 CRPS 与平均误差相似。一般来说,IS、QS、CRPS 和 CRIGN 具有相似的行为,因为它们通过积分或弹球函数的线性加权,以相关的方式考虑异常值。

Fig. 11

  1. 下载 :下载高清图片 (75KB)

  2. 下载 :下载 : 下载全尺寸图片


图 11.根据 37 个风电场和所有四种功率预测模型的所有得分的皮尔逊相关系数,得出 [102] 中给出的经典多维比例。两点之间的距离与相应得分的相关系数成正比。值得注意的是,CRPS、CRIGN 和 QS 等得分集中在左侧区域。同时,如图 10 所示,这些分数最适合用来区分功率预测模型的质量。得分公式中的相似性所带来的进一步关系也是显而易见的,例如 IS 与 QS、LS 与 QuadS 或 PMCC 与 DSS 之间的关系。


7.2.使用量化分值和分解对分布进行评估


本实验的目的是展示量化评分及其分解在用于评估整个预测分布而非仅评估单个量化位置时的特性(这也是量化评分最初的设计目的)。在一个合成实验中,我们分析了 QS 及其分解([92]中提出)在一组从正态分布 N(x|μ=0,σ=1) 中抽取的 1000 个样本上的行为。.量子点预测 y^(τ) 是直接根据分布计算出的集合 τ={0.05,0.1,,0.95} 中的 19 个量子点,即量子点位置是随机样本生成过程的最优位置。然后人为地修改量值位置,以创建正偏差、负偏差、低分散和超分散分布(分别通过在量值位置上添加或乘以一个定义值)。图 12 显示了实验结果。

Fig. 12

  1. 下载 :下载高清图片 (672KB)

  2. 下载 :下载 : 下载全尺寸图片


图 12.合成数据的量化得分(QS,左)和量化技能得分(QSS,右)分解,详见第 7.2 节。对量化预测进行了修改,以产生系统偏差和离散误差。从最左下角的图中可以看出,QS 的不确定性成分取决于评估的量化值 τ (与其他形式的分解不同)。(与其他分解形式不同)。QSS 消除了不确定性分量的这种系统性变化,从而更清晰地解释了预测分布,因为不同量级的误差效应(如可靠性分量)更加明显,可比性更好。


图的左侧显示了 QS 及其分解成分。从图中可以看出,即使是最优估计变量的 QS 值,也会随着所选的量化值 τl 的不同而变化。.根据期望值,对于量值的最优估计(Opt.分辨率分量也接近于 0(如图所示,分辨率分量的比例为 103 )。),因为在本实验中没有解释变量(预测因子),这意味着最优估计可视为气候预测(分辨率为 0)。因此,总体 QS 值的变化主要归因于不确定性成分(UNC),这也是分解的结果。对于其他形式的分解(如 CRPS、CRIGN),UNC 完全取决于观测值元组 o=(o1,,oN) 的值。.对于 QS,UNC 的解释有所不同,因为它还取决于量化值 τl 。如左下图所示,对整体 QS 有不同的贡献。因此,如果 QS 值是根据不同的量化值计算得出的,则不具有可比性。此外,不同的误差贡献在图 12 最左上角的 QS 汇总图中几乎不可见。因此,分解对于精确确定误差类型非常必要。


为了更好地进行比较,可以使用以气候预测为基线技术的量化技能得分(QSS)。对于每个量级 τl 时,可以使用 (43)QSS=RESRELUNC 计算 QSS,如文献[74]所述。这种技能得分计算方法等同于公式(36)中提出的方法(而且对每个可分解的技能得分都是可行的)。这样,"Opt.如图 12 右侧图表所示。即使只查看 QSS 总分(右上角),也能更清楚地观察到实验中合成引入的误差。在这里,偏差效应清晰可见(所有量级上的误差,如右侧第二幅图所示,可归因于可靠性)。此外,离散误差也清晰可见,因为中心量级的误差较低,而向外量级增加。不过,QS 和 QSS 都无法说明离散误差的方向。可以看出,现在 UNC 已经标准化。因此,不同量化等级的量化技能分值更具有可比性。


此外,[92] 中提出的 QS 分解包含一个用于概率分选的子采样参数,这通常是评分规则不需要的属性。图 13 显示了 QS 值随量化数和子取样参数值的变化情况。可以看出,当选择非常小的量化数或子采样参数值时,QS 确实会发生显著变化。然而,当两个元素的值越大时,得分的差异就越小(右上角)。为了进行模型比较,仍应选择相同的评估量化数和相同的 QS 子抽样参数值,以获得可比的 QS 分解结果。

Fig. 13

  1. 下载 :下载高清图片 (126KB)

  2. 下载 :下载 : 下载全尺寸图片


图 13.量子点得分(QS)随评估的量子点数量和 QS 分解子采样参数的变化情况。可以看出,子取样参数或量化值越高,得分差异越大(右上角)。


总之,使用 QSS,每个量级的误差值大小相同,因此具有可比性(与传统 QS 不同)。因此,与传统 QS 相比,QSS 误差更适合于使用公式 (42) 对概率分布的形式进行整体评估,这一点在 [103] 中已经讨论过(没有专门讨论 QS 分解)。


7.3.偏差对分解分数的影响


其中一种典型误差出现在有偏差的预测中。下面的示例试图检验在 "实验室条件 "下,为实际风电场的预测分布添加不同偏差值时的得分行为的某些方面。为了提供具有相同信息量的纯偏差预报,明确允许负预报或预报值超过额定容量,而不对其进行 "剪切"。预测算法采用模拟集合。图 14.1 显示了 CRIGN、CRPS 和 QS 这三种可分解评分规则在人为偏差方面的表现。在本实验中,我们研究的是原始形式的评分规则,而不是任何改变其表达能力的形式(如使用技能评分)。

Fig. 14

  1. 下载 :下载高清图片 (455KB)

  2. 下载 :下载 : 下载全尺寸图片


图 14.对分解评分规则的偏差(图 14.1)和分散效应(图 14.2)的实验研究。人为修改了真实世界的风电场数据集,以诱发偏差和分散误差。从图中可以看出,所有调查的评分都能正确识别未经修改的预测系统。不过,这些评分对某些误差影响的敏感度不同。此外,分辨率部分的差异也是显而易见的,这说明不同形式的分辨率在信息价值上存在系统性差异,特别是在 QS 方面,这可以从预报算法的 "理论潜力 "而不是模型传播评估的角度来解释。在图 14.2 中,误差值均以最高总分值为标准进行了归一化处理,以便在图中更好地显示。不确定性分量没有显示,因为它们要么是常数(CRPS、CRIGN),要么与图 12 左下方 QS 图的形状相同。


第一行显示的是未分解的汇总分数的行为。这些分数显示出相似的行为,因为当没有人为添加偏差时,它们都达到了最小值。随着偏差绝对值的增加,预测质量也会下降,这一点从误差分值的增加可以看出。从图中可以看出,分数的绝对值不同。在 QS 和 CRPS 比较接近的情况下,CRIGN 值要比 CRPS 值大 约高出 3 倍。从可解释性的角度来看,CRPS 更为可取,因为在评分结果中几乎可以观察到一比一的偏差大小(例如, +1 的偏差导致 CRPS 值为 1)。第二行显示的是实验中评分规则的可靠性部分。由于越来越多的偏差会导致越来越多的观测结果出现在预测概率较高的区域之外,因此可靠性也随之降低。这种行为与总分的行为类似。最令人惊讶的结果出现在第三行,即评分规则的分辨率部分。一方面,CRIGN 和 CRPS 再次显示出相似的行为,因为它们的形状相似,而且得分之间的比率与总分的比率相等。另一方面,QS 的分辨率部分是恒定的,因此显然与偏差的大小无关。与 CRIGN 和 CRPS 不同的是,QS 分辨率能够显示有偏差预报的 "理论能力",而不是预测预报现状的分辨率。对于有偏差的预测,理论能力确实保持不变。使用简单的校准技术(即偏差校正),就可以很容易地对预报进行校正,以获得可靠性(从而获得较低的总分)。


7.4.分散对分解分数的影响


系统误差的第二种基本类型是预测的分散性(或价差)估计不准确。本实验的目的是说明散布误差对评分规则值的影响。为了展示对评分的影响,我们使用量化回归算法,对人为操纵的真实风电场数据进行了第二次实验。为了产生纯粹的离散误差,我们对经过训练的实际预测分布进行了处理,在保持预测中位数不变的情况下,系统地产生了过于或不够自信的预测。实验结果如图 14.2 所示。图中,离散度用函数 2x 进行了修改。因此, 1 的离散值表示预测过于自信(真实分布宽度的 50%),0 表示原始分布,1 表示宽度的 200%,即预测不够自信。为了在同一张图中更好地显示结果,我们用每个汇总得分的最大值对分值进行了归一化处理。


从总分中可以看出,所有分数的最小值都位于对分布的正确估计点(这证实了分数适当性的假设)。CRPS 在两个方向上对置信度错误的惩罚大致相同,而 CRIGN 对置信度不足的惩罚更大。另一方面,QS 对过度自信的惩罚更为严厉。根据预期,这种行为反映在每个分数的可靠性部分,因为诱发的错误可以归因于可靠性错误。然而,对于 CRIGN 和 CRPS 而言,随着预测分布的扩大,分辨率分量会稳步增加。另一方面,QS 在所有评估情况下都保持不变。这证实了一个假设,即 QS 分辨率部分的实际解释与 CRPS 和 CRIGN 的解释截然不同。CRPS 和 CRIGN 的分辨率可以从预测分布的平均分布的角度来解释,而 QS 的分辨率则再次描述了预测系统在校准后(如通过调整参数预测模型的分布)产生准确预测的理论能力。除偏差和分散误差外,还可能出现其他形式的误差(如分布形状误差)。形状误差反映在可靠性和分辨率部分。


7.5.定量数的影响


本实验分析了在真实世界数据集(wf3)上提高预测分布精度时评分规则的行为。本实验的目标是研究不同的评分规则在改变预测分布的细节数量时的表现。为了改变分布的精度,我们使用不同数量级来构建整体预测分布。量化值 τ1,,τL 被定义为在 [0,1] 范围内等距。.作为概率预测算法,使用了有 40 个邻域的模拟集合。结果如图 15.1 所示。整个分布的 QS 用公式 (42) 计算。为了在同一图中更好地显示,每个分值都根据其在数据集中的最高值进行了归一化处理。

Fig. 15

  1. 下载 :下载高清图片 (443KB)

  2. 下载 :下载 : 下载全尺寸图片


图 15.通过使用更多的等距预测量化值,分析预测分布形式越来越详细对误差分值的影响(图 15.1)。可以看出,预测分布的形式越详细,总分的分值就越高。在可靠性方面,可以观察到 QS 与评估的量化值数量无关。更多详情见第 7.5 节。图 15.2 中的实验研究了在使用模拟集合进行评估的情况下,从点预报到气候长期平均值的扫频特征预报算法的评分规则行为。从图中可以看出,最佳模拟数是显而易见的。有点出乎意料的是,在这个最佳值之后,可靠性误差确实增加了,然后再次接近气候预测的低可靠性误差。有关该试验的更多详情,请参阅第 7.6 节。


从图中可以看出,随着预测分布精度的提高,所有分数都能获得更好的结果。其中,CRPS 和 CRIGN 更明显地受益于预测分布精度的提高。误差的减少可归因于分辨率的提高和可靠性误差的降低。当评估的量化值数量增加时,所有得分都会向得分值的下限靠拢。


QS 几乎没有从更多的量化评估中获益,这完全符合预期,因为它只评估量化位置,而不是整个预测分布。在 QS 的可靠性部分,可以看到 QS 特性的主要区别。除了轻微的抽样影响外,可靠性与评估的量化值数量无关,因为使用公式(42)计算整体 QS 的每个量化值都是可靠的。因此,当对一组可靠性大致相同的量化值进行求和时,总体平均可靠性保持不变,与计算中实际使用的量化值数量无关。然而,分数值的降低必须归因于在对多个量值进行 QS 汇总时不确定性的变化,如图 12 所示。因此,该实验再次显示了使用 QS(不同于 QSS)评估整体预测分布时的困难,详见第 7.2 节。正如文献[93]所指出的那样,在只有少量定量分布的情况下,CRPS 的得分较高是意料之中的。此外,作者还提出了 CRPS 的修改版本,以考虑由 EPS 预测(使用公式 (22))建立的小集合分布。不过,本实验并未使用 EPS 预测。建议的修改版 CRPS 针对的是预测中的一个实际问题(评估基于小规模 EPS 集合的预测),而不是改进 CRPS 的系统性弱点。


7.6.概率预测技术的不同参数特征


在本实验中,对评分规则在预测的一个实际方面的行为进行了研究。一些预测算法(如模拟集合、核密度方法)具有这样的特性,即能够从高分辨率但可能不可靠的预测,逐步执行到非常平稳可靠但宽泛不具体的预测。预测模型可以朝着上述目标之一进行优化。因此,在本实验中,我们将评估模拟集合算法的评分规则,同时从少量模拟情况到所有可用的模拟情况进行 "扫描",这相当于样本气候学。我们的目的是分析评分规则的总分、可靠性和分辨率。


实验结果如图 15.2 所示。为了在一张图中更直观地显示结果,评估的评分规则按每个汇总得分的最大值进行了归一化处理。从图中可以看出,检查得分与最佳类比数一致。在 20 至 150 个类比之间,得分值仍然较低。这种情况与上述预期相符。分辨率分量在类比数较少时处于较高水平,随着类比数的增加而稳步下降,这也符合预期。然而,QS 出现了出乎意料的情况,即在最大模拟数时分辨率不为零,尽管这种预测的预测分布在一段时间内保持不变。我们可以预期,模拟集合的可靠性误差会迅速减小到某一点,然后才会缓慢改善,最终达到具有最佳可靠性的气候预测。虽然可以观察到模拟数较少时误差会迅速减小,但可靠性误差会在最佳值之后增大。因此,与预期相反,更多的模拟并不一定会带来更可靠的预报。一种解释是,在出现这种问题的数据集中,低功率情况通常占主导地位(因为,即使当前 NWP 很高,也有可能预测到低功率发电情况,因为所有高功率发电情况的近邻都已用于创建模拟集合,因此,对于剩余的模拟,选择的是不可感知的情况)。因此,预测分布主要由不相似的观测数据组成,这阻碍了该技术准确预测高发电量和其他罕见事件的能力。

 8.见解


本节将讨论我们的主要发现,这些发现得到了第 8.1 节中有关概率误差分数的实验和第 8.2 节中有关分解特征的实验的支持。

 8.1.评分适用性


在实验评估中,我们研究了一些常用评分规则的行为。其中一个主要结果是,二次评分和球形评分并不适合基于量化 pdf 表示的评估。不过,这些评分规则是否更适合连续可变的密度函数还有待观察。Hyvärinen 评分是一种局部评分,但它与基于量值的 pdf 构建不兼容,因为阶跃 pdf 的推导简化为 δ (狄拉克)函数(δ)。(Dirac) 函数 ( p^ ) 或 0 (p^) 。分别。因此,作为适用于所有可能分布形式的通用度量,IS 并不合适。居中 IS 只是两个区间边界的 QS 的缩放版本。因此,IS 具有与 QS 相同的性质。考虑到分而治之的原则,QS 仍然是更灵活、更容易优化的计分规则。因此,我们认为 QS 比 IS 更可取。QS 是本研究中唯一能够评估预测分布中定义概率水平的评分规则。因此,在研究极端量值(EQ)时,它非常适合显示 "异常值 "的影响。另一方面,在创建用于估计 EQ 的模型时,不应将 QS 用作损失函数,因为异常值可能会主导极值量化模型的形式,如 [2] 中所述。特别是在电力预测方面,这可能对电网平衡电力规划有用。


DSS 和 PMCC 等分数可对预测分布进行基于时刻的统计。虽然它们适用于评估预测分布的最重要特征(模型传播和偏差效应),但在解决更高的矩属性时,例如在功率预测中经常出现的严重偏斜分布时,它们可能会出现问题。不过,它们很容易理解,这可能是一个优势。在使用来自量值的密度预测时,局部分数可能难以评估,例如,如果相邻的量值预测坍缩在相同的幂值中(导致量值预测特定点的密度值为无穷大)。这个问题可以通过正则化技术来解决。虽然 SphS 和 QuadS 都是非局部分数,但它们也表现出局部分数的特性(因为它们都在观测点 p^(o) 的位置评估密度),因此也会出现同样的现象。


正确性被认为是评分规则的必要属性(如避免对冲)。在优化模型训练过程中使用评分规则时,使用适当的评分规则是必不可少的。因此,由于存在类似的简单但适当的评分规则,应不鼓励使用这些规则。在对模型参数进行基于梯度的优化时,IGN 是非常自然的选择,因为它与最大似然估计有关,而 QS 则特别适用于量化回归参数训练。在此情况下没有评估的一个得分是能量得分,它是 CRPS 的多变量广义化。它专门用于评估情景预测。根据实验结果,我们可以总结出 CRPS、CRIGN 和 QS 这三个分数的建议,在不需要调查预测分布的具体特征时,将它们作为评估概率预测的起点。


8.2.分解特征


分解评分规则对于确定预测算法的误差来源很有意义。然而,在很多情况下,计算分解后的分数是一个冗长而不直观的过程,其结果(三个组成部分)并不紧凑。对于某些任务,使用其他分解形式也可能是有利的。例如,[50] 的分解形式将不确定性和分辨率分解为 "潜在 "分量,更易于解释,因为误差等于可靠性分量的误差,即误差定义为 [0,+] ,越小越好。越小越好。


QS 确实具有一些吸引人的分解特性,在某些情况下,这些特性比 CRIGN 和 CRPS 的分解形式更有优势。例如,分辨率部分表达的更多是相关意义上的 "理论潜力",而不是对模型传播的纯粹描述。例如,这可以用于模型选择:在计算出具有相应分解分值的多个模型后,可以选择分辨率最高的模型作为最佳模型,而不是选择汇总分值最小的模型。因此,分辨率最高的模型在校准后可能会得到更低的总分。据我们所知,文献中还没有指出分辨率部分在表示上的这种系统性差异。


分解的计算通常采用适用于 CRPS 和 CRIGN 的一般形式,如 [74] 所述。这种分解形式将连续分解分解为一系列针对每个阈值的二进制问题。虽然这种方法在理论上很有吸引力,但在实践中计算起来却很麻烦,因为其复杂度为 O(N2) ,而 N 是评估样本的数量。为了简化计算,我们可以将量化值分选为若干个定义离散的量化预测值,而不会显著降低精度。这样,计算复杂度就降低到 O(N) 。.然而,这种对幂值的分选再次引入了一个超参数,这通常是评分规则所不需要的属性。然而,[50] 中相当 "可视化 "的分解形式并不存在这些缺点,但目前只针对 CRPS 提出。同样,QS 分解法也有一个次优的分选参数。不过,在实验中,参数值越高,差异越大。不过,在使用 QS 分解法时,应始终注意该参数的值。


9.根据任务选择分数


预测用户可能会对在预测任务中使用哪种分数感兴趣。我们以电力行业决策者的一些示例(潜在)使用案例来说明这一点。


在许多电力市场中,对所需储备容量计划量的估算是由人工专家静态或手动选择的。不过,也可以根据电力预测的不确定性来选择储备容量。输电系统运营商(TSO)在获得可再生能源发电厂的综合(概率)预测后,可根据联合 pdf 的极值来规划储备容量。至于储备容量的估算,主要关注的是极值量值,量值或区间回归模型等模型以及 QS(或 IS)等密切相关的分数自然是最合适的。应特别注意可靠性方面(如使用 QS 分解),以尽可能获得最可靠的预测,这是本应用案例中最重要的特性。即使牺牲预测的准确性,也要保证预测的可靠性(因此,总体评分规则值也会变差)。使用情景预测可对决策过程起到补充作用,并可解决仅靠概率预测无法解决的特征问题(如时间或空间行为)。此外,在利用可再生能源提供平衡电能时,预测高度可靠(有保证)的极端量值至关重要,可利用用于储备容量规划的模型和指标来实现。对于制造业(如电弧炉)和储能应用,其他量值,如(极端)上限量值也可能很有意义。


对于发电厂调度规划(以及电能直销等相关任务)而言,整个概率分布都很重要。整体概率分布有助于估计发电量的期望值和不确定性,从而有助于优化调度过程,并确定最佳投标点,例如在能源交易所(如 [17] 中所述)。产生整个预测分布(而非单个量值)的预测模型是创建预测分布的更直接、更有效的方法。因此,评估整个分布的分数(如 CRPS)是合适的分数。


对于电网节点的拥塞管理和电网状态监测,整个预测分布和极端量值都很重要。发电量预期对于预测电网过载并最终采取电网预防措施等都非常重要。由于拥塞管理是一个以电网稳定性为导向的过程,因此极端量值在保证电网稳定性和确定储备容量方面发挥着重要作用。如果计算出经济风险(即发生概率乘以重新调度措施的经济成本),就可以预测重新调度和上网管理措施对电网的经济影响。因此,概率分布的更大区域(而不仅仅是极端量值)可能会引起人们的兴趣。在这种情况下,使用连续分布是最佳选择,因为使用这些分布可以更好地评估任意概率,而不必从相邻的量值进行内插。


虚拟发电厂或能源存储组合的随机优化过程通常使用确定性预测进行计算。根据概率预测生成情景或使用 EPS 模型运行(校准)中的情景可以补充这一过程,因为可以使用一组抽样预测情景以常规(确定性)方式进行优化。


从更广的层面来购买预测,如果有内部概率校准能力,高 "潜在 "质量是概率预测最有价值的特征。从 7.3 偏差对分解得分的影响和 7.4 分散对分解得分的影响的实验中可以看出,QS 的分解非常适合发现这种潜在质量。校准后,该预测可能会优于潜在能力较弱的校准预测。此外,当有多个预测时,结合不同的天气模型可以提高预测质量。如文献[104]所示,将概率预报组合在一起通常能得到更精确的预报。


10.结论和当前研究课题


本文介绍了创建预测分布的一些最常用技术,并重点介绍了这些概率预测的最常用验证技术。其中,重点介绍了一种通过转换为密度函数来提高不同表示形式可比性的方法。本文介绍了最常用的评分函数,并对一些真实世界的数据集进行了分析,尤其侧重于可分解误差评分。实验表明,使用分解形式的评分规则更容易评估系统误差的来源。不过,不同形式的分解分数在许多方面的可解释性是不同的,特别是在解释评分规则的分辨率部分时。最后,讨论了一些基于实际潜在应用的评分建议。


风能和光伏概率预测领域当前最重要的研究课题之一是多元量的时空一致性预测。除了新的评估技术(如 [69] 中的变异图得分)外,在许多情况下,人们的兴趣还集中在预测分布尾部的精确估算上。为了解决这个问题,目前主要集中在藤状协方差上,如 [105]、[106] 或 [107]。处理时空预测的另一种方法是使用随机微分方程,如文献[108]所述。除此以外,还有一些类似的出版物,如 [109] 或 [110],也是利用随机微分方程,重点研究时间依赖性及其在轨迹预测方面的潜力。正在进行的另一项研究是集合预测系统和集合校准。人们感兴趣的是在进行校准的同时保持甚至改善时空依赖性,如文献[111]中的分析。相关工作侧重于 EPS 的时间独立非参数校准,例如 [112] 中进行的校准。


除了实际价值预测问题外,预测单个事件(如斜坡[113])也变得越来越重要。虽然在 [114] 和 [115] 中对利用深度学习模型进行概率预测这一主题进行了一些研究,但最佳实践架构是怎样的,是否能在总体上提高性能,这仍然是一个未决问题。

 鸣谢


本文是 BigEnergy 项目(HA 项目编号:472/15-14)的部分成果,该项目在黑森州模型项目框架内进行,由 LOEWE Landes-Offensive zur Entwicklung Wissenschaftlich-ökonomischer Exzellenz, Förderlinie 3: KMU-Verbundvorhaben (State Offensive for the Development of Scientific and Economic Excellence) (Grant No. HA 472/15-14) 基金资助。感谢阿德里安-卡尔马(Adrian Calma)在进行附录中的证明时给予的支持。此外,我们还要感谢弗劳恩霍夫 IEE 的斯科特-奥特森(Scott Otterson)提出的宝贵意见。


附录 A.量化分数最小值位置的证明


本节将证明量化得分(QS)的最小值位于观测数据元组的指定量化点 τ 的位置。如公式 (17) 所述,量化得分计算的是给定预测 y 和观测值 o QS(y)=ρτ(oy),=τ·|oy|·H(oy)+(1τ)·|oy|·H(yo). 的误差。2}} 和 n1,,Nonon+1 的观测值元组排序,QS 可写成,QS 可写成 =n=1Nτ·|ony|·H(ony)+(1τ)·|ony|·H(yon). 假设 o 内的观测值{{7}为真,则 QS 可写成 QS(y)=n=1a(τ·|ony|·H(ony)=0+(1τ)·|ony|·H(yon)=1)+n=a+1N(τ·|ony|·H(ony)=1+(1τ)·|ony|·H(yon)=0),=n=1a((1τ)·|ony|)+n=a+1N(τ·|ony|). 由于第一个和中的 ony<0 和第二个和中的 ony0 为真,该项可改写为

fx1

为了以最小误差确定 QS 中 y 的位置,可以用 dQSdy=aN·τ, 求出实际转折点,要求导数为零,即 dQSdy=!0,0=aN·τ, ,也可以用 a=τ·N. 表示。这意味着,如果 y 值的选择使得 on<y 为真的观测值有 τ·N 个,QS 就会达到最小值。因此,QS 达到最小值与 o 的实际值无关。的影响,而只受 o 中元素相对于 τ·N 的顺序的影响。.


附录 B.区间分数与量化分数组合的关系证明


本节将证明区间得分与量化得分的关系。如公式(20)所述,二者之间的关系为 (B.1)α2·ISα(o)=ρτl^(oy^(τl^))+ρτu^(oy^(τu^)). 。回顾一下,名义置信度与 α 和量化值{{2}和 τu^ 的关系是 (B.2)τl^=1τu^=α2. 。根据公式(B.2)的上述关系,公式(B.1)的左侧可表示为 SIS(o)=τl^·ISα(o),=τl^·((u^l^)+2α·(ou^)·H(ou^)+2α·(l^o)·H(l^o)),=τl^·((u^l^)+1τl^·(ou^)·H(ou^)+1τl^·(l^o)·H(l^o)),=τl^·(u^l^)+(ou^)·H(ou^)+(l^o)·H(l^o). ,为清楚起见,这里将其称为标度区间得分(SIS)。公式(B.1)的右侧在这里称为双量值分(DQS), y^(τl^)=l^y^(τu^)=u^ 可以写成 DQS(o)=ρτl^(ol^)+ρτu^(ou^),=ρτl^(ol^)+ρ(1τl^)(ou^),=τl^·|ol^|·H(ol^)+(1τl^)·|ol^|·H(l^o)+(1τl^)·|ou^|·H(ou^)+(1(1τl^))·|ou^|·H(u^o). 关于观测值 o 的位置,可以确定三种不同的位置类别。下文将对粗体字标出的各个类别进行论证。


观测值低于下区间边界 (o<l^) :如果观测值 o 低于 l^ 的位置,则分数可以与 (B.3)SIS(o)=τl^·(u^l^)+(ou^)·H(ou^)=0+(l^o)·H(l^o)=1,=τl^·(u^l^)+l^o. 相等。则可以用 (B.3)SIS(o)=τl^·(u^l^)+(ou^)·H(ou^)=0+(l^o)·H(l^o)=1,=τl^·(u^l^)+l^o. 表示得分相等。对于 DQS,可以用 DQS(o)=τl^·|ol^|·H(ol^)=0+(1τl^)·|ol^|·H(l^o)=1+(1τl^)·|ou^|·H(ou^)=0+(1(1τl^))·|ou^|·H(u^o)=1,=(1τl^)·|ol^|+(1(1τl^))·|ou^|. 来表示相等。由于 ol^ 和{{5}都是{{6},因此绝对值可以改写为{{7}。,绝对值可改写为 =(1τl^)·(l^o)+(1(1τl^))·(u^o),=o+l^+τl^oτl^l^τl^o+τl^u^,=o+l^τl^l^+τl^u^,=τl^·(u^l^)+l^o. 在区间 l^ou^ 内的观测值:对于观测值o在区间 [l^,u^] 内的情况,SIS的计算公式为 [l^,u^] SIS 的计算公式为 (B.4)SIS(o)=τl^·(u^l^)+(ou^)·H(ou^)=0+(l^o)·H(l^o)=0,=τl^·(u^l^). DQS 的等价性可以用 DQS(o)=τl^·|ol^|·H(ol^)=1+(1τl^)·|ol^|·H(l^o)=0+(1τl^)·|ou^|·H(ou^)=0+(1(1τl^))·|ou^|·H(u^o)=1,=τl^·|ol^|+(1(1τl^))·|ou^|. 来表示。由于{{12}为 <0 ,因此绝对值可以改写为{{14}。,绝对值可改写为 =τl^·(ol^)+(1(1τl^))·(u^o),=τl^oτl^l^+τl^u^τl^o,=τl^·(u^l^). 观测值高于区间上边界 (u^<o) :对于观测值 o 高于区间上边界值 u^ 的最后一种情况,可以用 u^ 进行证明。可以用 (B.5)SIS(o)=τl^·(u^l^)+(ou^)·H(ou^)=1+(l^o)·H(l^o)=0,=τl^·(u^l^)+ou^.DQS(o)=τl^·|ol^|·H(ol^)=1+(1τl^)·|ol^|·H(l^o)=0+(1τl^)·|ou^|·H(ou^)=1+(1(1τl^))·|ou^|·H(u^o)=0,=τl^·|ol^|+(1τl^)·|ou^|. 进行证明。由于 o 大于 l^u^ ,绝对值可以写成 l^u^ 。,绝对值可以写成 =τl^·(ol^)+(1τl^)·(ou^),=τl^oτl^l^+ou^τl^o+τl^u^,=τl^·(u^l^)+ou^. 由此可见,对于所有可能的 o 值,式(B.1)的左侧和右侧是等价的,这就证明了两者之间的关系。

Appendix C. Proof of optimality of IS with respect to nominal confidence

This section gives a proof of the convergence of the interval bounds l^ and u^ to achieve the minimum value of the interval score (IS). It also gives a proof that the nominal confidence (1α) actually specifies the amount of values in the prediction interval [l^,u^].

As laid out in Section 3.5 and Eq. (19), the interval score with nominal confidence (1α) is defined asISα=(u^l^)+2α·(ou^)·H(ou^)+2α·(l^o)·H(l^o)As has been proven in Appendix B, this is equivalent toISα=2α·(ρτl^(ol^)+ρτu^(ou^)).Given the relationship(C.1)τ=τl^=1τu^=α2that we denote here as a simple τ for the sake of better readability, we can rewrite ISα asISα=1τ·(ρτ(ol^)+ρ(1τ)(ou^)).For a tuple of sorted observations o=(o1,,oN)RN with n1,,N with onon+1, the IS can be written asISα=n=1N(1τ·(ρτ(onl^)+ρ(1τ)(onu^))).Given the structure of the IS, an observation can either be (1) below the lower interval border on<l^, (2) in the interval l^onu^, or (3) above the upper interval bound u^<on. The index in o that defines the cutting point between case (1) and (2) is denoted as a, whereas the index of the cutting point between case (2) and (3) is denoted as b.

Case (1) can then be written asISα(1)=n=1a(1τ·(τ·|onl^|·H(onl^)=0+(1τ)·|onl^|·H(l^on)=1+(1τ)·|onu^|·H(onu^)=0+(1(1τ))·|onu^|·H(u^on)=1)),=1τn=1a((1τ)·|onl^|+τ·|onu^|).As onl^ and onu^ are both <0, the absolute values can be rewritten as=1τn=1a((1τ)·(l^on)+τ·(u^on)),which can further be simplified to

fx2

Case (2) can be denoted asISα(2)=n=a+1b(1τ·(τ·|onl^|·H(onl^)=1+(1τ)·|onl^|·H(l^on)=0+(1τ)·|onu^|·H(onu^)=1+(1(1τ))·|onu^|·H(u^on)=0)),=1τn=a+1b(τ·|onl^|+τ·|onu^|).As onu^ is <0, the absolute value can be rewritten as=1τn=a+1b(τ·(onl^)+τ·(u^on)),which can be simplified to

fx3

Case (3) can be written asISα(3)=n=b+1N(1τ·(τ·|onl^|·H(onl^)=1+(1τ)·|onl^|·H(l^on)=0+(1τ)·|onu^|·H(onu^)=0+(1(1τ))·|onu^|·H(u^on)=1)),=1τn=b+1N(τ·|onl^|+(1τ)·|onu^|).As ol^ and ou^ are both <0, the absolute values can be rewritten as=1τn=b+1N(τ·(onl^)+(1τ)·(onu^)),which can be simplified to

fx4

The partially defined cases can then be combined to the overall IS function withISα=ISα(1)+ISα(2)+ISα(3),=1τ(a(1τ)l^+aτu^+c1)+(ba)(u^l^)+1τ((Nb)((τ1)u^τl^)+c2).The values of l^ and u^ that minimize the overall IS can then be found via partial differentiation of each variable.

The optimum value of l^ can be found via

fx5

The extremum (turning point) can then be found by equating the derivative to zero, i.e.,ISαl^=!0,which leads to0=1τaN,and can be rearranged to(C.2)a=τ·N.This means that the IS has the minimum score value (regarding l^) if the lower interval border l^ is chosen so that there are τ·N observations for which on<l^ is true.

Insert Para text Here

The optimum value of u^ can be found with

fx6

Again, the minimum value can be found by equating the derivate to zero, i.e.,ISαu^=!0,which leads to0=N1τ(Nb).and can be rearranged to(C.3)b=(1τ)·N.This again means that the minimum IS value regarding u^ is achieved when u^ is located so that there are (1τ)·N observations for which on<u^ is true.

In summary, this signifies that the IS gives the guarantee that it reaches its minimum value if the locations of l^ and u^ are set according to Eqs. (C.2), (C.3). It is interesting that the optimum locations of both l^ and u^ do not depend on each other. It can furthermore be shown that (1α) actually is the nominal confidence (NC) that specifies the coverage probability of the interval or the relative number of samples within the interval. The number of samples within the interval are specified with ba, the relative number of samples can be expressed using NC=baN withNC=(1τ)·Nτ·NN,=12·τ.Given the relationship of Eq. (C.1) with τ=α2, the coverage probability indeed isNC=12·α2,=1α.

References

Cited by (0)

View Abstract