2024_05_05_3c128500fbf4a29248bdg

使用高斯混杂扬声器模型进行可靠的与文本无关的扬声器识别

Douglas A. Reynolds，电气和电子工程师学会会员；Richard C. Rose，电气和电子工程师学会会员

摘要

本文介绍并鼓励使用高斯混合模型（GMM）进行与文本无关的稳健说话人识别。研究表明，GMM 的各个高斯分量代表了一些与说话人相关的一般频谱形状，可有效模拟说话人身份。这项工作的重点是要求使用来自无约束对话语音的简短语句实现高识别率，以及对电话信道传输产生的劣化具有鲁棒性的应用。对高斯混合说话人模型的完整实验评估是在 49 位说话人的电话对话语音数据库上进行的。实验检查了算法问题（初始化、方差限制、模型阶次选择）、频谱变异鲁棒性技术、大群体性能，以及与其他扬声器建模技术（单模态高斯、VQ 编码簿、并列高斯混合和径向基函数）的比较。高斯混合扬声器模型在使用 5 秒干净语音语料时可达到的识别准确率，在使用 15 秒电话语音语料时可达到的识别准确率，扬声器数量为 49 个，并在相同的 16 个扬声器电话语音任务中表现优于其他扬声器建模技术。

I.引言

语音信号传递多个层次的信息。首先，语音信号传达的是所说的话或信息，但在次要层面上，语音信号还传达了说话者的身份信息。语音识别领域关注的是提取语句中的基本语言信息，而说话者识别领域关注的是提取说话者的身份信息。随着与计算机的语音交互在电话金融交易和语音数据库信息检索等活动中变得越来越普遍，仅根据语音特征自动识别说话者的实用性也在增加。

根据不同的应用，扬声器识别的一般领域可分为两项具体任务：验证和识别。在验证任务中，目标是根据声音样本确定某人是否是他或她声称的那个人。在识别说话人时，目标是确定一组已知声音中哪一个最符合输入的声音样本。此外，在这两种任务中，语音都可以被限制为

手稿于 1993 年 9 月 8 日收到，1994 年 5 月 18 日修订。1994.这项工作得到了美国空军部的支持。约瑟夫-坎贝尔博士（Dr. Joseph Campbell）是负责协调本文审核并批准其发表的副主编。

D.A. Reynolds 是美国马萨诸塞州列克星敦麻省理工学院林肯实验室语音系统技术小组的成员。

R.罗斯（R. C. Rose）现供职于美国新泽西州默里希尔市 07974-0636 号 AT&T 贝尔实验室语音研究部。

IEEE Log Number 9406779.是一个已知的短语（与文本相关）或完全无约束（与文本无关）。这两项任务的成功都取决于对语音信号中与说话者相关的特征进行提取和建模，从而有效地区分说话者。

本文介绍了一种基于高斯混合模型（GMM）的新说话人模型，并对其进行了评估，以用于与文本无关的说话人识别。使用高斯混合模型对说话人身份进行建模的原因是，高斯成分代表了一些与说话人相关的一般频谱形状，而且高斯混合模型能够对任意密度进行建模。高斯混杂扬声器模型在包含干净语音和电话语音的 49 位扬声器对话语音数据库上进行了实验评估。实验研究了模型初始化、方差限制和模型阶次选择等算法问题。为了补偿电话信道和手机带来的频谱变化，应用了长期均值去除、差分系数和频率扭曲等稳健性技术，并进行了比较。实验还检验了 GMM 扬声器识别性能与扬声器数量增加的关系。最后，在 16 个扬声器的电话语音识别任务中，比较了高斯混合扬声器模型、单模态高斯模型 [1]、矢量量化（VQ）编码本模型 [2]、并列高斯混合模型和径向基函数（RBF）模型 [3] 的性能。

说话人识别技术可分为三种主要方法。第一种也是最早的一种方法是使用声学特征的长期平均值，如频谱表示或音高 [7], [8]。这样做的目的是平均掉影响声学特征的其他因素，如语音变化，只留下与说话人相关的部分。对于频谱特征，长期平均值代表了说话者的平均声道形状。这种方法等同于高斯分类器，已成功应用于几项难度较大、与文本无关的说话人识别任务中 [1]，[9]。不过，平均过程会忽略很多与说话者有关的信息，而且可能需要较长的语音(

) 才能得出稳定的长期语音统计数据。

第二种方法是在构成语篇的各个音素中模拟说话者的声学特征。通过将测试语篇中的语音声学特征与类似语音中依赖于说话者的声学特征进行比较，可以衡量说话者的差异而不是文本差异。

这种方法可以在扬声器模型训练或识别之前，使用显式或隐式分割法将语音分割成音类。在[10]和[11]中，显式分割是使用基于隐马尔可夫模型（HMM）的连续语音识别器作为与文本无关的说话人识别系统的前端分割器。这两项研究都发现，与不进行前端分割相比，前端语音识别器对说话人识别性能的改善甚微，甚至没有改善。此外，使用连续语音识别器前端会显著增加训练和识别的计算复杂度。

另一方面，隐式分割依赖于某种形式的无监督聚类，在训练和识别过程中对声音特征进行隐式分割。声音类别没有标记，因此不需要对分割器进行单独训练。事实证明，基于模板的聚类，如向量量化 [12], [2] 和

- 近邻与领导者聚类 [13] 等，对这种扬声器识别方法非常有效。在向量量化方法中，每个说话者都由一个代表其语音中音素音群的频谱模板编码本来表示。虽然这种技术在有限词汇（数字）任务中表现出色，但它在模拟无限制语音任务中可能遇到的变异性方面能力有限。在语音识别中，概率模型为语音事件提供了更好的模型，也为处理噪声和信道劣化提供了框架。各种形式的 HMM 已被用作与文本无关和与文本相关的说话人识别的概率说话人模型 [14]，[17]。HMM 不仅对基本语音建模，还对这些语音之间的时序建模。虽然时序结构建模对于与文本相关的任务很有优势，但对于与文本无关的任务，训练数据中的声音排序并不一定反映测试数据中的声音排序，而且几乎不包含与说话人相关的信息。这一点得到了 [15] 和 [17] 中实验结果的支持，这些实验结果发现，在 HMM 说话者模型中忽略转换概率不会影响与文本无关的性能。

第三种也是最新的扬声器识别方法是使用判别神经网络 (NN)。辨别式神经网络不是通过训练单个模型来代表特定的说话者，而是通过训练来建立决策函数模型，从而对已知集合中的说话者进行最佳辨别。最近有几种不同的网络，如多层感知器 [18]、延时 NN [19] 和径向基函数 [3]，被应用于各种扬声器识别任务。一般来说，与独立说话人模型相比，

's 所需的参数数量较少，而且能产生良好的说话人识别性能，可与 VQ 系统相媲美。许多 NN 技术的主要缺点是，当系统中加入新的说话者时，必须重新训练整个网络。

高斯混合扬声器模型属于扬声器识别的隐式分割方法。它为人声的基本声音提供了一个概率模型，但与 HMM 不同的是，它没有在声音类别之间施加任何马尔可夫约束。概率框架还允许应用语音识别领域新开发的噪声和信道鲁棒性技术。在文献 [20] 中，统计背景噪声模型与高斯混合扬声器模型相结合，利用这一框架实现噪声鲁棒性。此外，新模型计算效率高，可在实时数字信号处理器上轻松实现 [21], [22]。

本文的研究涉及说话人识别实际应用中遇到的真实语音数据。例如，语音邮件的扬声器标记必须使用无约束的对话语音，这种语音可能是通过嘈杂的电话线接收到的。在这种应用中，说话人模型必须具有一定的补偿功能，以抵御电话听筒和网络产生的声音失真。此外，由于通常无法控制一个人说话的时间，因此这项研究的重点是使用

简短语音进行识别的性能。在电话质量会话语音数据库中进行的说话者识别实验对这些问题进行了研究。

本文接下来的内容安排如下。在下一节中，我们将介绍高斯混合说话人模型，并说明其在与文本无关的说话人建模中的应用。然后，第三节介绍了高斯混合说话人模型在无约束对话数据库中的实验研究。实验研究了参数估计、模型阶次选择、频谱变异鲁棒性、群体大小的影响以及与其他说话人分类器的性能比较。最后，第四部分给出了总结和结论。

iI.高斯混合扬声器模型

本节将介绍高斯混合模型 (GMM) 的形式，并说明将其用作独立于文本的说话人识别的说话人身份表示的动机。首先介绍了用于提取本研究中使用的 mel-cepstral 特征表示的语音分析。接下来介绍高斯混合扬声器模型及其参数化。使用高斯混合密度进行说话人识别的动机有两个。首先，依赖于说话人的 GMM 中的单个分量高斯被解释为代表一些广泛的声学类别。这些声学类别反映了一些与说话者相关的声道配置，有助于建立说话者身份模型。其次，高斯混合物密度可以平滑地近似于从特定说话者的语音中获得的观测数据的长期样本分布。最后，介绍了最大似然参数估计和说话者识别程序。

A.语音分析

虽然没有专门用于区分说话人的语音特征，但语音频谱已被证明对识别说话人非常有效 [4]。这是因为频谱反映了一个人的声道结构，而声道结构是区分一个人和另一个人的主要生理因素。

图 1.Mel 音阶epstral 特征分析

语音识别。LPC 频谱表示法，如 LPC 共谱系数和反射系数，已被广泛用于说话人识别；然而，这些基于模型的表示法会受到噪声的严重影响 [5]。最近的研究发现，直接计算滤波器库特征对噪声语音识别具有更强的鲁棒性 [6]。在本文中，我们使用从 mel 频率滤波器库中提取的epstral 系数来表示短时语音频谱。

图 1 显示了我们的前端特征提取步骤框图。

短时语音片段的幅度频谱经过预加重，并由模拟 mel-scale 滤波器库进行处理。滤波器库采用的是 [23] 中描述的滤波器库。然后，对数能量滤波器的输出经过余弦变换，产生倒频谱系数。倒数第 1 个倒频谱系数不用于倒频谱特征向量。这种处理每

进行一次，每秒产生 100 个特征向量。

B.型号说明

高斯混合物密度是

分量密度的加权和，如图 2 所示，其公式为

其中，

是

-dimensional 随机向量，

，是分量密度，

，是混合权重。每个成分密度都是

变量高斯函数，其形式为

均值向量

和协方差矩阵

。混合权重满足以下约束条件：

。

完整的高斯混合物密度是由所有成分密度的均值向量、协方差矩阵和混合物权重参数化的。这些参数统称为

在扬声器识别方面，每个扬声器都由一个 GMM 表示，并以其模型

称之。

图 2.

分量高斯混合密度的描述。高斯混合物密度是高斯密度的加权和，其中

, 是混合物权重，

, 是分量高斯。

根据协方差矩阵的选择，GMM 可以有几种不同的形式。如 (3) 所示，该模型的每个高斯成分可以有一个协方差矩阵（节点协方差），一个扬声器模型中的所有高斯成分可以有一个协方差矩阵（大协方差），或者所有扬声器模型共享一个协方差矩阵（全局协方差）。协方差矩阵也可以是全矩阵或对角矩阵。本文的扬声器模型主要使用节点对角协方差矩阵，某些实验中的情况除外。这一选择是基于最初的实验结果，结果表明与节点和大全协方差矩阵相比，使用节点对角线方差的识别效果更好。

C.模型解读

使用高斯混合密度来表示说话者身份有两个主要动机。第一个动机是一个直观的概念，即多模态密度（如 GMM）的单个分量密度可以模拟某些潜在的声学类别集。我们可以合理地假设，与说话者声音相对应的声学空间可以用一组声学类别来表征，这些类别代表了一些广泛的语音事件，如元音、鼻音或摩擦音。这些声学类别反映了一些与说话者相关的声道配置，有助于描述说话者的特征。

第三种声学类别的频谱形状可以反过来用

第三种分量密度的平均值

来表示，平均频谱形状的变化可以用协方差矩阵

来表示。由于所有训练或测试语音都是无标记的，因此声学类别是 "隐藏 "的，即观察结果的类别是未知的。假设特征向量是独立的，那么从这些隐藏的声学类别中提取的特征向量的观测密度就是一个高斯混合物。

使用高斯混合物密度进行说话人识别的第二个动机是，根据经验观察发现

(a)

(b)

(c)

(d)

图 3.分布建模的比较：（a）一位男性说话者 25 秒语句中单个共振频率系数的直方图；（b）最大似然单模态高斯模型；（c）GMM 及其 10 个基本分量密度；（d）分配给 10 元编码本 VQ 中心点位置的数据直方图。

高斯基函数的线性组合能够代表一大类样本分布。GMM 的强大属性之一是它能够对任意形状的密度形成平滑的近似值。经典的单模态高斯扬声器模型通过一个位置（均值向量）和一个椭圆形（协方差矩阵）来表示扬声器的特征分布，而 VQ 模型则通过一组离散的特征模板来表示扬声器的分布。从某种意义上说，GMM 是这两种模型的混合体，它使用了一组离散的高斯函数，每个函数都有自己的均值和协方差矩阵，从而具有更好的建模能力。图 3 比较了使用单模态高斯模型、GMM 和 VQ 模型得到的密度。图（a）显示的是一名男性说话者 25 秒语音中单个共谱系数的直方图；图（b）显示的是最大似然单模态高斯模型；图（c）显示的是 GMM 及其 10 个基本分量密度；图（d）显示的是分配给 10 元编码本 VQ 中心点位置的数据直方图。GMM 不仅提供了平滑的整体分布拟合，其分量还清楚地显示了密度的多模态性质。

此外，由于各分量高斯共同作用于整体 pdf 建模，因此即使特征在统计上并不独立，也不需要完整的协方差矩阵。对角协方差高斯的线性组合能够模拟特征向量元素之间的相关性。使用一组

全协方差高斯的效果，同样可以通过使用一组更大的对角协方差高斯来获得。

D.最大似然参数估计

给定说话者的训练语音后，说话者模型训练的目标是估计 GMM 的参数

，该参数在某种意义上最符合训练特征向量的分布。有多种技术可用于估计 GMM 的参数 [24]。到目前为止，最流行、最成熟的方法是最大似然 (ML) 估计。

ML 估计的目的是在给定训练数据的情况下，找到能使 GMM 概率最大化的模型参数。对于

训练向量序列

，GMM 概率可写成

遗憾的是，该表达式是参数的非线性函数

，无法直接最大化。不过，可以使用期望最大化（EM）算法的一个特例迭代获得 ML 参数估计

。

EM 算法的基本思想是，从初始模型

开始，估计一个新的模型

，使

。然后，新模型成为下一次迭代的初始模型，这一过程不断重复，直到达到某个收敛阈值。这与通过 Baum-Welch 重新估计算法估计 HMM 参数的基本技术相同 [26]。

在 EM 的每次迭代中，都会使用以下重新估计公式，以保证模型似然值的单调增长：

混合物重量：

意思是

差异：

其中

, 和

分别指矢量

, 和

的任意元素。

声学类别

的后验概率为

训练高斯混合扬声器模型的两个关键因素是选择混合阶数

和在 EM 算法之前初始化模型参数。在这两个方面都没有很好的理论指导。

因此，在特定任务中，最好通过实验来确定这些因素。第三节将讨论这些因素对扬声器识别性能的实验影响。

E.发言人身份识别

在扬声器识别方面，一组

扬声器

由 GMM 的

表示。其目的是为给定的观测序列找到后验概率最大的说话人模型。形式上

其中第二个等式是贝叶斯规则。假设扬声器的可能性相同（即

），并注意到

对所有扬声器模型都是一样的，则分类规则简化为

利用对数和观察结果之间的独立性，扬声器识别系统可以计算出

其中

在 (1) 中给出。

III.实验评价

本节介绍高斯混合扬声器模型在与文本无关的扬声器识别方面的实验评估。GMM 说话者识别系统在一个任务域中进行了评估，该任务域中的语句来自通过宽带、高信噪比 (SNR) 信道和窄带电话信道进行的会话语音。实验研究分为四个部分。在第一组实验中，研究了与高斯混合扬声器模型的参数估计和模型阶次选择有关的问题。第二组实验评估了使用电话语音提高性能的几种不同的鲁棒性技术。第三组实验考察了说话者群体规模对识别性能的影响。最后一组实验比较了高斯混合扬声器模型与其他几种分类器的性能，包括单模态高斯、向量量化编码本、并列高斯混合模型和径向基函数。

A.数据库说明

实验主要使用 KING 语音数据库的一个子集 [27]。KING 数据库收集了 51 位男性发言人的对话语音。每个说话者都有 10 个对话，每个对话大约 45 秒，分别记录在 10 个独立的会话中。每段对话的语音由本地的高质量麦克风录制，并通过长途电话链路传输，从而提供高质量（纯净）版本和电话质量版本的语音。实验中，每个说话者使用了五个会话，其中两到三个会话用于训练数据，其余会话用于测试数据。第 III-C-1 节所述的模型初始化实验是在另一个宽带会话语音数据库中进行的，该数据库由 12 个说话人（8 男 4 女）组成。

B.绩效评估

对说话人识别实验的评估按以下方式进行。首先对测试语音进行前端分析处理，生成特征向量序列

。为了评估不同的测试语音长度，特征向量序列被划分为

特征向量的重叠片段。一个序列的前两个片段是

测试片段长度为 5 秒，对应于

帧速率下的

特征向量。

向量的每个片段都被视为一个单独的测试语段。

将识别出的每个语段的说话人与测试语句的实际说话人进行比较，并将正确识别出的语段数量制成表格。对人群中每个说话人的测试语段重复上述步骤。最后的性能评估结果是，在所有测试语段中，被正确识别的

长度语段的百分比

对

的不同值重复进行了评估，以评估与测试语篇长度有关的性能。

每位发言者的测试语音量大致相同，因此性能评估不会偏重于任何特定的发言者。虽然每个发言人的表现可能会有差异，但评估措施的目的是跟踪系统在不同发言人识别任务中的平均表现，以便有一个共同的比较基础。

C.算法问题

初始化：如上一节所述，GMM 训练过程必须以某个起始模型进行初始化。无论起始点如何，EM 算法都能保证找到局部最大似然模型，但 GMM 的似然方程有多个局部最大值，不同的起始模型会导致不同的局部最大值[24]。为了研究模型初始化对说话人识别性能的影响，使用自适应能量阈值语音/静音检测器提取说话人模型。

使用不同的初始化方法进行训练，并用于说话人识别实验。该实验使用了 12 位说话者的对话数据库。说话者由 50 个分量的 GMM 建模，其对角协方差矩阵使用约 5000 个 12 维 mel-cepstral 向量（50 秒）进行训练。测试使用每个说话者约三分钟的语音进行。

第一种初始化方法使用与说话人无关的 HMM 自动分割训练语音。训练数据被分割成 50 个标注的语音类别，这些类别与初始混合成分相对应。然后，班级均值和全局方差作为 EM 训练的初始模型。使用单音声学模型对未标记的训练语音进行强制维特比解码，从而完成分段。声学模型是从与说话者无关、与上下文相关的子词 HMM 平均中获得的。子词 HMM 是在正字法转录的连续语音语篇上用前向-后向算法训练的。第二种初始化方法是从说话人的训练数据（去除静音后）中随机选择 50 个向量作为初始模型的均值，并选择一个身份矩阵作为起始协方差矩阵。

令人惊讶的是，两种初始化方法在扬声器识别性能上没有明显差异。不同的初始模型可能收敛到了似然函数的不同局部最大值，但最终模型之间的差异在扬声器识别性能方面并不明显。此外，两种初始化方法都需要相同次数的电磁迭代来收敛似然函数，因此两种方法在训练速度上都没有优势。这些结果表明，训练高斯混合扬声器模型并不需要复杂的初始化方案。

随后的实验也发现，上述随机均值选择和二进制

均值聚类初始化之间没有显著差异。本文的其他实验采用随机均值选择，然后通过单次迭代

-均值聚类来初始化均值、节点方差和混合物权重。

方差限制：在训练节点方差 GMM 时，我们发现方差元素的量级可能会变得非常小。这对于具有大量（）成分密度的混合物模型来说尤其如此。这些小方差会在模型的似然函数中产生奇异点，并通过扭曲最大似然分类器中使用的说话人模型分数来降低识别性能。如果没有足够的数据来充分训练分量的方差向量，或者使用了被噪声干扰的数据，就会产生这些奇异点。噪声数据中可能包含异常值，从而产生方差非常小的分量。

为了避免这些虚假奇异点，我们采用了方差限制约束。该约束条件为说话人模型中所有方差向量的元素设定了一个最小方差值。对于混合成分

的方差向量的任意元素

和最小方差值

，约束条件为

在每次电磁迭代后都应用于方差估计，以避免最终模型中出现奇点。这是 EM 算法的受约束版本，与无约束版本相比，它能提供更稳健的参数估计[24], [29]。

在设置最小方差值时必须谨慎。如果设置过高，各成分方差会被掩盖为相同的值，这将过度限制模型，从而降低识别性能。如果设定值过低，则可能根本无法实现所需的限制。必须根据经验确定任何特定数据集、特征集和模型大小的方差极限，以优化性能。对 16 个扬声器集进行的初步实验发现，方差极限在

和

之间，可为 mel-cepstral 特征提供最佳鲁棒性。

模型顺序：确定混合物中充分模拟说话人所需的成分数量是一个重要但困难的问题。理论上没有办法先验地估计混合物成分的数量。对于扬声器建模来说，目标是选择对扬声器进行充分建模所需的最少分量，以达到良好的扬声器识别效果。如果选择的混合成分太少，所生成的说话人模型就无法准确模拟说话人分布的显著特征。相对于可用的训练数据而言，如果模型参数较多，选择过多的成分会降低性能，而且还会导致训练和分类的计算复杂度过高。下面的实验检验了 GMM 扬声器识别系统在使用固定和可变数量的训练数据时不同模型阶数的性能。

为了研究 GMM 在每个模型的分量密度数量方面的扬声器识别性能，我们在 KING 数据库的 16 个扬声器子集上进行了以下实验。使用与一分钟语音相对应的 6000 个 25 维 mel-cepstral 向量训练了具有 1、

和 64 分量高斯密度和节点方差的说话人模型。第一和第二阶段用于模型训练，第三、第四和第五阶段用于测试。使用

进行方差限制。图 4 显示了 1 秒、5 秒和 10 秒测试语音长度下，识别正确率与高斯成分数量的关系。

从这些结果中可以得出几个结论。首先，从 1 到 8 个混合成分开始，识别性能急剧上升，超过 16 个成分后则趋于平稳，这表明要对扬声器进行充分建模所需的混合成分数量是有下限的。要保持良好的扬声器识别性能，模型必须至少包含这个最低数量的成分。对于这些扬声器来说，这个下限似乎是 16 个混合成分。

图 4扬声器识别性能与每个扬声器模型的分量密度数量的函数关系。

表 I

不同数量的训练数据和模型订单的 GMM 识别性能

Amount of

培训演讲

Model

Order

Test Length

5 sec

10 sec

30 sec

54.6

79.8

85.6

63.7

87.3

90.5

64.6

85.3

88.4

60 sec

66.1

91.5

74.9

95.7

98.8

78.6

95.6

98.3

9 sec

71.5

95.5

98.8

79.0

98.0

99.7

84.7

99.6

数据。在 5 秒和 10 秒长度的测试语句中，超过这个最小模型阶数的识别性能对混合物成分的数量不敏感。对于 1 秒钟长度的测试语篇，识别性能随着模型阶数的增加而继续提高（速度递减）。这说明了在短语识别中如何有效地使用了模拟更多声学类别的附加成分。超过 32 个高斯成分后，识别性能的提高开始趋于平稳。

在接下来的实验中，使用 30 秒、60 秒和 90 秒的语音，以上述相同的方式训练了 8、16 和 32 分量密度的扬声器模型。不同数量的训练数据依次取自第一、第二和第三阶段，第四和第五阶段用于测试。表 I 显示了完整的识别结果。对于每个模型顺序，表中给出了 30 秒、60 秒和 90 秒训练数据在 1 秒、5 秒和 10 秒测试语句长度下的识别性能。

正如预期的那样，随着训练数据的增加，识别性能也会提高。较短测试语篇长度的识别率提高幅度最大。当训练数据量从 30 秒增加到 60 秒时，所有测试语篇长度的识别率都有最大的提高。将训练数据量增加到 90 秒也能提高识别率，但增幅较小。这表明，要保持较高的说话者识别性能，至少需要一分钟的对话语音。

图 5.使用 30 秒、60 秒和 90 秒语音训练的模型的扬声器识别性能与模型顺序的关系。测试语音长度为 5 秒。

而使用更多的训练数据则会以递减的速度提高性能。不过，需要注意的是，每增加一次训练数据，就会增加一次训练数据。因此，在增加数据量的同时，增加来自不同时段的数据也可能是一个因素。

同样明显的是，训练数据量越小，模型顺序的选择就越重要。图 5 是用不同数量的训练数据训练的模型在 5 秒测试语篇长度上的识别性能与模型阶数的关系图。在所有训练数据量下，16 个成分的性能都达到了峰值。然而，仅使用 30 秒语音训练的 32 混合模型的识别性能有所下降。与使用 60 秒和 90 秒语音时保持不变或略有提高的性能相比，这是一个很好的例子，说明了相对于估算的模型参数数量而言，训练样本不足所产生的影响。

D.频谱变异补偿

从电话网络收集的语音中发现的主要频谱劣化现象是一种滤波效应，它对语音频谱进行了频带限制和频谱整形[30]。由于训练数据和识别数据不匹配，如果不对这种劣化进行补偿，识别性能就会严重下降。作为一阶模型，电话信道引入的频谱变化可通过线性滤波器效应来建模，从而修改 GMM 扬声器识别系统使用的频谱特征。下面将介绍一些频谱变异补偿技术，以生成稳健的电话语音质量特征。

频率校正：为了避免信道带宽的差异和使用任何带外杂散频谱成分，对幅值 DFT 频谱进行了频率翘曲处理。根据公式，翘曲将频率轴映射到一个新的频率轴。

其中

为原始奈奎斯特频率。线性翘曲既消除了指定频率之外的频谱成分，也消除了指定频率之外的频谱成分。

频率范围

，并将频谱扩展到全带宽，以便后续处理。

频谱形状补偿：当语音信号通过代表电话信道的线性滤波器时，其幅度频谱乘以滤波器的幅度响应。如果假定滤波器的幅度频谱相对平滑，则可以证明滤波器的影响是 mel-cepstral 特征向量上的一个加法分量[31]。

其中

是观测到的前谱向量，

是信道滤波器前谱向量，

是输入语音前谱向量。

频谱形状补偿的目的是去除特征向量中的 "偏差 "项

。GMM 扬声器识别系统采用了两种方法：均值归一化和时差系数。

许多扬声器识别系统都采用了均值归一化方法 [32]-[35]。从本质上讲，这种方法是通过从每个特征向量中减去全局平均向量来去除偏差分量。对于一组特征向量

，全局平均向量为

而信道补偿矢量的计算公式为

对于收集到语音的每个信道，在训练说话人模型或进行识别评分之前，会从每个向量中减去全局平均值。这样，所有特征向量都具有相同的全局平均值，说话人的辨别能力就不会受到不同信道偏差的影响。

以上假设的是时变信道滤波器。如果信道滤波器是时变的，则可以使用自适应偏差消除方法（如 RASTA 处理方法 [36]）来消除时变信道偏差。

除了消除信道滤波器偏差外，这种补偿还能消除语音特征向量的全局平均值。这相当于用平均频谱的倒数对语音进行滤波。虽然平均语音频谱确实包含说话者的特定信息，但它会随着时间的推移表现出明显的说话者内部差异 [37], [35]，这可能会降低在不同时间收集的语音上进行训练和测试时的识别性能。平均频谱还容易受说话力度（如声音大或小）和健康状况（如说话人感冒）的影响而发生变化。对干净语音进行平均归一化处理，可以最大限度地减少时段间的变化，从而提高识别性能。在电话语音中使用时，去除全局平均值可最大限度地减少会话间的变化，并消除不同电话信道带来的频谱整形。

将信道滤波器效应最小化的另一种方法是使用 "信道不变 "特征。说话人识别系统中使用的一组信道不变特征是倒频谱差分系数

。

使用差分系数的动机既是为了捕捉动态信息，也是为了去除通常归因于中间通信信道的时变频谱信息。为此，我们创建了一组新的特征，作为epstral 特征向量之间的时间差。对于

帧，差值系数（表示为

）是通过提取相隔

帧的倒频谱特征向量之间的差值形成的：

由于信道滤波器是时变的或缓慢变化的，因此去掉了 (15) 中的偏置项

，剩下的就是语音 cepstra 的差异。

由于差分系数捕捉的是光谱随时间的变化，因此也被称为过渡或动态特征，而栉谱向量则被称为瞬时或静态特征。

差异系数已被证明包含说话者的特定信息，并且与静态倒频谱特征向量相当不相关；然而，当单独使用时，差异系数的表现不如静态特征向量[39]。为了将两个特征集结合起来，差分系数被附加到倒频谱特征向量中。新的特征向量不仅包含信道不变特征，还包含频谱过渡信息和瞬时倒频谱系数。

利用上述补偿技术，我们使用不同电话信道的语音进行了说话人识别实验。实验使用的是 KING 数据库中 16 个说话人子集的电话版语音片段。每个说话人都由 50 个分量的 GMM 建模，训练时使用了第一、第二和第三段的语音（相当于平均 80 秒的训练语音），使用 20 维 melcepstrum 特征向量，方差限制为

。差分系数实验使用了 20 个epstral 系数和当前帧周围

间隔（

帧）的 20 个差分系数。对于频率翘曲，电话带宽

被线性翘曲为全带宽。使用不同补偿技术的识别结果如图 6 所示。

很明显，在没有补偿的情况下，使用电话语音的说话人识别性能会下降。在使用干净语音版本进行的类似实验中，对 5 秒钟测试语句的说话人识别准确率为

，而使用未补偿的电话语音时，识别准确率为

。在各种补偿技术中，将信道变化影响降至最低的最有效方法是均值归一化。这种简单的方法在所有测试语段中平均提高了

。与无补偿相比，仅频谱频率扭曲就能大幅提高

，是第二有效的补偿方法。使用附加的差分系数可提供

图 6.不同频谱变异补偿技术在电话语音中的识别性能。

。在平均值归一化之前进行频率调整，以及使用附加了差异系数的平均值归一化特征，与单独的平均值归一化相比没有明显改善。

E.大人口性能

确定说话人识别任务难度的一个因素是说话人群体的规模。随着系统必须识别的说话人数量的增加，错误分类的概率也会增加。此外，还必须考虑说话者群体的相似性，因为声音特征不同的说话者群体（如一半男性和一半女性的群体）通常比同质性较高的说话者群体（如全部为男性）产生更高的识别性能。以下实验使用纯净语音和电话语音，对全男性说话者集合进行了 GMM 说话者识别系统性能与群体大小的函数关系分析。

在这些实验中，使用 20 维 mel-cepstral 特征向量对每位说话者进行了 50 分量 GMM 建模，该模型具有节点方差。使用第一、第二和第三阶段的所有数据对模型进行了训练（每位发言人的语音时间为

秒），并使用第四和第五阶段的数据进行了测试。每个时段的数据都进行了平均归一化处理，以尽量减少时段间的差异和信道偏差。训练中使用的方差限制为

。对于电话语音，频率带宽

被调整为全带宽。

图 7 显示了 16、32 和 49 个发言人群的识别性能与测试语料长度的关系。在纯净语音的情况下，GMM 扬声器识别系统显然能随着种群数量的增加而保持较高的识别性能。随着群体规模的增加，1 秒测试语篇长度的识别率下降幅度最大，但 15 秒测试语篇长度的识别率在所有群体规模中几乎都是完美的。

与纯语音结果相比，电话语音的性能明显下降。导致性能下降的一个主要因素是某些电话语音的信噪比相对较低。电话语音

(a)

(b)

图 7.发言人数量为 16、32 和 49 人时，发言人识别性能与测试语篇长度的关系：(a) 清洁语音性能；(b) 电话语音性能。

补偿技术只能解决频谱变异问题，因此无法补偿不同信道之间噪音水平的显著差异。对电话语音的检查发现，半数发言者的电话语音会话噪音非常大（信噪比范围大致在 10 到

之间）。16 位发言者使用中等信噪比（约 30

）的语音，结果与使用干净语音的结果相当。然而，随着群体规模的扩大，更多的说话人加入了噪音语音群体，结果性能迅速下降。

F.与其他扬声器模型的比较

最后一组实验比较了高斯混合扬声器模型与其他扬声器建模技术的性能。具体来说，其他技术包括单模态高斯分类器（GC）[1]、向量量化（VQ）编码本[2]、并列高斯混合模型（TGMM）和径向基函数（RBF）[3]。目的是使用相同的数据和前端处理，比较这些不同识别方法的性能。

这些不同的扬声器建模技术代表了扬声器声学特征分布的不同建模方式，因此比较起来非常有趣。在最简单的情况下，GC 通过单模态高斯分布对每个说话者的特征分布进行建模。由于数据是均值归一化的，因此高斯均值向量实际上为零，识别只能基于数据的协方差建模。这与 [9] 中的 "仅协方差 "扬声器识别方法类似。VQ 通过特征空间硬分区的代表性模板对分布进行建模。正如前面所讨论的，GMM 通过使用高斯基函数对说话人的空间进行软分区，对这一概念进行了概括。

RBF 和 TGMM 与 GMM 具有相同的基本结构，但对特征空间的建模方式不同（见图 8）。TGMM 使用一个高斯池，它涵盖了所有说话者的特征空间。最大似然训练程序将每个说话者的混合物权重调整为底层高斯，以最好地模拟他/她的特征分布。底层高斯的参数也会在训练中更新，以匹配整体特征分布。RBF 与上述模型的不同之处在于，它侧重于对特征空间中分隔说话者分布的边界区域进行建模。与 TGMM 一样，它也使用

图 8.TGMM 和 RBF 模型结构。在每种模型中，扬声器都是由一组共同的高斯函数或基函数加权组合而成。

一个基函数池来代表所有扬声器。不过，在训练过程中，基函数是固定的，而扬声器的连接权重则是通过判别标准来训练的。

实验使用的数据来自 16 位说话人的 KING 子集，使用的是电话语音会话。在训练和测试之前，所有会话都进行了平均归一化处理。每个模型都使用第一、第二和第三时段的所有语音进行训练，并在第四和第五时段进行测试。模型使用 20 维 mel-cepstral 特征向量，训练方差限制为

。

模型参数设置如下。使用了两种形式的 GMM，第一种形式（GMM-nv）有 50 个带有节点方差的分量，第二种形式（GMMgv）也有 50 个分量，但每个模型只有一个总方差。VQ-50 扬声器模型每个编码本使用 50 个向量，而 VQ- 100 模型每个编码本使用 100 个向量，两者都使用 LBG 算法[41]训练，使用马哈拉诺比距离和全局对角协方差矩阵。并列高斯混合模型使用 800 个高斯和全局对角协方差矩阵。径向基函数使用 512 个基函数，函数宽度根据经验确定。最后，单模态高斯分类器使用全

协方差矩阵。

表 II 显示了每个模型每个说话人的平均参数数。例如，GMM-gv 的参数数计算公式为 (#mean_vecs + #variance_vecs)

vec_dim + #mixture_weights

。由于使用了节点方差，GMM-nv 的参数数最多，而 GC 由于模型结构有限，参数数最少。GMM-nv 和 VQ-100 模型的参数数量相当，GMM-gv 和 VQ-50 模型也是如此。TGMM 模型和 RBF 模型的参数数不同，原因是数值上的困难阻碍了具有 800 个基函数的 RBF 的训练。

表 III 显示了不同模式下 5 秒钟测试语段长度的识别正确率。表中还显示了仅使用非重叠测试间隔数作为测试次数的二项式标准偏差

。分类器的性能可分为四个等级。在最高级别上，节点方差 GMM（GMM-nv）的绝对性能最好，VQ-100 低约 1.5 个百分点。第二级
表格

文本中讨论的扬声器模型每个扬声器的参数数量

扬声器型号

平均人数

每个扬声器的参数

GMM-nv

2050

VQ-100

2001

GMM-gv

1070

VQ-50

1001

RBF

1152

TGMM

1801

210

表 III

文本中讨论的扬声器模型的扬声器识别性能

扬声器型号

% 正确识别

(测试长度为 5 秒钟）

GMM-nv

VQ-100

GMM-gv

VQ-50

RBF

TGMM

在节点水平上，大方差 GMM（GMM-gv）、VQ-50 和 RBF 的分类性能相似。从节点方差到大方差，GMM 的性能下降表明了方差参数化在模型选择中的重要性。此外，需要注意的是，虽然与 GMM-gv 和 VQ 模型相比，RBF 每个说话人的中心较少，但由于采用了分辨训练，其性能与 GMM-gv 和 VQ 相似。在第三个层面上，TGMM 的分类性能明显较低。这可能是由于使用单一全局方差向量的限制过于严格。最后，仅使用协方差矩阵的 GC 在分类器中识别性能最差。

IV.结论

本文介绍并评估了使用高斯混合扬声器模型进行与文本无关的稳健扬声器识别的方法。这项工作的主要重点是实际应用的任务域，如语音邮件标记和检索。高斯混合扬声器模型专门针对使用来自无限制对话语音的短时语句（可能通过有噪声的电话信道传输）的识别任务进行了评估。

高斯混合模型是基于两种解释来建立说话者身份模型的。首先，高斯成分代表了构成人声的语音的特征频谱形状（声道配置）。通过对底层声学类别建模，说话者模型能够更好地模拟一个人声音的短期变化，从而使短语的识别性能更高。高斯混合扬声器模型也被解释为一种非参数多变量 pdf 模型，能够对任意特征分布进行建模。

实验评估考察了使用高斯混合扬声器模型进行与文本无关的扬声器识别的几个方面。一些观察结果和结论如下

高斯混合扬声器模型的识别性能对模型初始化方法并不敏感。
方差限制对于避免模型奇异性的训练非常重要。
要对扬声器进行充分建模并获得良好的识别性能，似乎需要一个最小的模型阶数（对于这个 16 个扬声器的数据库，需要 16 个模型）。
高斯混合扬声器模型可在扬声器数量增加的情况下保持较高的识别性能（对于全男 49 人的扬声器群，系统对 5 秒钟的干净语音语句的识别率达到，对 15 秒钟的电话语音语句的识别率达到）。
倒频谱平均值归一化是对电话频谱变异退化的一种非常有效的补偿。
通过节点方差参数化，高斯混合扬声器模型在相同的电话语音任务中优于 VQ、RBF、TGMM 和 GC 扬声器建模技术。

这些结果表明，高斯混合模型为使用损坏的无约束语音识别说话人这一艰巨任务提供了一种稳健的说话人表示方法。这些模型计算成本低廉，易于在实时平台上实现 [21]、[22]。此外，它们的概率框架允许与语音识别系统直接集成[42]，并纳入新开发的语音鲁棒性技术

。

致谢

作者衷心感谢 M. S. Ciancetta 船长在大型人群和扬声器模型对比实验中提供的帮助。

参考文献

[1] H. Gish 等人，"电话信道上与文本无关的说话者识别研究"，《电气和电子工程师学会 ICASSP 论文集》，1985 年，第 379-382 页。

[2] F. Soong 等人，"A vector quantization approach to speaker recognition"，Proc. IEEE ICASSP，1985 年，第 387-390 页。

[3] J. Oglesby 和 J. Mason，"用于扬声器识别的径向基函数网络"，《电气和电子工程师学会 ICASSP 论文集》，1991 年 5 月，第 393-396 页。

[4] B. Atal，《从声音自动识别说话者》，Proc. IEEE，第 64 卷，第 460-475 页，1976 年 4 月。

[5] J. Tiemey，"A study of LPC analysis of speech in additive noise"，IEEE Trans.声学、语音、信号处理》，第 ASSP-28 卷，第 389-397 页，1980 年 8 月。

[6] C. R. Jankowski，麻省理工学院林肯实验室未发表的研究。

[7] S. Furui、F. Itakura 和 S. Saito，"通过长时间平均语音频谱识别说话者"，《日本电子、通信》，第 55-A 卷，第 10 期，第 1 页。

[8] J. Markel, B. Oshika, and A. Gray, Jr., "Long-term feature averaging for speaker recognition," IEEE Trans.ASSP-25，第 330-337 页，1977 年 8 月。

[9] H. Gish 等人，"电话信道上与文本无关的说话者识别方法和实验"，《电气和电子工程师学会 ICASSP 论文集》，1986 年，第

页。

[10] T. Matsui and S. Furui, "A text-independent speaker recognition method robust against utterance variations," in Proc. IEEE ICASSP, 1991, pp.

.

[11] Y. Kao, P. Rajasekaran, and J. Baras, "Free-text speaker identification over long distance telephone channel using hypothesized phonetic segmentation," in Proc. IEEE 1CASSP, 1992, pp.177-II.180.

[12] R. E. Helms，"Speaker recognition using linear predictive vector codebooks"，南卫理公会大学博士论文，1981 年。

[13] A. Higgins, L. Bahler, and J. Porter, "Voice identification using nearestneighbor distance measure," in Proc. IEEE ICASSP, Apr. 1993, pp.

[14] A. B. Poritz，"线性预测隐马尔可夫模型与语音信号"，《电气和电子工程师学会 ICASSP 论文集》，1982 年 5 月，第 1291-1294 页。

[15] N. Z. Tishby, "On the application of mixture AR hidden Markov models to text independent speaker recognition," IEEE Trans.Signal Processing, vol. 39, pp.

[16] A. E. Rosenberg, C. H. Lee, and F. K. Soong, "Sub-word talker verification using hidden Markov models," in IEEE ICASSP, Apr. 1990, pp.

[17] T. Matsui 和 S. Furui，"使用 VQ-distortion 和离散/连续 HMMs 的与文本无关的说话者识别方法比较"，《Proc. IEEE ICASSP》，1992 年 3 月，第 I.157-II.164 页。

[18] L. Rudasi 和 S. A. Zahorian，"使用神经网络进行与文本无关的说话者识别"，《电气和电子工程师学会 ICASSP 论文集》，1991 年 5 月，第 389-392 页。

[19] Y. Bennani 和 P. Gallinari，"关于在通话者识别中使用 TDNN 提取的特征信息"，《Proc. IEEE ICASSP》，1991 年 5 月，第

页。

[20] R. C. Rose、E. M. Hofstetter 和 D. A. Reynolds，"将语音和背景综合模型应用于噪声中的说话者识别"，IEEE Trans.2, no. 2, pp.

[21] D. A. Reynolds，"A Gaussian mixture modeling approach to textindependent speaker identification"，佐治亚理工学院博士论文，1992 年 9 月。

[22] D. A. Reynolds、R. C. Rose 和 M. J. T. Smith，"基于 PC 的 TMS320C30 高斯混合模型文本独立说话人识别系统的实现"，Proc. Int.Conf.1992 年 11 月，第

页。

[23] S. B. Davis 和 P. Mermelstein，"连续口语句子中单音节词识别的参数表示法比较"，IEEE Trans.ASSP28，第 357-366 页，1980 年 8 月。

[24] G. McLachlan, Mixture Models.New York：Marcel Dekker, 1988

[25] A. Dempster, N. Laird, and D. Rubin, "Maximum likelihood from incomplete data via the EM algorithm," J. Royal Stat.Soc., vol. 39, pp.

[26] L. Baum 等人，"马尔可夫链概率函数统计分析中出现的最大化技术"，《数学统计年鉴》，第 41 卷，第 164-171 页，1970 年。数学统计》，第 41 卷，第 164-171 页，1970 年。

[27] J. Godfrey, D. Graff, and A. Martin, "Public databases for speaker recognition and verification," in Proc.ESCA Workshop Automat.Speaker Recognition, Identification, Verification》，1994 年 4 月，第 39-42 页。

[28] J. Holmes 和 N. Sedgwick，"使用概率模型进行语音识别的噪声补偿"，《电气和电子工程师学会 ICASSP 论文集》，1986 年。

[29] R. Hathaway, "A constrained formulation of maximum-likelihood estimation for normal mixture distributions," Ann.Stat, vol. 13, no.

[30] J. G. Proakis，《数字通信》。New York：McGraw-Hill Series in Electrical Engineering, 1983.

[31] D. A. Reynolds 和 R. C. Rose，"用于稳健扬声器识别的综合语音-背景模型"，《电气和电子工程师学会 ICASSP 论文集》，1992 年 3 月，第 1 页。П-185-II-188

[32] B. Atal，"语音波的线性预测特征对自动识别和验证说话人的有效性"，

.Acoust.美国声学学会》，第 55 卷，第 1304-1312 页，1974 年 6 月。

[33] S. Furui，"使用统计特征和动态特征的说话者识别方法比较"，IEEE Trans.ASSP-29，第 342-350 页，1981 年 6 月。

[34] M. Krasner 等人，"可变数据条件下与文本无关的说话者识别技术研究"，《Proc. IEEE ICASSP》，1984 年，第 18B.5.1-4 页。

[35] C. Bernasconi，"On instantaneous and transitional spectral information for text-dependent speaker verification"，《语音通信》，第 9 卷，第 129-139 页，1990 年 4 月。

[36] H. Hermansky 等人，"RASTA-PLP 语音分析技术"，《电气和电子工程师学会 ICASSP 论文集》，1992 年 3 月，第 I.121-I.124 页。124 .

[37] S. Furui，"用于自动验证说话人的倒频谱分析技术"，IEEE Trans.ASSP-29，第 254-272 页，1981 年 4 月。

[38] R. E. Bogner, "On talker verification via orthogonal parameters," IEEE Trans.ASSP-29，第 1-12 页，1981 年 2 月。

[39] F. Soong 和 A. Rosenberg，"On the use of instantaneous and transitional spectral information in speaker recognition，" IEEE Trans.声学、语音、信号处理》，第 36 卷，第 871-879 页，1988 年 6 月。

[40] R. C. Rose 和 D. A. Reynolds，"使用自动声学分割进行与文本无关的说话者识别"，《Proc. IEEE ICASSP》，1990 年，第

页。

[41] R. Gray，"向量量化"，IEEE ASSP 杂志，第 4-29 页，1984 年 4 月。

[42] D. A. Reynolds 和 L. P. Heck，"扬声器和语音识别系统的集成"，《电气和电子工程师学会 ICASSP 论文集》，1991 年 5 月，第 869-872 页。

Douglas A. Reynolds (

) 于 1986 年以最高荣誉获得电子工程学学士学位，并于 1992 年获得佐治亚理工学院电子工程学博士学位。

目前，他是麻省理工学院林肯实验室语音系统技术组的工作人员，研究兴趣包括鲁棒性说话人识别与验证、语音识别和瞬态信号分类。

雷诺兹博士是 Eta Kappa Nu 和 Tau Beta Pi 会员。

理查德-罗斯（Richard C. Rose）（

）分别于 1979 年和 1981 年获得加利诺伊斯大学电气工程学士和硕士学位。1988 年，他从佐治亚理工学院获得电气工程博士学位，并完成了语音编码和分析方面的论文工作。

1980 年至 1984 年，他在新泽西州霍姆德尔的贝尔实验室工作，研究数字交换环境中的语音处理问题。1988 年至 1992 年，他是麻省理工学院林肯实验室语音系统技术小组的成员。在此期间，他参与开发了关键词识别技术、语音处理中噪声鲁棒性改进技术和扬声器识别技术。他目前是新泽西州默里希尔贝尔实验室的技术人员，主要从事与语音识别和扬声器验证有关的工作。

罗斯博士是电气和电子工程师协会信号处理学会数字信号处理技术委员会和美国声学学会语音技术委员会的成员。他还是佐治亚理工学院的兼职教师。他是 Tau Beta Pi、Eta Kappa Nu 和 Phi Kappa Phi 会员。

在进行特征识别之前，测试语音中的静音时段会被移除。