使用 BERT 适配器的 Lexicon 增强中文序列标记

刘 $^{1}$ 伟，傅希燕 $^{2}$ ，张 $^{3}$ 悦，肖 $^{1}$ 文明 $^{1}$ 达摩院，阿里巴巴集团，中国 $^{2}$ 中国南开大学计算机科学学院 $^{3}$ 西湖大学工程学院 $^{3}$ 西湖高等研究院先进技术研究所hezan.lw@alibaba-inc.com、fuxiyan@mail.nankai.edu.cn、月。zhang@wias.org.cn、wenming.xiaowm@alibaba-inc.com

抽象

词典信息和预训练模型（如 BERT）由于各自的优势而被结合起来探索中文序列标记任务。然而，现有的方法仅通过浅层和随机初始化的序列层融合词典特征，并没有将它们集成到 BERT 的底层。在本文中，我们提出了用于中文序列标记的词典增强 BERT （LEBERT），它通过 Lexicon Adapter 层直接将外部词典知识集成到 BERT 层中。与现有方法相比，我们的模型促进了 BERT 底层的深度词典知识融合。在命名实体识别、词分和词性标记这三项任务的 10 个中文数据集上的实验表明，LEBERT 取得了最先进的结果。

1 引言

序列标记是自然语言处理（NLP）中的经典任务，即将标签分配给序列中的每个单元（Jurafsky 和 Martin，2009）。许多重要的语言处理任务都可以转换为此问题，例如词性（POS）标记、命名实体识别（NER）和文本分块。目前最先进的序列标记结果是通过神经网络方法实现的（Lample 等人，2016 年;马和霍维，2016;Chiu 和 Nichols，2016 年;Gui et al.， 2017）。

由于中文句子中缺乏明确的单词边界，中文序列标注更具挑战性。执行中文序列标记的一种方法是在应用单词序列标记之前先执行中文分词（CWS）（Sun 和 Uszkoreit，2012 年;Yang et al.， 2016）。然而，它可能会受到从 CWS 系统传播的分割错误的影响（Zhang 和 Yang，2018 年;Liu et al.， 2019）。

图 1：中文序列标记在不同级别融合词典特征和 BERT 的比较。为简单起见，我们在 BERT 中只显示两个 Transformer 层，并将句子截断为三个字符。

c_{i}

表示

i

-th 汉字，

w_{j}

表示

j

-th 中文单词。

因此，一些方法（Cao 等人，2018 年;Shen et al.， 2016）直接在字符级别进行中文序列标记，这已被经验证明更有效（Ng 和 Low，2004 年;Liu et al.， 2010;Zhang 和 Yang，2018 年）。

最近有两条工作增强了基于字符的神经中文序列标记。第一个考虑将单词信息集成到基于字符的序列编码器中，以便可以显式地对单词特征进行建模（Zhang 和 Yang，2018 年;Yang et al.， 2019;Liu et al.， 2019;Ding et al.， 2019;Higashiyama et al.， 2019）。这些方法可以被视为为神经架构设计不同的变体，以集成离散的结构化知识。第二个考虑了大规模预训练上下文化嵌入的集成，例如 BERT（Devlin et al.， 2019），它已被证明可以捕获隐含的词级句法和语义知识（Goldberg，2019;Hewitt 和 Manning，2019 年）。

由于离散的性质不同，这两条工作线是相辅相成的
和神经表征。最近的工作考虑了中文 NER 的词典特征和 BERT 的结合（马 et al.， 2020;Li et al.， 2020）、中文分词（Gan and Zhang， 2020）和中文 POS 标记（Tian et al.， 2020b）。主要思想是将来自 BERT 和词典特征的上下文表示集成到神经序列标记模型中（如图 1 （a）所示）。然而，这些方法并没有充分利用 BERT 的表示能力，因为外部功能没有集成到底层。

受到关于 BERT 适配器的工作（Houlsby 等人，2019 年;Bapna 和 Firat，2019 年;Wang et al.， 2020），我们提出了 Lexicon Enhanced BERT （LEBERT）来直接在 BERT 的 Transformer 层之间集成词典信息。具体来说，通过将句子与现有词典匹配，将中文句子转换为 char-words 对序列。词典适配器旨在使用 char-to-word 双线性注意力机制动态提取每个字符的最相关匹配单词。词典适配器应用于 BERT 中的相邻变压器之间（如图 1 （b）所示），以便词典特征和 BERT 表示通过 BERT 中的多层编码器进行充分交互。在训练期间，我们对 BERT 和 lexicon 适配器进行了微调，以充分利用单词信息，这与 BERT 适配器（它修复 BERT 参数）有很大不同。

我们调查了 LEBERT 在三个中文序列标记任务

^{1}

上的有效性，包括中文 NER、中文分词

^{2}

和中文 POS 标记。十个基准数据集上的实验结果说明了我们模型的有效性，其中所有数据集上的每项任务都实现了最先进的性能。此外，我们还提供了全面的比较和详细的分析，实证证实了底层特征集成有助于跨度边界检测和跨度类型确定。

我们的工作与现有的神经方法有关，使用词典特征和预训练模型来改进中文序列标记。

基于词典。基于词典的模型旨在通过词典信息增强基于字符的模型。Zhang 和 Yang （2018）引入了一种格子 LSTM 来编码中文 NER 的字符和单词。通过在培训效率方面进行以下努力，它得到了进一步的改进（Gui et al.， 2019a;马等人，2020 年），模型退化（Liu 等人，2019 年），图形结构（Gui 等人，2019b;Ding et al.， 2019），并消除词典的依赖性（Zhu and Wang，2019）。词典信息也被证明对中文分词（CWS）和词性（POS）标记很有帮助。Yang et al. （2019）将晶格 LSTM 应用于 CWS，显示出良好的性能。Zhao et al. （2020）通过词典增强的适应性注意力改善了 CWS 的结果。Tian et al. （2020b）增强了基于字符的中文 POS 标记模型，具有 N -gram 的多通道注意力。

基于预训练模型。基于 Transformer 的预训练模型，如 BERT （Devlin et al.， 2019），在中文序列标记方面表现出优异的性能。Yang （2019）只是在 BERT 上添加了一个 softmax，在 CWS 上实现了最先进的性能。Meng et al. （2019）;胡和 Verberne （2020）表明，使用来自 BERT 的字符特征的模型在中文 NER 和中文 POS 标记方面大大优于基于静态嵌入的方法。

混合模型。最近的工作试图利用它们各自的优势来整合词典和预训练模型。马 et al. （2020）将单独的特征、BERT 表示和词典信息连接起来，并将它们输入到中文 NER 的浅融合层（LSTM）中。Li et al. （2020）提出了一种浅层 Flat-Lattice Transformer 来处理字符-单词图，其中融合仍处于模型级别。同样，字符 N -gram 特征和 BERT 向量被连接起来用于联合训练 CWS 和 POS 标记（Tian et al.， 2020b）。我们的方法与上述尝试将词典信息和 BERT 相结合的方法一致。不同之处在于，我们将 lexicon 集成到底层，允许在 BERT 内部进行深入的知识交互。

还有一些工作使用词典来指导培训前。ERNIE （Sun et al.， 2019a，b）利用实体级和词级掩码，以隐式方式将知识集成到 BERT 中。Jia et al. （2020）提出了实体增强 BERT，使用域进一步预训练 BERT-

图 2：词典增强 BERT 的架构，其中词典功能使用 Lexicon Adapter 集成在第 - th 和 -th Transformer 层之间

k

，其中

c_{i}

表示句子中的第

i

-th 汉字，表示

w s_{i}

分配给字符

c_{i}

的匹配单词。

(k + 1)

ZEN（Diao et al.，2020）用多层 N 元语法编码器增强了中文 BERT，但受到 N 元语法词汇量小的限制。与上述预训练方法相比，我们的模型使用适配器将词典信息集成到 BERT 中，效率更高，不需要原始文本或实体集。
BERT Adapter.BERT Adapter（Houlsby et al.，2019）旨在学习下游任务的特定任务参数，具体来说，他们在预训练模型的各层之间添加适配器，并且只针对特定任务调整添加的适配器中的参数。Bapna 和 Firat（2019）将特定于任务的适配器层注入到用于神经机器翻译的预训练模型中。MAD-X（Pfeif- fer et al.，2020）是一个基于适配器的框架，可实现高可移植性和参数高效的任意传输 tasks.Wang et al.（2020）提出了 K-ADAPTER，通过进一步的预训练将知识注入到预训练模型中，与他们类似，我们使用词典适配器将词典信息集成到 BERT 中，主要区别在于我们的目标是更好地在底层融合词典和 BERT，而不是高效地 training.To 实现它，我们对 BERT 的原始参数进行微调而不是固定它们，因为直接注入-

图 3：截断的中文句子“美国人民（American Peo- ple）”的字词对序列，有四个可能的词，即“美国（America）”，“美国人（American）”，“国人（Compa- triot）”，“人民（People）”。

<

PAD

> "

表示填充值，每个单词都分配给它所包含的字符。
将词典特征放入 BERT 中将影响性能，因为这两个信息之间存在差异。

3 方法

所提出的词典增强 BERT 的主要结构如图 2 所示，与 BERT 相比，LEBERT 有两个主要区别：首先，LEBERT 将汉字和词典特征作为输入，因为中文句子被转化为字符-词对序列;其次，在 Transformer 层之间附加了一个词典适配器，使词典知识有效地集成到 BERT 中。

在本节中，我们将介绍：1）字符词对序列（第 3.1 节），它自然地将单词合并到字符序列中;2）词典适配器（第 3.2 节），通过将外部词典图标功能注入 BERT;3）词典增强 BERT（第 3.3 节），通过将词典适配器应用于 BERT。

3.1 字符-词对序列

中文句子通常表示为字符序列，包含字符级特征 solely.To 利用词典信息，我们将字符序列扩展到字符-词对序列。

给定一个中文词典

D

和一个带有

n

汉字

s_{c} = {c_{1}, c_{2}, \dots, c_{n}}

的词语，我们通过将字序列与

D

匹配来找出该词语中所有可能的词。具体来说，我们首先根据构建

D

一个 Trie，然后遍历句子的所有字符子序列，将它们与 Trie 匹配，得到所有可能的词，以截断的句子“美国人民（American People）”为例，我们可以找出四个不同的词，

$^{1}$ https://github.com/liuwei1206/LEBERT
$^{2}$ 我们遵循主流方法，将中文分词视为序列标注问题。

使用 BERT 适配器的 Lexicon 增强中文序列标记

抽象

1 引言

2 相关工作

3 方法

3.1 字符-词对序列