一种基于生成式模型的统一中文命名实体识别方法技术

技术编号:39155563 阅读:7 留言:0更新日期:2023-10-23 15:00
本发明专利技术公开了一种基于生成式模型的统一中文命名实体识别方法。该方法的算法模型框架包括:前缀向量表示层、Encoder端与Decoder端三部分。在前缀向量表示层,将可训练的前缀向量组,拼接到输入句子X的起始位置,以提供实体类型相关的提示信息,帮助模型识别输入句子X中的命名实体;前缀向量组和输入句子X经过词向量表映射得到对应的字向量的拼接向量,经过Encoder端编码成隐状态向量,再将输入句子X的字向量与隐状态向量进行线性相加,得到带有实体类型提示信息的输入句子X的最终向量表示;将该最终向量表示输入到Decoder端,使用集束搜索方式进行解码,按照从左至右的顺序逐个字符生成目标序列。本发明专利技术提出的通用化的、基于生成式模型的统一中文命名实体识别算法,能够处理多种类型的命名实体识别任务,经过评测,在多个数据集上取得了超越最新基线模型的准确性,并在小样本场景下表现依旧优秀。并在小样本场景下表现依旧优秀。并在小样本场景下表现依旧优秀。

【技术实现步骤摘要】
一种基于生成式模型的统一中文命名实体识别方法


[0001]本专利技术涉及人工智能和自然语言处理领域,特别涉及一种基于生成式模型的统一中文命名实体识别方法。

技术介绍

[0002]随着大数据、人工智能以及互联网行业的快速发展,各行业各领域已经在社会生产活动中累积了大量的价值数据。命名实体识别研究旨在从非结构化的文本数据中准确、高效、批量地抽取出行业应用所关注的结构化信息,具有重要的科研与应用价值。例如,在搜索引擎领域,命名实体识别能够帮助确认用户查询意图;在生物医疗领域,命名实体识别能够帮助研究者快速收集文献中的药品名称、疾病名称、症状等信息。
[0003]在命名实体识别技术方面,针对英文命名实体的研究与应用已经相对成熟,许多机器学习算法在英文命名实体识别任务上取得了巨大成功。然而,由于英文与中文是两种截然不同的语言系统,将英文命名实体识别算法迁移到中文领域的过程中还存在较大的可提升空间。
[0004]在数据方面,由于互联网文本体裁与来源的多样性,文本中往往包含多种结构复杂的命名实体。例如,在生物医疗领域的患者评论文本中,既包含扁平命名实体,也包含嵌套命名实体与非连续命名实体。识别这些实体能够帮助研究人员加快药物开发速度、帮助厂商快速发现不良药物反应事件,具有重要的应用价值与研究意义。然而,现有的中文命名实体识别算法不能很好地解决包含多种结构类型的命名实体识别任务,仍然缺乏一种高效、准确的统一中文命名实体识别算法。
[0005]基于上述需求背景,我们专利技术了一种基于生成式模型的统一中文命名实体方法。该方法基于生成式预训练语言模型与可学习前缀提示向量,将命名实体识别任务转换为序列生成任务,能够统一处理扁平、嵌套、非连续多种类型的命名实体识别任务,在中文与英文的多个命名实体数据集上取得超过最新基线模型的准确性,并在小样本场景下表现依旧优秀。

技术实现思路

[0006]专利技术目的:本专利技术提出了一种基于生成式模型的统一中文命名实体识别方法,利用生成式预训练语言模型与可学习前缀提示向量解决多种类型的命名实体识别任务。
[0007]为了实现上述目的,本专利技术提出的技术方案为:
[0008]基于生成式模型的统一中文命名实体识别方法,该方法包括如下步骤:
[0009]S1.准备命名实体识别模型评估数据集。本专利技术中的统一中文命名实体识别方法采用中文领域与英文领域的扁平、嵌套、非连续命名实体数据集作为评估数据集。同时,为了证明本方法的小样本学习能力,对以上数据集抽样得到小样本数据集;
[0010]S2.设计基于生成式模型的统一中文命名实体识别算法模型,使用步骤S1中所述的中英文扁平、嵌套、非连续命名实体数据集,训练基于生成式模型的统一中文命名实体识
别模型,并对模型表现进行评估;
[0011]S3.使用步骤S2中设计的基于生成式模型的统一中文命名实体识别算法模型,及步骤S1中所述的中英文扁平、嵌套、非连续命名实体小样本数据集,在小样本场景下训练基于生成式模型的统一中文命名实体识别模型,并对模型表现进行评估;
[0012]所述的基于生成式模型的统一中文命名实体识别方法,步骤S1中所述准备命名实体识别数据集具体方法是:
[0013]S11.数据下载。分别下载命名实体识别方法模型训练及模型评估所需的中文领域与英文领域的扁平、嵌套、非连续命名实体数据集。扁平命名实体数据集包括:中文领域的Ontonotes4.0、MSRA、Resume与Weibo数据集,英文领域的CoNLL2003数据集。嵌套命名实体数据集包括:中文领域的CMeEE数据集与英文领域的GENIA数据集。非连续命名实体数据集包括:英文领域的CADEC数据集;
[0014]S12.数据集划分。对于S11中下载的每一个数据集,随机选取数据集的70%作为训练集,15%作为验证集,剩下15%作为测试集;
[0015]S13.小样本学习数据集准备。为了证明本方法的小样本学习能力,采用Few

NERD的N

way,K~2K

shot采样算法,对于S11中下载的每一个数据集,针对数据集的每个实体类型采样1、5、10、20个样本作为训练集,验证集大小与训练集保持一致,测试集则使用原来的全量测试集。
[0016]所述的基于生成式模型的统一中文命名实体识别方法,步骤S2中所述设计及训练基于生成式模型的统一中文命名实体识别模型具体方法是:
[0017]S21.设计基于生成式模型的统一中文命名实体识别模型,该模型包括前缀向量表示层、编码器端与解码器端三部分,具体地:
[0018]1)前缀向量表示层
[0019]首先,使用BERT

MRC手工构造的提示语句对前缀向量进行初始化:对于第k组前缀向量,使用第k种实体类型对应提示语句的字向量,对前缀向量逐个字符进行初始化。如果前缀向量字符数量大于BERT

MRC的提示语句长度,则对前缀向量剩下的字符进行随机初始化。
[0020]假设数据集有m种实体类型,使用一组前缀向量表示一种实体类型的提示信息。因此,实体类型对应的前缀向量有m组,前缀向量集合可以表示为:PE={[p
11
,

,p
1L
],

,[p
k1
,

,p
kL
],

,[p
m1
,

,p
ML
]}。其中,PE
k
=[p
k1
,

,pk
L
]表示第k组前缀向量,对应第k种实体类型。L表示一组前缀向量的字符数量,即前缀向量长度。因此,前缀向量集合共有m
×
L个可训练元素。
[0021]前缀向量通过前缀向量表映射得到,计算公式如下所示:
[0022][p
k1
,

,p
ki
,

,p
kL
]=Prefix

Embed(I
k1
,

,I
ki

,I
kL
)
[0023]其中,Prefix

Embed表示可训练的前缀向量表。I
ki
表示前缀向量表中第k组前缀向量中第i个字符的下标,p
ki
表示下标I
ki
对应的前缀向量。
[0024]然后,使用重参数化技巧,使得模型能通过神经网络层以学得输入向量更好的表示。具体过程如下:采用一个BiLSTM层对前缀提示向量进行重参数化,其计算公式如下所示:
[0025][e
k1
,

,e
ki
,

,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成式模型的统一中文命名实体识别方法,其特征在于,该方法包括如下步骤:S1.准备命名实体识别模型评估数据集。本发明中的统一中文命名实体识别方法采用中文领域与英文领域的扁平、嵌套、非连续命名实体数据集作为评估数据集。同时,为了证明本方法的小样本学习能力,对以上数据集抽样得到小样本数据集;S2.设计基于生成式模型的统一中文命名实体识别算法模型,使用步骤S1中所述的中英文扁平、嵌套、非连续命名实体数据集,训练基于生成式模型的统一中文命名实体识别模型,并对模型表现进行评估;S3.使用步骤S2中设计的统一中文命名实体识别算法模型,及步骤S1中所述的中英文扁平、嵌套、非连续命名实体小样本数据集,在小样本场景下训练基于生成式模型的统一中文命名实体识别模型,并对模型表现进行评估。2.根据权利要求1所述的一种基于生成式模型的统一中文命名实体识别方法,其特征在于,步骤S1中所述准备命名实体识别数据集具体方法是:S11.数据下载。分别下载命名实体识别方法模型训练及模型评估所需的中文领域与英文领域的扁平、嵌套、非连续命名实体数据集。扁平命名实体数据集包括:中文领域的Ontonotes4.0、MSRA、Resume与Weibo数据集,英文领域的CoNLL2003数据集。嵌套命名实体数据集包括:中文领域的CMeEE数据集与英文领域的GENIA数据集。非连续命名实体数据集包括:英文领域的CADEC数据集;S12.数据集划分。对于S11中下载的每一个数据集,随机选取数据集的70%作为训练集,15%作为验证集,剩下15%作为测试集;S13.小样本学习数据集准备。为了证明本方法的小样本学习能力,采用Few

NERD的N

way,K~2K

shot采样算法,对于S11中下载的每一个数据集,针对数据集的每个实体类型采样1、5、10、20个样本作为训练集,验证集大小与训练集保持一致,测试集则使用原来的全量测试集。3.根据权利要求1所述的一种基于生成式模型的统一中文命名实体识别方法,其特征在于,步骤S2中所述设计及训练基于生成式模型的统一中文命名实体识别模型具体方法是:S21.设计基于生成式模型的统一中文命名实体识别模型,该模型包括前缀向量表示层、编码器端与解码器端三部分,具体地:1)前缀向量表示层首先,使用BERT

MRC手工构造的提示语句对前缀向量进行初始化:对于第k组前缀向量,使用第k种实体类型对应提示语句的字向量,对前缀向量逐个字符进行初始化。如果前缀向量字符数量大于BERT

MRC的提示语句长度,则对前缀向量剩下的字符进行随机初始化。假设数据集有m种实体类型,使用一组前缀向量表示一种实体类型的提示信息。因此,实体类型对应的前缀向量有m组,前缀向量集合可以表示为:PE={[P
11
,...,p
1L
],...,[p
k1,
...,p
kL
],...,[p
m1
,...,p
mL
]}。其中,PE
k
=[p
k1,
...,P
kL
]表示第k组前缀向量,对应第k种实体类型。L表示一组前缀向量的字符数量,即前缀向量长度。因此,前缀向量集合共有m
×
L个可训练元素。
前缀向量通过前缀向量表映射得到,计算公式如下所示:[p
k1
,...,P
ki
,...,P
kL
]=Prefix

Embed(I
k1
,...,I
ki
...,I
kL
)其中,Prefix

Embed表示可训练的前缀向量表。I
ki
表示前缀向量表中第k组前缀向量中第i个字符的下标,P
ki
表示下标I
ki
对应的前缀向量。然后,使用重参数化技巧,使得模型能通过神经网络层以学得输入向量更好的表示。具体过程如下:采用一个BiLSTM层对前缀提示向量进行重参数化,其计算公式如下所示:[e
k1
,...,e
ki
,...,e
kL
]=BiLSTM(p...

【专利技术属性】
技术研发人员:于辉麦丞程黄宜华
申请(专利权)人:江苏鸿程大数据技术与应用研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1