一种基于预训练模型的部分标签命名实体识别方法技术

技术编号:39046994 阅读:14 留言:0更新日期:2023-10-10 12:00
本发明专利技术公开了一种基于预训练模型的部分标签命名实体识别方法,包括如下步骤:将预测语句输入到整体模型里,得到部分实体词汇和实体类型标签;将部分实体词汇拼接在原始的预测语句中的输入末端组合成字词序列,并得到字词序列对应的头、尾位置序列和字词标签;将得到的实体词token序列和字词标签序列分别通过部分标签小模型中的BERT进行序列编码得到对应序列编码向量后进行拼接得到融合后的特征向量;将得到的特征向量通过部分标签小模型中的transformer特征提取器结合相对应的位置编码进行特征融合得到最终特征向量表示;使用得到的融合特征通过CRF进行标签预测和解码。该方法采用预训练大模型+小模型的方式代替外部词典信息,能有效的进行命名实体识别抽取。能有效的进行命名实体识别抽取。能有效的进行命名实体识别抽取。

【技术实现步骤摘要】
一种基于预训练模型的部分标签命名实体识别方法


[0001]本专利技术涉及信息抽取领域中的命名实体识别
,具体指一种基于预训练模型的部分标签命名实体识别方法。

技术介绍

[0002]命名实体识别是自然语言处理领域的一项基本任务,旨在确定给定文本中命名实体的语义类别,如组织、人名、位置等。作为自然语言处理任务的基石,命名实体识别在许多下游任务中扮演着重要的角色,如关系提取、问题回答等。
[0003]目前,命名实体识别方法有基于词典或规则的方法、基于机器学习的方法、基于深度学习语义编码器的方法。
[0004]基于规则抽取的方法是根据文本特点与定制规则特点匹配的方式完成实体识别和抽取,具有较好的灵活性,操作简单。这类方法通过选择标点符号、关键字、指示词等特征,采用专家构造的规则模板,通过模式和字符串匹配手段来识别实体。
[0005]基于词典的方法最早是和基于规则的抽取方法联合使用的。基于词典的实体识别方法是指词典中的每个词与被处理文档之间注意匹配的过程。这种方法需要构建特定的词典,按照需求将需要识别的文本与构建的字典进行匹配抽取,并在这个过程中不断完善词典。
[0006]上述传统的命名实体识别方法是利用实体词典的先验信息,匹配出句子中的潜在实体词,再通过一些人为归纳总结的规则进行筛选、判断命名实体类型。词典和规则的结合,使得命名实体识别的方法更加灵活、准确。该方法的优势在于速度快,精度高,适合于小规模文本识别。基于词典和规则的实体识别方法的缺点是提取效率和准确率等评价指标远高于人工提取,但是该方法需要该领域专家自定义规则,花费的时间精力过多。不同的实体类型需要定制相应的的规则,移植性差。
[0007]基于统计机器学习的方法是从给定的、已标注好的训练集出发,通过人工构建特征,并根据特定的模型对文本中每个词进行标签标注、实现命名实体识别,使用机器学习的方法后,领域专家不再需要手动构建模板或规则,而是依赖于带注释的语料库,使用这些语料训练模型。
[0008]在基于机器学习的命名实体识别方法中,标注的词语通常使用标注集表示,因此基于机器学习的方法也称为序列标注法。具有代表性的基于统计机器学习的实体识别技术有隐马尔可夫模型、条件随机场模型、最大熵模型和支持向量机等。
[0009]随着计算机算力的提升,深度学习逐渐兴起,基于深度学习的命名实体的方法层出不穷,已经成为命名实体识别的主流方法,其优势在于可以自动从文本中学习语法特征和词典特征,从而大大提高识别精度。这些命名实体识别算法基本都引入深层神经网络(Deep Neural Net,DNN)作为语义编码器进行特征提取,替代了原有复杂繁琐的特征工程。
[0010]除了对输入句子的语义信息编码以外,人们将外部辅助信息也融合进来,扩展了深度学习的命名实体识别模型结构。对于中文命名实体来说,词典信息是使用最广泛的一
种外部信息,它能够提供词汇级的信息与词汇边界,帮助提升命名实体识别的准确性。为了有效的将词汇信息融入到模型中,有人提出了FLAT模型,它基于Transformer设计了一种巧妙位置编码来融合词典信息。这大大的提高了中文命名实体识别的准确率。
[0011]尽管融合词典信息的深度学习神经网络模型能提升实体抽取性能,但是在缺乏词典信息时往往无法工作,使用词典信息也制约了模型的应用场景。另外,由于源域与目标域的领域词典存在差异,源域训练模型学习的词典信息无法迁移到目标域,导致神经网络模型的领域适应性较差。

技术实现思路

[0012]本专利技术的目的是针对现有技术的不足,采用“大模型+小模型”的设计思路,提出了一种基于预训练模型的部分标签命名实体识别方法,采用预训练大模型+小模型的方式代替外部词典信息,缓解词典信息差异问题。通过大预训练模型获取对应语句词汇级提示信息,来帮助进行命名实体识别。
[0013]为了解决上述技术问题,本专利技术的技术方案为:
[0014]一种基于预训练模型的部分标签命名实体识别方法,包括如下步骤:
[0015]S1、将预测语句输入到完成预训练的整体模型里的大预训练模型UIE中,得到部分实体词汇和实体类型标签,所述整体模型包括大预训练模型和部分标签小模型,其中大预训练模型为UIE模型;
[0016]S2、将部分实体词汇拼接在原始的预测语句中的输入末端组合成字词序列,并得到字词序列对应的头、尾位置序列和字词标签,最终按照平面格结构的方式将对应的头、尾位置序列和相应的字词标签序列进行组合得到完整的格结构数据,之后将格结构数据输入到基于Transformer的部分标签小模型中进行编码预测。所述格结构数据中每个格定义为一组跨度,所述跨度涵盖字符、实体词token、实体标签、头部标记和尾部标记;
[0017]S3、在部分标签小模型中将得到的字词token序列和字词标签序列分别通过BERT进行序列编码得到对应序列编码向量后进行拼接得到融合后的特征向量;
[0018]S4、在部分标签小模型中将得到的特征向量通过transformer特征提取器结合相对应的位置编码进行特征融合得到最终特征向量表示;
[0019]S5、使用得到的融合特征通过CRF进行标签预测和解码。
[0020]作为优选,所述步骤S1具体实现过程如下:
[0021]将预测语句S输入到UIE模型中,通过本文模型中的大预训练UIE模型初步识别语句中的部分实体词汇E
p
={e
p,1
,e
p,2
,...e
p,m
},E
p
∈E={e1,e2,...e
n
},m<n。其中E为完全标注的语料中的全部实体集合,n为数据集Grand Truth即E中的实体个数。最终我们得到的部分实体词汇及其类型标签作为部分标签小模型的词汇级提示信息,W=[{e
p,1
,t1}...{e
p,m
,t
m
}],e
p,m
为识别出的部分实体词汇,t
m
为其标签。
[0022]作为优选,所述步骤S2具体实现过程如下:
[0023]将步骤S1初步预测获取的W词汇标签集合拼接在字符长度为l的原始句子S=(s1,s2,...s
l
)的末端。这样我们得到新的字词序列表示S

=(s1,s2,...s
l
,e
p,1
,e
p,2
,...e
p,m
),其长度为L=l+m。其中,l为原始的预测语句的长度,m为部分实体词汇的序列长度。之后我们将字词序列表示S

使用格结构数据进行表示为G,将其输入到部分标签小模型中。
[0024]作为优选,所述步骤S3中字词token序列处理过程如下:
[0025]对于步骤S2中获得的格结构数据表示G中的字词序列token=(g1...g
L
)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的部分标签命名实体识别方法,其特征在于,包括如下步骤:S1、将预测语句输入到完成预训练的整体模型里的大预训练模型UIE中,得到部分实体词汇和实体类型标签,所述整体模型包括大预训练模型和部分标签小模型;S2、将部分实体词汇拼接在原始的预测语句中的输入末端组合成字词序列,并得到字词序列对应的头、尾位置序列和字词标签,最终按照平面格结构的方式将对应的头、尾位置序列和相应的字词标签序列进行组合得到完整的格结构数据,之后将格结构数据输入到基于Transformer的部分标签小模型中进行编码预测,所述格结构数据中每个格定义为一组跨度,所述跨度涵盖字符、实体词token、实体标签、头部标记和尾部标记;S3、在部分标签小模型中将得到的实体词token序列和字词标签序列分别通过BERT进行序列编码得到对应序列编码向量后进行拼接得到融合后的特征向量;S4、在部分标签小模型中将得到的特征向量通过transformer特征提取器结合相对应的位置编码进行特征融合得到最终特征向量表示;S5、使用得到的融合特征通过CRF进行标签预测和解码。2.根据权利要求1所述的一种基于预训练模型的部分标签命名实体识别方法,其特征在于,所述步骤S2中字词序列的长度为L=l+m,其中,l为原始的预测语句的长度,m为部分实体词汇的序列长度,所述字词标签采取B、I、U进行表示,B表示该字符元素为实体的开头,I表示该字符元素为实体片段的中间部分,U表示该字符元素不是实体内容,B

*和I

*表示该字符元素属于类别*的实体开头和中间部分,其中包含了字符级细粒度的实体类型信息。3.根据权利要求2所述的一种基于预训练模型的部分标签命名实体识别方法,其特征在于,所述步骤S3中,字词标签序列处理方法为:首先,对于长度为K的字词标签集E
T
=(,t2,...,t
K
),K为数据集中的实体标签类别个数;结合B、I、U标签,B

*、I

*的类别数与实体标签集E
T
中的实体标签数目相同,因此共有3K+1个实体标签关系,其中分别有K个B

*、I

*和K个实体类别标签*与1个U标签,得到字词标签集E
T

=(r1,r2,...,r
3K+1
),然后对其进行手动补全;对于标签”B

D”可以表示为”begin of drug”;对于标签”I

D”可以表示为”inside of drug”;对于标签”U”可以表示为”unknown”,”D”手动将其补全为”drug”,转化之后的实体标签更能体现实体标签的自然语义;其次,将自然字词标签集E
T

输入到BERT中进行编码,对于每个自然实体标签的BERT输出,用其中[CLS]的token序列向量来表示这个实体标签的语义特征,最终,字词标签的特征序列表示为E
T

∈R
(3K+1)
×
d
;对于字词序列长度为L的语料S

的标签为tag={t1,t2,...t
L
},对于字符s1的标签t1(B

D)我们通过映射查询自然字词标签集E
T

获得对应的标签序列向量,最终,字词标签序列表示为tag∈R
L
×
d
,L为字词标签序列长度,d为向量维度。4.根据权利要求3所述的一种基于预训练模型的部分标签命名实体识别方法,其特征在于,所述步骤S4中位置编码的获取方法为:格结构数据中的头部位置和尾部位置分别表示字符token在原始语料中的第一个和最后一个字符的位置索引,对于只表示一个字符的token,其头部和尾部相同;通过平面格结构方法利用头尾位置变换后的相对位置编码来拟合先验实体信息及其实体标签类型信息;对于两个格i和j,根据在语料中的不同位置,有相交、包含和分离三种
...

【专利技术属性】
技术研发人员:张旻黄雍圣姜明汤景凡
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1