【技术实现步骤摘要】
一种基于预训练模型的部分标签命名实体识别方法
[0001]本专利技术涉及信息抽取领域中的命名实体识别
,具体指一种基于预训练模型的部分标签命名实体识别方法。
技术介绍
[0002]命名实体识别是自然语言处理领域的一项基本任务,旨在确定给定文本中命名实体的语义类别,如组织、人名、位置等。作为自然语言处理任务的基石,命名实体识别在许多下游任务中扮演着重要的角色,如关系提取、问题回答等。
[0003]目前,命名实体识别方法有基于词典或规则的方法、基于机器学习的方法、基于深度学习语义编码器的方法。
[0004]基于规则抽取的方法是根据文本特点与定制规则特点匹配的方式完成实体识别和抽取,具有较好的灵活性,操作简单。这类方法通过选择标点符号、关键字、指示词等特征,采用专家构造的规则模板,通过模式和字符串匹配手段来识别实体。
[0005]基于词典的方法最早是和基于规则的抽取方法联合使用的。基于词典的实体识别方法是指词典中的每个词与被处理文档之间注意匹配的过程。这种方法需要构建特定的词典,按照需求将需要识别的文本与构建的字典进行匹配抽取,并在这个过程中不断完善词典。
[0006]上述传统的命名实体识别方法是利用实体词典的先验信息,匹配出句子中的潜在实体词,再通过一些人为归纳总结的规则进行筛选、判断命名实体类型。词典和规则的结合,使得命名实体识别的方法更加灵活、准确。该方法的优势在于速度快,精度高,适合于小规模文本识别。基于词典和规则的实体识别方法的缺点是提取效率和准确率等评价指标远高于人工提取, ...
【技术保护点】
【技术特征摘要】
1.一种基于预训练模型的部分标签命名实体识别方法,其特征在于,包括如下步骤:S1、将预测语句输入到完成预训练的整体模型里的大预训练模型UIE中,得到部分实体词汇和实体类型标签,所述整体模型包括大预训练模型和部分标签小模型;S2、将部分实体词汇拼接在原始的预测语句中的输入末端组合成字词序列,并得到字词序列对应的头、尾位置序列和字词标签,最终按照平面格结构的方式将对应的头、尾位置序列和相应的字词标签序列进行组合得到完整的格结构数据,之后将格结构数据输入到基于Transformer的部分标签小模型中进行编码预测,所述格结构数据中每个格定义为一组跨度,所述跨度涵盖字符、实体词token、实体标签、头部标记和尾部标记;S3、在部分标签小模型中将得到的实体词token序列和字词标签序列分别通过BERT进行序列编码得到对应序列编码向量后进行拼接得到融合后的特征向量;S4、在部分标签小模型中将得到的特征向量通过transformer特征提取器结合相对应的位置编码进行特征融合得到最终特征向量表示;S5、使用得到的融合特征通过CRF进行标签预测和解码。2.根据权利要求1所述的一种基于预训练模型的部分标签命名实体识别方法,其特征在于,所述步骤S2中字词序列的长度为L=l+m,其中,l为原始的预测语句的长度,m为部分实体词汇的序列长度,所述字词标签采取B、I、U进行表示,B表示该字符元素为实体的开头,I表示该字符元素为实体片段的中间部分,U表示该字符元素不是实体内容,B
‑
*和I
‑
*表示该字符元素属于类别*的实体开头和中间部分,其中包含了字符级细粒度的实体类型信息。3.根据权利要求2所述的一种基于预训练模型的部分标签命名实体识别方法,其特征在于,所述步骤S3中,字词标签序列处理方法为:首先,对于长度为K的字词标签集E
T
=(,t2,...,t
K
),K为数据集中的实体标签类别个数;结合B、I、U标签,B
‑
*、I
‑
*的类别数与实体标签集E
T
中的实体标签数目相同,因此共有3K+1个实体标签关系,其中分别有K个B
‑
*、I
‑
*和K个实体类别标签*与1个U标签,得到字词标签集E
T
′
=(r1,r2,...,r
3K+1
),然后对其进行手动补全;对于标签”B
‑
D”可以表示为”begin of drug”;对于标签”I
‑
D”可以表示为”inside of drug”;对于标签”U”可以表示为”unknown”,”D”手动将其补全为”drug”,转化之后的实体标签更能体现实体标签的自然语义;其次,将自然字词标签集E
T
′
输入到BERT中进行编码,对于每个自然实体标签的BERT输出,用其中[CLS]的token序列向量来表示这个实体标签的语义特征,最终,字词标签的特征序列表示为E
T
′
∈R
(3K+1)
×
d
;对于字词序列长度为L的语料S
′
的标签为tag={t1,t2,...t
L
},对于字符s1的标签t1(B
‑
D)我们通过映射查询自然字词标签集E
T
′
获得对应的标签序列向量,最终,字词标签序列表示为tag∈R
L
×
d
,L为字词标签序列长度,d为向量维度。4.根据权利要求3所述的一种基于预训练模型的部分标签命名实体识别方法,其特征在于,所述步骤S4中位置编码的获取方法为:格结构数据中的头部位置和尾部位置分别表示字符token在原始语料中的第一个和最后一个字符的位置索引,对于只表示一个字符的token,其头部和尾部相同;通过平面格结构方法利用头尾位置变换后的相对位置编码来拟合先验实体信息及其实体标签类型信息;对于两个格i和j,根据在语料中的不同位置,有相交、包含和分离三种
...
【专利技术属性】
技术研发人员:张旻,黄雍圣,姜明,汤景凡,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。