一种基于边界识别的嵌套实体识别方法及系统技术方案

技术编号:27657236 阅读:61 留言:0更新日期:2021-03-12 14:20
本发明专利技术提供了一种基于边界识别的嵌套实体识别方法及系统,对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;将得到的多维向量进行特征编码,得到具有上下文信息的编码向量;对编码向量提取实体边界信息,然后对提取的实体边界信息进行解码,识别得到实体片段的边界,得到实体边界信息;采用识别得到的实体边界信息,对编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,得到实体分类信息;组合得到的实体分类信息和实体边界信息,进而得到待提取的嵌套实体。本发明专利技术通过对嵌套结构进行展平,通过两层边界识别的方法实现了嵌套实体识别,在确保识别准确性的同时,也具有泛化能力。

【技术实现步骤摘要】
一种基于边界识别的嵌套实体识别方法及系统
本专利技术涉及自然语言处理
,具体地,涉及一种基于边界识别的嵌套实体识别方法及系统,对自然语言中的嵌套实体进行识别。
技术介绍
命名实体是自然语言中信息承载的一种基本单元,实体识别是自然语言诸多任务,如信息抽取、阅读理解的基础任务,因此,深入研究实体精准抽取在自然语言处理中具有重要意义。通常,命名实体指文本中具有特殊意义的名词,如人名(PER),地点(LOC),地理区域(GPE),组织机构(ORG)以及其他专有名词或特殊名词。常规的实体识别可以通过深度学习中的序列标注模型(如“长短期记忆-条件随机场”模型等)实现,这类模型可以通过对每个语义单元进行标注,从而获得语义单元的唯一标签,通过对标签进行组合得到实体片段。然而,在命名实体识别中存在一种嵌套现象,使得文字与实体标签之间无法建立一对一关系。因此,对于嵌套实体的识别,现有成熟的序列标注模型无法直接套用。针对嵌套实体的识别,目前主要存在两类方法:一类是按照一定的规则逐层识别嵌套实体,这类方法存在三个严重的缺陷:1)识别不同层次实体产生的误差不断累积,导致模型对实体识别的效果随着层次加深而越来越差;2)层次定义的模糊性导致同一层实体之间的分布差异极大,模型难以精确识别;3)对同一段文本的重复识别带来不必要的计算,增加了计算成本。这些缺陷导致此类方法无法达到实践的需求。另一类方法则是借助外部知识实现对嵌套结构的展平后通过序列标注的方法对实体进行提取。这些外部知识包括正则,标定规则等,是对文本中实体所包含的先验知识的一种归纳。然而,在实践中,不同领域中包含的实体分布和模式各不相同,这导致针对不同的数据集,需要订制不同的外部知识进行提取。因此,这类方法往往在特定数据集上效果显著,而不具有泛化性。基于以上的背景,目前嵌套实体识别存在的主要矛盾在于如何平衡准确性和泛化能力,即研究在保证嵌套实体识别准确性的前提下如何构建具有泛化能力的方法对于嵌套实体识别的实际应用具有重要的意义。目前没有发现同本专利技术类似技术的说明或报道,也尚未收集到国内外类似的资料。
技术实现思路
本专利技术针对现有技术中存在的上述不足,提供了一种基于边界识别的嵌套实体识别方法及系统。本专利技术是通过以下技术方案实现的。根据本专利技术的一个方面,提供了一种基于边界识别的嵌套实体识别方法,包括:对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;将得到的多维向量进行特征编码,得到具有上下文信息的编码向量;对具有上下文信息的编码向量提取实体边界信息,然后对提取的实体边界信息进行解码,识别得到实体片段的边界,得到实体边界信息;采用识别得到的实体边界信息,对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,得到实体分类信息;组合得到的实体分类信息和实体边界信息,进而得到待提取的嵌套实体。优选地,所述对输入文本进行数据预处理,包括:文本预处理和向量嵌入;其中:所述文本预处理,捕捉输入文本的内在信息,包括分词、词性标注、语法解析以及语义解析,得到以词语为单位的文本片段以及文本片段所对应的语法依存树和语义解析树;所述向量嵌入,在文本预处理的基础上,对词汇、字符、词性、语义和语法进行嵌入;其中:词汇嵌入通过预训练的语言模型进行向量化,包括:调用预训练好的中文预训练模型,将每个词汇按照模型提供的接口进行编码作为模型的输入,最后通过BERT计算得到词汇向量;字符嵌入通过卷积神经网络学习嵌入方式,包括:随机初始化字符嵌入表,将每个字符进行编码,通过嵌入表得到初始向量,该向量通过卷积神经网络进行卷积并采用最大池化的方法得到字符级向量;词性嵌入通过随机初始化向量并训练得到,包括:随机初始化词性嵌入表,将每类词性进行编码,通过嵌入表得到词性向量;语义和语法嵌入通过图卷积网络对语义解析树和语法依存树进行卷积得到相应的语义向量和语法向量;经过文本预处理和向量嵌入,将输入文本转化为一个多维向量。优选地,所述将得到的多维向量进行特征编码,得到具有上下文信息的编码向量,包括:利用双向长短时记忆网络对得到的多维向量进行线性变换和非线性扭曲,编码后的向量包含了上下文信息,即为具有上下文信息的编码向量。优选地,所述对具有上下文信息的编码向量提取实体边界相关的信息,然后对提取的实体边界相关信息解码,识别得到实体片段的边界,得到实体边界信息,包括:利用两级指针网络,网状识别具有上下文信息的编码向量的左边界组和右边界序列,再解码为对应的实体边界。优选地,所述两级指针网络包括用于识别左边界组的组序列指针网络和用于识别右边界序列的实体序列指针网络;其中:对于组序列指针网络,其输入为具有上下文信息的编码向量e和上一时刻得到的左边界向量o,通过左边界向量o对编码向量e做注意力操作,得到未标准化的定位概率;对于第j时刻,左边界定位概率为:其中,uj,i为左边界未标准化的定位概率,v,W均为可训练的参数,下标l表示左边界,上标T为向量转置符号;此时,第j时刻选择的左边界向量oj为:oj=argmaxi(uj,i);对于实体序列指针网络,其输入为编码向量、上一时刻得到的右边界向量以及所处组对应的左边界向量,对左边界向量和相应的右边界向量进行拼接,再对编码向量做注意力操作:其中,uj,k,i为右边界未标准化的定位概率,下标p,r,k分别为右边界和对应第k个左边界,上标T为向量转置符号;最终得到的右边界向量为oj,k=argmaxi(uj,k,i)。优选地,所述采用识别得到的实体边界信息,对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,得到实体分类信息,包括:采用识别得到的实体边界信息对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过卷积神经网络学习备选实体片段向量,然后对得到的特征进行分类得到实体的类别,即为实体分类信息。优选地,所述方法还包括:对实体边界信息提取过程和实体分类信息提取过程进行优化,优选地,所述对实体边界信息提取过程和实体分类信息提取过程进行优化,包括:采用交叉熵损失函数,通过召回率优先的方式交替训练实体边界信息提取过程和实体分类信息提取过程,实现提取过程的优化。优选地,对所述实体分类信息提取过程进行优化的过程中,还加入空值类和负样本;其中:所述空值类用于二次筛选实体,提升准确率;所述负样本用于确保能够学习到空值类的表征;所述负样本通过实体边界信息提取过程生成。根据本专利技术的另一个方面,提供了一种基于边界识别的嵌套实体识别系统,包括:数据预处理模块:对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;特征编码模块,将数据预处理模块得本文档来自技高网
...

【技术保护点】
1.一种基于边界识别的嵌套实体识别方法,其特征在于,包括:/n对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;/n将得到的多维向量进行特征编码,得到具有上下文信息的编码向量;/n对具有上下文信息的编码向量提取实体边界信息,然后对提取的实体边界信息进行解码,识别得到实体片段的边界,得到实体边界信息;/n采用识别得到的实体边界信息,对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,得到实体分类信息;/n组合得到的实体分类信息和实体边界信息,进而得到待提取的嵌套实体。/n

【技术特征摘要】
1.一种基于边界识别的嵌套实体识别方法,其特征在于,包括:
对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;
将得到的多维向量进行特征编码,得到具有上下文信息的编码向量;
对具有上下文信息的编码向量提取实体边界信息,然后对提取的实体边界信息进行解码,识别得到实体片段的边界,得到实体边界信息;
采用识别得到的实体边界信息,对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,得到实体分类信息;
组合得到的实体分类信息和实体边界信息,进而得到待提取的嵌套实体。


2.根据权利要求1所述的基于边界识别的嵌套实体识别方法,其特征在于,所述对输入文本进行数据预处理,包括:文本预处理和向量嵌入;其中:
所述文本预处理,捕捉输入文本的内在信息,包括分词、词性标注、语法解析以及语义解析,得到以词语为单位的文本片段以及文本片段所对应的语法依存树和语义解析树;
所述向量嵌入,在文本预处理的基础上,对词汇、字符、词性、语义和语法进行嵌入;其中:
词汇嵌入通过预训练的语言模型进行向量化,包括:调用预训练好的中文预训练模型,将每个词汇按照模型提供的接口进行编码作为模型的输入,最后通过BERT计算得到词汇向量;
字符嵌入通过卷积神经网络学习嵌入方式,包括:随机初始化字符嵌入表,将每个字符进行编码,通过嵌入表得到初始向量,该向量通过卷积神经网络进行卷积并采用最大池化的方法得到字符级向量;
词性嵌入通过随机初始化向量并训练得到,包括:随机初始化词性嵌入表,将每类词性进行编码,通过嵌入表得到词性向量;
语义和语法嵌入通过图卷积网络对语义解析树和语法依存树进行卷积得到相应的语义向量和语法向量;
经过文本预处理和向量嵌入,将输入文本转化为一个多维向量。


3.根据权利要求1所述的基于边界识别的嵌套实体识别方法,其特征在于,所述将得到的多维向量进行特征编码,得到具有上下文信息的编码向量,包括:
利用双向长短时记忆网络对得到的多维向量进行线性变换和非线性扭曲,编码后的向量包含了上下文信息,即为具有上下文信息的编码向量。


4.根据权利要求1所述的基于边界识别的嵌套实体识别方法,其特征在于,所述对具有上下文信息的编码向量提取实体边界相关的信息,然后对提取的实体边界相关信息解码,识别得到实体片段的边界,得到实体边界信息,包括:
利用两级指针网络,网状识别具有上下文信息的编码向量的左边界组和右边界序列,再解码为对应的实体边界。


5.根据权利要求4所述的基于边界识别的嵌套实体识别方法,其特征在于,所述两级指针网络包括用于识别左边界组的组序列指针网络和用于识别右边界序列的实体序列指针网络;其中:
对于组序列指针网络,其输入为具有上下文信息的编码向量e和上一时刻得到的左边界向量o,通过左边界向量o对编码向量e做注意力操作,得到未标准化的定位概率;对于第j时刻,左边界定位概率为:



其中,uj,i为左边界未标准化的定位概率,v,W均为可训练的参数,下标l代表左边界,上标T为向量转置符号;
此时,第j时刻选择的左边界向量oj为:
oj=argmaxi(uj,i);

【专利技术属性】
技术研发人员:姜华田济东郦一天姜晨昊
申请(专利权)人:上海旻浦科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1