【技术实现步骤摘要】
一种基于边界识别的嵌套实体识别方法及系统
本专利技术涉及自然语言处理
,具体地,涉及一种基于边界识别的嵌套实体识别方法及系统,对自然语言中的嵌套实体进行识别。
技术介绍
命名实体是自然语言中信息承载的一种基本单元,实体识别是自然语言诸多任务,如信息抽取、阅读理解的基础任务,因此,深入研究实体精准抽取在自然语言处理中具有重要意义。通常,命名实体指文本中具有特殊意义的名词,如人名(PER),地点(LOC),地理区域(GPE),组织机构(ORG)以及其他专有名词或特殊名词。常规的实体识别可以通过深度学习中的序列标注模型(如“长短期记忆-条件随机场”模型等)实现,这类模型可以通过对每个语义单元进行标注,从而获得语义单元的唯一标签,通过对标签进行组合得到实体片段。然而,在命名实体识别中存在一种嵌套现象,使得文字与实体标签之间无法建立一对一关系。因此,对于嵌套实体的识别,现有成熟的序列标注模型无法直接套用。针对嵌套实体的识别,目前主要存在两类方法:一类是按照一定的规则逐层识别嵌套实体,这类方法存在三个严重的缺陷:1)识别不同层次实体产生的误差不断累积,导致模型对实体识别的效果随着层次加深而越来越差;2)层次定义的模糊性导致同一层实体之间的分布差异极大,模型难以精确识别;3)对同一段文本的重复识别带来不必要的计算,增加了计算成本。这些缺陷导致此类方法无法达到实践的需求。另一类方法则是借助外部知识实现对嵌套结构的展平后通过序列标注的方法对实体进行提取。这些外部知识包括正则,标定规则等,是对文本中 ...
【技术保护点】
1.一种基于边界识别的嵌套实体识别方法,其特征在于,包括:/n对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;/n将得到的多维向量进行特征编码,得到具有上下文信息的编码向量;/n对具有上下文信息的编码向量提取实体边界信息,然后对提取的实体边界信息进行解码,识别得到实体片段的边界,得到实体边界信息;/n采用识别得到的实体边界信息,对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,得到实体分类信息;/n组合得到的实体分类信息和实体边界信息,进而得到待提取的嵌套实体。/n
【技术特征摘要】 【专利技术属性】
1.一种基于边界识别的嵌套实体识别方法,其特征在于,包括:
对输入文本进行数据预处理,经过预处理的文本数据转化为一个多维向量;
将得到的多维向量进行特征编码,得到具有上下文信息的编码向量;
对具有上下文信息的编码向量提取实体边界信息,然后对提取的实体边界信息进行解码,识别得到实体片段的边界,得到实体边界信息;
采用识别得到的实体边界信息,对具有上下文信息的编码向量进行掩膜,得到备选实体片段向量,通过实体分类解码对备选实体片段的特征进行分类,得到实体分类信息;
组合得到的实体分类信息和实体边界信息,进而得到待提取的嵌套实体。
2.根据权利要求1所述的基于边界识别的嵌套实体识别方法,其特征在于,所述对输入文本进行数据预处理,包括:文本预处理和向量嵌入;其中:
所述文本预处理,捕捉输入文本的内在信息,包括分词、词性标注、语法解析以及语义解析,得到以词语为单位的文本片段以及文本片段所对应的语法依存树和语义解析树;
所述向量嵌入,在文本预处理的基础上,对词汇、字符、词性、语义和语法进行嵌入;其中:
词汇嵌入通过预训练的语言模型进行向量化,包括:调用预训练好的中文预训练模型,将每个词汇按照模型提供的接口进行编码作为模型的输入,最后通过BERT计算得到词汇向量;
字符嵌入通过卷积神经网络学习嵌入方式,包括:随机初始化字符嵌入表,将每个字符进行编码,通过嵌入表得到初始向量,该向量通过卷积神经网络进行卷积并采用最大池化的方法得到字符级向量;
词性嵌入通过随机初始化向量并训练得到,包括:随机初始化词性嵌入表,将每类词性进行编码,通过嵌入表得到词性向量;
语义和语法嵌入通过图卷积网络对语义解析树和语法依存树进行卷积得到相应的语义向量和语法向量;
经过文本预处理和向量嵌入,将输入文本转化为一个多维向量。
3.根据权利要求1所述的基于边界识别的嵌套实体识别方法,其特征在于,所述将得到的多维向量进行特征编码,得到具有上下文信息的编码向量,包括:
利用双向长短时记忆网络对得到的多维向量进行线性变换和非线性扭曲,编码后的向量包含了上下文信息,即为具有上下文信息的编码向量。
4.根据权利要求1所述的基于边界识别的嵌套实体识别方法,其特征在于,所述对具有上下文信息的编码向量提取实体边界相关的信息,然后对提取的实体边界相关信息解码,识别得到实体片段的边界,得到实体边界信息,包括:
利用两级指针网络,网状识别具有上下文信息的编码向量的左边界组和右边界序列,再解码为对应的实体边界。
5.根据权利要求4所述的基于边界识别的嵌套实体识别方法,其特征在于,所述两级指针网络包括用于识别左边界组的组序列指针网络和用于识别右边界序列的实体序列指针网络;其中:
对于组序列指针网络,其输入为具有上下文信息的编码向量e和上一时刻得到的左边界向量o,通过左边界向量o对编码向量e做注意力操作,得到未标准化的定位概率;对于第j时刻,左边界定位概率为:
其中,uj,i为左边界未标准化的定位概率,v,W均为可训练的参数,下标l代表左边界,上标T为向量转置符号;
此时,第j时刻选择的左边界向量oj为:
oj=argmaxi(uj,i);
技术研发人员:姜华,田济东,郦一天,姜晨昊,
申请(专利权)人:上海旻浦科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。