一种嵌套命名实体识别方法、装置及相关设备制造方法及图纸

技术编号:28788730 阅读:26 留言:0更新日期:2021-06-09 11:24
本发明专利技术公开了一种嵌套命名实体识别方法、装置及相关设备,对原始文本数据进行分层组合和标注;对原始文本数据进行编码;对编码数据进行卷积,得到卷积值;将卷积值和编码数据作为输入数据分别进行解码;对每一解码数据分别进行解码得到第一实体,并对第一实体构建图网络形成每一解码数据对应的图特征;将每一图特征分别与对应的解码数据进行拼接融合得到融合数据;将每一融合数据和相应层数的标注数据同时输入条件随机场;随后通过解码得到对应的原始文本数据中的第二实体;对识别到的第二实体进行整合。本发明专利技术通过将嵌套命名实体任务转换为多层次命名实体识别任务、引入图结构信息,提高了嵌套命名实体识别的准确率。提高了嵌套命名实体识别的准确率。提高了嵌套命名实体识别的准确率。

【技术实现步骤摘要】
一种嵌套命名实体识别方法、装置及相关设备


[0001]本专利技术涉及命名实体识别
,尤其涉及一种嵌套命名实体识别方法、装置及相关设备。

技术介绍

[0002]随着互联网及计算机技术的发展,各行各业迫切需要自动化以及可以从海量数据中快速提取出真正有价值信息的工具,因此各种信息抽取技术得到了快速发展。命名实体识别(NER)是信息抽取任务中的关键技术,其目的就是在文档中识别出特定的名词或短语,例如:机构名、人名、地名、日期、数字等。该技术在知识图谱、智能问答、语义分析等自然语言处理领域有着广泛的应用。
[0003]嵌套命名实体是指一个命名实体内部存在着若干个具有嵌套结构的实体,比如“南京长江大桥”中存在“南京”、“南京长江大桥”两个命名实体,命名实体“南京”嵌套在命名实体“南京长江大桥”内部。不同的实体蕴含着不同的语义信息,“南京”是一个城市,“南京长江大桥”是一个地址,为了尽可能保留文本语义的完整性,有必要对多层嵌套的每一个实体进行区分。
[0004]目前针对嵌套命名实体的识别方法主要包括语法解析模型和层叠式模型。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种嵌套命名实体识别方法,其特征在于,包括:对原始文本数据进行分层组合和标注,得到L层标注数据,其中,L为最长的实体长度;对所述原始文本数据进行编码,得到编码数据;对所述编码数据进行L

1次卷积,得到L

1个卷积值,每一卷积值对应相应层数的标注数据;将所述L

1个卷积值和编码数据作为输入数据分别进行解码,得到对应的L个解码数据;对每一所述解码数据分别进行解码得到第一实体,并对所述第一实体构建图网络形成每一所述解码数据对应的图特征;将每一所述图特征分别与对应的所述解码数据进行拼接融合得到L个融合数据;将每一融合数据和相应层数的标注数据同时输入条件随机场,得到每个字符组属于不同标签的概率值;结合所述概率值,通过解码得到对应的所述原始文本数据中的第二实体;对识别到的所述第二实体进行整合,得到所有实体。2.根据权利要求1所述的嵌套命名实体识别方法,其特征在于,所述对原始文本数据进行分层组合和标注,得到L层标注数据,包括:将原始文本数据按1

gram,2

gram,3

gram,

,L

gram的方式重新组合得到L层待标注数据,每一层中待标注数据的长度对应该层的层数;对每一层中的所述待标注数据采用BIO标注模式进行标注,得到L层标注数据。3.根据权利要求1所述的嵌套命名实体识别方法,其特征在于,所述对所述原始文本数据进行编码,得到编码数据,包括:对原始文本数据分别采用Bert Embedding、Char Embedding和Word Embedding进行向量化处理得到向量x1、x2和x3;按如下公式对所述x1、x2和x3三个向量进行合并得到x4:按如下公式对所述x4抑制过拟合得到x5:x5=Dropout(x4);按如下公式对所述x5进行编码得到x6:x6=GRU(x5);按如下公式x6进行映射得到编码数据x7:x7=x6·
W2+b2;所述x1的维度为[L1,D1],所述x2的维度为[L1,D1],所述x3的维度为[L2,D1],所述L1为原始数据的长度,所述D1为向量维度,L2是分词后句子的长度,W1为待训练参数矩阵,其维度为[L2,D1],W2为待训练矩阵,其维度为[L1,D2],b2为偏置项,x7的维度为[L1,D2]。4.根据权利要求1所述的嵌套命名实体识别方法,其特征在于,所述将所述L

1个卷积值和编码数据作为输入数据分别进行解码,得到对应的L个解码数据,包括:按如下公式对输入数据进行自注意力训练,得到自注意力后的向量表示:
对所述自注意力后的数据进行归一化操作;通过残差机制将归一化后的数据与对应的输入数据相加;通过LSTM或BILSTM网络进行编码得到解码数据;其中,Q、K、V是待解码数据分别乘以一个...

【专利技术属性】
技术研发人员:黄勇其王伟于翠翠
申请(专利权)人:润联软件系统深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1