当前位置: 首页 > 专利查询>广州大学专利>正文

词性感知嵌套命名实体识别方法、系统、设备和存储介质技术方案

技术编号:33086710 阅读:11 留言:0更新日期:2022-04-15 10:51
本发明专利技术提供了词性感知嵌套命名实体识别方法、系统、设备和存储介质,通过获取待识别文本的文本词数据后,采用BiLSTM模型对文本词数据进行特征提取得到文本词深度特征,并根据文本词深度特征将待识别文本的各个文本词初始化为对应的图节点,根据预设词性路径构建待识别文本的文本异构图,通过注意力机制更新图节点的文本词数据,再采用BiLSTM模型对文本异构图的所有图节点进行特征提取,得到待解码文本词向量表示后,采用条件随机场进行解码和标注,得到嵌套命名实体识别结果的方法,能够对普通实体和嵌套实体进行精准有效的识别处理,提高嵌套命名实体识别效率的同时,进一步提升嵌套命名实体识别模型的性能优势。嵌套命名实体识别模型的性能优势。嵌套命名实体识别模型的性能优势。

【技术实现步骤摘要】
词性感知嵌套命名实体识别方法、系统、设备和存储介质


[0001]本专利技术涉及自然语言处理及知识图谱构建
,特别是涉及一种基于异构图注意力神经网络的词性感知嵌套命名实体识别方法、系统、计算机设备和存储介质。

技术介绍

[0002]命名实体识别(NER,Named Entity Recognition)是自然语言处理领域构造知识图谱过程中的基本任务之一,其主要用于对构成知识图谱中具有特定意义的实体进行抽取,是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。实际的自然语言序列中存在一个实体包含一个或多个实体的嵌套实体现象,如文本“Activation of the cd28 surface receptor provides”,“cd28 surface”是一个Protein类型的实体,而“cd28 surface receptor”也是一个Protein类型的实体,嵌套命名实体识别(Nested NER)也是命名实体识别任务中重难点问题,其作用在于识别出文本中的嵌套实体,对应识别的关键在于如何确定实体的边界和预测实体的类别。
[0003]现有嵌套实体识别方法主要分为三类:(1)通过设计文本匹配规则来抽取自然语言中的实体,如通过领域专家手工编写规则来匹配文本中的实体;(2)基于特征工程的有监督学习方法,如通过设计特征模板、结合维特比算法来对文本序列中的文本类别进行预测;(3)基于实体跨度的深度学习的方法,如利用神经网络来提取文本的字符级特征的深度学习,以及直接枚举出可能为实体的子序列,然后对子序列进行预测的穷举候选实体方法。现有技术虽然能够在一定程度上解决嵌套实体识别问题,但也存在着显而易见的缺陷,如第一类方法中领域语言专家手工编写规则,非常耗时耗力,且领域间可迁移性差;第二类方法属于统计机器学习方法易受文本语料分布情况的影响,泛化能力较差;第三类方法中的深度学习法虽然能够抽取文本的字符和单词特征,但学习参数多,计算复杂度较高,而穷举候选实体法更是增加了模型的时间复杂度,且简单的枚举文本子序列不利于提升模型性能。

技术实现思路

[0004]本专利技术的目的是提供一种词性感知嵌套命名实体识别方法、系统、设备和存储介质,通过将异构图表示学习用于嵌套实体识别,引入词性知识对文本特征进行初始化,结合设计的一种采样获取更多邻居节点信息的基于词性路径的空洞随机游走算法,依托DGL(Deep Graph Library)框架,通过异构图对普通实体和嵌套实体进行有效识别处理,提高嵌套命名实体识别的精准性和学习效率的同时,进一步提升嵌套命名实体识别模型的性能优势。
[0005]为了实现上述目的,有必要针对上述技术问题,提供了一种词性感知嵌套命名实体识别方法、系统、计算机设备和存储介质。
[0006]第一方面,本专利技术实施例提供了一种词性感知嵌套命名实体识别方法,所述方法包括以下步骤:
[0007]获取待识别文本的文本词数据;所述文本词数据包括文本序列ID、词性类别、词频和词向量表示;
[0008]采用BiLSTM模型对所述文本词数据进行特征提取,得到对应的文本词深度特征,并根据所述文本词深度特征,将所述待识别文本的各个文本词初始化为对应的图节点;
[0009]根据各个图节点间的转移关系,构建所述待识别文本的文本异构图;
[0010]根据所述文本异构图和预设词性路径,通过注意力机制更新所述文本异构图中图节点的文本词深度特征;
[0011]采用BiLSTM模型对更新后的文本异构图内所有图节点进行特征提取,得到待解码文本词向量表示;
[0012]对所述待解码文本词向量表示进行解码和标注,得到嵌套命名实体识别结果。
[0013]进一步地,所述获取待识别文本的文本词数据的步骤包括:
[0014]按照所述待识别文本内各个文本词的位置顺序,给各个文本词设置对应的文本序列ID;
[0015]对所述待识别文本进行词性标注,并根据词性标注结果,对所述待识别文本中的各个文本词进行词性分类和词频统计,得到对应的词性类别和词频;
[0016]通过BERT模型,生成所述待识别文本内各个文本词的词向量表示。
[0017]进一步地,所述采用BiLSTM模型对所述文本词数据进行特征提取,得到对应的文本词深度特征的步骤包括:
[0018]将各个文本词数据的文本序列ID、词性、词频和词向量表示进行拼接整合,得到文本词初始特征;
[0019]采用BiLSTM模型对所述文本词初始特征进行特征提取,得到所述文本词深度特征;所述文本词深度特征表示为:
[0020]h(x
i
)=BiLSTM(F(x
i
))
[0021]式中,
[0022][0023]其中,x
i
、F(x
i
)和h(x
i
)分别表示第i个文本词的文本词数据、文本词初始特征和文本词深度特征;和分别表示第i个文本词数据内的文本序列ID、词性类别、词频和词向量表示。
[0024]进一步地,所述待识别文本的文本异构图表示为:
[0025]G=(V,E,Ov,Path)
[0026]其中,V表示由不同词性文本词构成的节点集合,且各个节点的取值为文本词深度特征;E表示以节点构成的边集合;Ov表示节点的词性类型集合;Path表示预设词性路径,且包括动词与名词路径、名词修饰词与名词路径、连接词与名词路径、以及动词修饰词与动词路径。
[0027]进一步地,所述根据所述文本异构图和预设词性路径,通过注意力机制更新所述文本异构图中图节点的文本词深度特征的步骤包括:
[0028]根据各个预设词性路径,对所述文本异构图进行深度优先遍历,得到对应的图节点序列;
[0029]根据所述图节点序列,对各个预设词性路径中的各个图节点进行邻居节点采样,得到对应的邻居节点集合;
[0030]通过注意力机制,对各个预设词性路径中的各个图节点的邻居节点集合进行节点信息整合,得到对应的图节点表示;所述图节点表示为:
[0031][0032]式中,
[0033][0034][0035]其中,v表示第i条预设词性路径中的图节点,且取值为对应的文本词深度特征;表示第i条预设词性路径Path
i
中图节点对应的邻居节点集合;表示第i条词性路径Path
i
中图节点v的第j个邻居节点;k表示注意力头数;表示第i条词性路径Path
i
中图节点v的第j个邻居节点的权重系数;表示图节点v经过k个注意头的注意力计算得到的图节点表示;exp(
·
)表示以e为底的指数函数;LeakyReLU(
·
)表示激活函数;u
T
为边的权重矩阵;
[0036]根据所述图节点表示,更新所述文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词性感知嵌套命名实体识别方法,其特征在于,所述方法包括以下步骤:获取待识别文本的文本词数据;所述文本词数据包括文本序列ID、词性类别、词频和词向量表示;采用BiLSTM模型对所述文本词数据进行特征提取,得到对应的文本词深度特征,并根据所述文本词深度特征,将所述待识别文本的各个文本词初始化为对应的图节点;根据各个图节点间的转移关系,构建所述待识别文本的文本异构图;根据所述文本异构图和预设词性路径,通过注意力机制更新所述文本异构图中图节点的文本词深度特征;采用BiLSTM模型对更新后的文本异构图内所有图节点进行特征提取,得到待解码文本词向量表示;对所述待解码文本词向量表示进行解码和标注,得到嵌套命名实体识别结果。2.如权利要求1所述的词性感知嵌套命名实体识别方法,其特征在于,所述获取待识别文本的文本词数据的步骤包括:按照所述待识别文本内各个文本词的位置顺序,给各个文本词设置对应的文本序列ID;对所述待识别文本进行词性标注,并根据词性标注结果,对所述待识别文本中的各个文本词进行词性分类和词频统计,得到对应的词性类别和词频;通过BERT模型,生成所述待识别文本内各个文本词的词向量表示。3.如权利要求1所述的词性感知嵌套命名实体识别方法,其特征在于,所述采用BiLSTM模型对所述文本词数据进行特征提取,得到对应的文本词深度特征的步骤包括:将各个文本词数据的文本序列ID、词性、词频和词向量表示进行拼接整合,得到文本词初始特征;采用BiLSTM模型对所述文本词初始特征进行特征提取,得到所述文本词深度特征;所述文本词深度特征表示为:h(x
i
)=BiLSTM(F(x
i
))式中,其中,x
i
、F(x
i
)和h(x
i
)分别表示第i个文本词的文本词数据、文本词初始特征和文本词深度特征;和分别表示第i个文本词数据内的文本序列ID、词性类别、词频和词向量表示。4.如权利要求1所述的词性感知嵌套命名实体识别方法,其特征在于,所述待识别文本的文本异构图表示为:G=(V,E,Ov,Path)其中,V表示由不同词性文本词构成的节点集合,且各个节点的取值为文本词深度特征;E表示以节点构成的边集合;Ov表示节点的词性类型集合;Path表示预设词性路径,且包括动词与名词路径、名词修饰词与名词路径、连接词与名词路径、以及动词修饰词与动词路径。5.如权利要求1所述的词性感知嵌套命名实体识别方法,其特征在于,所述根据所述文
本异构图和预设词性路径,通过注意力机制更新所述文本异构图中图节点的文本词深度特征的步骤包括:根据各个预设词性路径,对所述文本异构图进行深度优先遍历,得到对应的图节点序列;根据所述图节点序列,对各个预设词性路径中的各个图节点进行邻居节点采样,得到对应的邻居节点集合;通过注意力机制,对各个预设词性路径中的各个图节点的邻居节点集合进行节点信息整合,得到对应的图节点表示;所述图节点表示为:式中,式中,其中,v表示第i条预设词性路径中的图节点,且取值为对应的文本词深度特征;表示第i条预设词性路径Path
i
中图节点对应的邻居节点集合;表示第i条词性路径Path
i
中图节点v的第j个邻居节点;k表示注意力头数;表示第i条词性路径Path
i
中图节点v的第j个...

【专利技术属性】
技术研发人员:仇晶周玲郭晨陈豪林杨顾钊铨田志宏贾焰方滨兴
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1