【技术实现步骤摘要】
词性感知嵌套命名实体识别方法、系统、设备和存储介质
[0001]本专利技术涉及自然语言处理及知识图谱构建
,特别是涉及一种基于异构图注意力神经网络的词性感知嵌套命名实体识别方法、系统、计算机设备和存储介质。
技术介绍
[0002]命名实体识别(NER,Named Entity Recognition)是自然语言处理领域构造知识图谱过程中的基本任务之一,其主要用于对构成知识图谱中具有特定意义的实体进行抽取,是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。实际的自然语言序列中存在一个实体包含一个或多个实体的嵌套实体现象,如文本“Activation of the cd28 surface receptor provides”,“cd28 surface”是一个Protein类型的实体,而“cd28 surface receptor”也是一个Protein类型的实体,嵌套命名实体识别(Nested NER)也是命名实体识别任务中重难点问题,其作用在于识别出文本中的嵌套实体,对应识别的关键在于如何确定实体的边界和预测实体的类别。
[0003]现有嵌套实体识别方法主要分为三类:(1)通过设计文本匹配规则来抽取自然语言中的实体,如通过领域专家手工编写规则来匹配文本中的实体;(2)基于特征工程的有监督学习方法,如通过设计特征模板、结合维特比算法来对文本序列中的文本类别进行预测;(3)基于实体跨度的深度学习的 ...
【技术保护点】
【技术特征摘要】
1.一种词性感知嵌套命名实体识别方法,其特征在于,所述方法包括以下步骤:获取待识别文本的文本词数据;所述文本词数据包括文本序列ID、词性类别、词频和词向量表示;采用BiLSTM模型对所述文本词数据进行特征提取,得到对应的文本词深度特征,并根据所述文本词深度特征,将所述待识别文本的各个文本词初始化为对应的图节点;根据各个图节点间的转移关系,构建所述待识别文本的文本异构图;根据所述文本异构图和预设词性路径,通过注意力机制更新所述文本异构图中图节点的文本词深度特征;采用BiLSTM模型对更新后的文本异构图内所有图节点进行特征提取,得到待解码文本词向量表示;对所述待解码文本词向量表示进行解码和标注,得到嵌套命名实体识别结果。2.如权利要求1所述的词性感知嵌套命名实体识别方法,其特征在于,所述获取待识别文本的文本词数据的步骤包括:按照所述待识别文本内各个文本词的位置顺序,给各个文本词设置对应的文本序列ID;对所述待识别文本进行词性标注,并根据词性标注结果,对所述待识别文本中的各个文本词进行词性分类和词频统计,得到对应的词性类别和词频;通过BERT模型,生成所述待识别文本内各个文本词的词向量表示。3.如权利要求1所述的词性感知嵌套命名实体识别方法,其特征在于,所述采用BiLSTM模型对所述文本词数据进行特征提取,得到对应的文本词深度特征的步骤包括:将各个文本词数据的文本序列ID、词性、词频和词向量表示进行拼接整合,得到文本词初始特征;采用BiLSTM模型对所述文本词初始特征进行特征提取,得到所述文本词深度特征;所述文本词深度特征表示为:h(x
i
)=BiLSTM(F(x
i
))式中,其中,x
i
、F(x
i
)和h(x
i
)分别表示第i个文本词的文本词数据、文本词初始特征和文本词深度特征;和分别表示第i个文本词数据内的文本序列ID、词性类别、词频和词向量表示。4.如权利要求1所述的词性感知嵌套命名实体识别方法,其特征在于,所述待识别文本的文本异构图表示为:G=(V,E,Ov,Path)其中,V表示由不同词性文本词构成的节点集合,且各个节点的取值为文本词深度特征;E表示以节点构成的边集合;Ov表示节点的词性类型集合;Path表示预设词性路径,且包括动词与名词路径、名词修饰词与名词路径、连接词与名词路径、以及动词修饰词与动词路径。5.如权利要求1所述的词性感知嵌套命名实体识别方法,其特征在于,所述根据所述文
本异构图和预设词性路径,通过注意力机制更新所述文本异构图中图节点的文本词深度特征的步骤包括:根据各个预设词性路径,对所述文本异构图进行深度优先遍历,得到对应的图节点序列;根据所述图节点序列,对各个预设词性路径中的各个图节点进行邻居节点采样,得到对应的邻居节点集合;通过注意力机制,对各个预设词性路径中的各个图节点的邻居节点集合进行节点信息整合,得到对应的图节点表示;所述图节点表示为:式中,式中,其中,v表示第i条预设词性路径中的图节点,且取值为对应的文本词深度特征;表示第i条预设词性路径Path
i
中图节点对应的邻居节点集合;表示第i条词性路径Path
i
中图节点v的第j个邻居节点;k表示注意力头数;表示第i条词性路径Path
i
中图节点v的第j个...
【专利技术属性】
技术研发人员:仇晶,周玲,郭晨,陈豪,林杨,顾钊铨,田志宏,贾焰,方滨兴,
申请(专利权)人:广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。