一种实体识别方法、终端设备及存储介质技术

技术编号:26763940 阅读:30 留言:0更新日期:2020-12-18 23:32
本发明专利技术涉及一种实体识别方法、终端设备及存储介质,该方法中包括:S1:构建包含待识别文本对应领域实体的词图;S2:通过词向量嵌入层将待识别文本中的每个词表示为词汇张量;S3:将待识别文本的所有词汇张量通过图神经网络模块从构建的词图中提取待识别文本对应的候选实体;图神经网络模块包括图注意力网络层与双向图卷积网络层;S4:将待识别文本的词汇张量和候选实体通过双向循环神经网络层转换为含上下文信息的中间计算张量;S5:将中间计算张量输入CRF解码层进行解码,得到最终识别的待识别文本中包含的实体。本发明专利技术通过对实体边界的二次图结构建模,利用图神经网络对实体边界的关系解析,以减轻实体边界判定不足对结果准确率的影响。

【技术实现步骤摘要】
一种实体识别方法、终端设备及存储介质
本专利技术涉及文本识别领域,尤其涉及一种实体识别方法、终端设备及存储介质。
技术介绍
命名实体识别(NamedEntityRecognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。目前实体识别方法包括有:1.有监督的学习方法:此类算法需要利用大规模的已标注语料对模型进行参数训练。目前常用的模型或方法包括隐马尔可夫模型(HMM)、语言模型、最大熵模型、支持张量机(SVM)、决策树(DT)和条件随机场(CRF)等。目前基于条件随机场的方法是命名实体识别中最成功的方法。2.半监督的学习方法:此类算法利用标注的小数据集(种子数据)自举学习。3.无监督的学习方法:此类算法利用词汇资源等进行上下文聚类。4.混合方法:几种模型相结合或利用统计方法和人工总结的知识库。值得一提的是,由于深度学习在自然语言的广泛应用,基于深度学习的命名实体识别方法也展现出不错的效本文档来自技高网...

【技术保护点】
1.一种实体识别方法,其特征在于,包括以下步骤:/nS1:构建包含待识别文本对应领域实体的词图;/nS2:通过词向量嵌入层将待识别文本中的每个词表示为词汇张量;/nS3:将待识别文本的所有词汇张量通过图神经网络模块从构建的词图中提取待识别文本对应的候选实体;图神经网络模块包括图注意力网络层与双向图卷积网络层;/nS4:将待识别文本的词汇张量和候选实体通过双向循环神经网络层转换为含上下文信息的中间计算张量;/nS5:将中间计算张量输入CRF解码层进行解码,得到最终识别的待识别文本中包含的实体。/n

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括以下步骤:
S1:构建包含待识别文本对应领域实体的词图;
S2:通过词向量嵌入层将待识别文本中的每个词表示为词汇张量;
S3:将待识别文本的所有词汇张量通过图神经网络模块从构建的词图中提取待识别文本对应的候选实体;图神经网络模块包括图注意力网络层与双向图卷积网络层;
S4:将待识别文本的词汇张量和候选实体通过双向循环神经网络层转换为含上下文信息的中间计算张量;
S5:将中间计算张量输入CRF解码层进行解码,得到最终识别的待识别文本中包含的实体。


2.根据权利要求1所述的实体识别方法,其特征在于:词图的构建方法为:将字典中包含的所有字组成词图的顶点集,如果两个字之间能够构成一个实体,则将这两个字之间用代表无向关系的直线进行连接;针对每个顶点,根据该顶点对应的字在实体中可能存在的位置设定其对应的位置标记。


3.根据权利要求2所述的实体识别方法,其特征在于:位置标记包括五种,分别为:开始、中间、结尾、单个字自成实体和非实体词汇。


4.根据权利要求1所述的实体识别方法,其特征在于:步骤S3中首先通过图注意力网络层将待识别文本的所有词汇张量与步骤S1构建的词图进行匹配,提取出与待识别文本的所有词汇张量相关性较...

【专利技术属性】
技术研发人员:洪万福钱智毅刘剑涵
申请(专利权)人:厦门渊亭信息科技有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1