基于人工智能的命名实体识别方法及装置制造方法及图纸

技术编号:35220115 阅读:18 留言:0更新日期:2022-10-15 10:36
本发明专利技术公开了一种基于人工智能的命名实体识别方法及装置,涉及自然语言处理技术领域,主要目的在于解决命名实体识别效率较低的问题。主要包括获取信息提取文本中待识别的目标句子文本;利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的;若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,所述实体语料库中存储有匹配不同信息提取文本的第三方命名实体,主要用于识别文本中的命名实体。体。体。

【技术实现步骤摘要】
基于人工智能的命名实体识别方法及装置


[0001]本专利技术涉及人工智能处理
,特别是涉及一种基于人工智能的命名实体识别方法及装置。

技术介绍

[0002]命名实体是指某领域内具有固定意义或者代表性强的实体词,如新闻领域的事件名、地点名、人物名等。命名实体识别(Named Entity Recognition,NER)是信息提取的一个子任务,是用于提取文本中的命名实体,并确定命名实体的实体类别的一种文本识别技术,该技术在自然语言处理技术走向实用化的过程中占有重要地位。
[0003]目前应用较为广泛的命名实体识别方法为基于双向长短期记忆网络模型(LSTM)与随机场模型(CRF)的结合的方法,该方法基于字符的单词表示及无监督的单词表示进行特征提取,从而实现对命名实体的识别。但该方法孤立的对文本中的每个词进行特征提取,没有考虑到每个词在整个句子或整个文本中的全局特征,得到的识别结果准确率较低。

技术实现思路

[0004]有鉴于此,本专利技术提供一种基于人工智能的命名实体识别方法及装置,主要目的在于解决现有命名实体识别方法识别准确率较低的问题。
[0005]依据本专利技术一个方面,提供了一种基于人工智能的命名实体识别方法,包括:
[0006]获取信息提取文本中待识别的目标句子文本;
[0007]利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的;<br/>[0008]若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,所述实体语料库中存储有匹配不同信息提取文本的第三方命名实体。
[0009]进一步地,所述利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果之前,所述方法还包括:
[0010]获取命名实体识别训练样本集,并构建识别网络模型,所述命名实体识别训练样本集为基于至少一个初始句子样本构建的,所述识别网络模型包括权重分配网络、条件随机场网络、至少两个句子向量生成网络,其中,所述权重分配网络分别与所述条件随机场网络、所述至少两个句子向量生成网络相连接;
[0011]利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型。
[0012]进一步地,所述利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型,包括:
[0013]利用所述句子向量生成网络分别对所述命名实体识别训练样本集中的每个训练
样本进行特征提取,得到包含至少两个初始句子向量的初始句子矩阵,所述初始句子向量为基于所述句子向量生成网络中至少三个中间解码层的输出结果确定的;
[0014]利用所述权重分配网络对所述初始句子矩阵中的每个字向量进行权重分配,得到句子权重矩阵,并通过对所述初始句子向量中同一位置字向量的权重进行融合处理,得到目标句子向量;
[0015]利用所述条件随机场网络对所述目标句子向量中的字向量进行实体类型标记,以使得所述命名实体识别网络模型完成训练。
[0016]进一步地,所述命名实体识别结果包括至少一个实体类型的命名实体,所述若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,包括:
[0017]获取与所述命名实体识别结果的实体类型对应的至少一个实体语料库;
[0018]分别计算每个实体类型的命名实体与所述实体语料库中第三方命名实体的匹配度,所述匹配度为所述命名实体与所述第三方命名实体的相似度最大值;
[0019]若所述匹配度大于或等于预设匹配度阈值,则确定匹配校验的结果为通过校验,并输出所述命名实体识别结果。
[0020]进一步地,所述方法还包括:
[0021]若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为未通过校验,则将所述匹配度小于所述预设匹配度阈值的命名实体与全部实体类型的所述第三方命名实体分别进行二次匹配,得到至少一个二次匹配度;
[0022]若所述二次匹配度大于或等于所述预设匹配度阈值,则基于所述二次匹配度所对应的实体类型对所述命名实体识别结果进行更新,并输出更新后的所述命名实体识别结果。
[0023]进一步地,所述方法还包括:
[0024]若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,且所述实体语料库中未包含所述命名实体识别结果中的命名实体,则将所述命名实体更新至所述实体语料库中。
[0025]进一步地,所述获取命名实体识别训练样本集之前,所述方法还包括:
[0026]获取至少一个初始句子样本,利用预设字符对所述初始句子样本中的命名实体进行替换处理,得到第一句子样本,并利用句子生成模型对所述第一句子样本进行生成处理,得到第二句子样本;
[0027]通过对所述第二句子样本中的所述预设字符进行同类实体语料替换处理,得到第三句子样本,并通过对所述第三句子样本进行非实体随机删除处理,得到第四句子样本;
[0028]基于所述第三句子样本、所述第四句子样本构建命名实体识别训练样本集。
[0029]依据本专利技术另一个方面,提供了一种基于人工智能的命名实体识别装置,包括:
[0030]获取模块,用于获取用于输入已完成训练的实体识别网络模型的目标句子文本,所述已完成训练的实体识别网络模型包括至少两个句子向量生成网络;
[0031]识别模块,用于利用所述句子向量生成网络分别对所述目标句子文本进行特征提取,得到初始句子向量矩阵,并根据所述初始句子向量矩阵进行权重分配,得到权重分配后的目标句子向量矩阵,所述初始句子向量矩阵包括每个所述句子向量生成网络生成的初始
句子向量;
[0032]确定模块,用于对所述目标句子向量矩阵进行融合处理,得到所述目标句子文本的目标句子向量,并根据所述目标句子向量确定所述目标句子文本中的实体。
[0033]进一步地,所述装置还包括:
[0034]所述获取模块,还用于获取命名实体识别训练样本集,并构建识别网络模型,所述命名实体识别训练样本集为基于至少一个初始句子样本构建的,所述识别网络模型包括权重分配网络、条件随机场网络、至少两个句子向量生成网络,其中,所述权重分配网络分别与所述条件随机场网络、所述至少两个句子向量生成网络相连接;
[0035]训练模块,用于利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型。
[0036]进一步地,所述训练模型包括:
[0037]第一训练单元,用于利用所述句子向量生成网络分别对所述命名实体识别训练样本集中的每个训练样本进行特征提取,得到包含至少两个初始句子向量的初始句子矩阵,所述初始句子向量为基于所述句子向量生成网络中至少三个中间解码层的输出结果确定的;
[0038]第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的命名实体识别方法,其特征在于,包括:获取信息提取文本中待识别的目标句子文本;利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果,所述命名实体识别网络模型为基于权重分配网络对至少两个初始句子向量进行权重分配完成模型训练得到的;若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,所述实体语料库中存储有匹配不同信息提取文本的第三方命名实体。2.根据权利要求1所述的方法,其特征在于,所述利用命名实体识别网络模型对所述目标句子文本进行命名实体识别,得到命名实体识别结果之前,所述方法还包括:获取命名实体识别训练样本集,并构建识别网络模型,所述命名实体识别训练样本集为基于至少一个初始句子样本构建的,所述识别网络模型包括权重分配网络、条件随机场网络、至少两个句子向量生成网络,其中,所述权重分配网络分别与所述条件随机场网络、所述至少两个句子向量生成网络相连接;利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型。3.根据权利要求2所述的方法,其特征在于,所述利用所述命名实体识别训练样本集对所述识别网络模型进行模型训练,得到命名实体识别网络模型,包括:利用所述句子向量生成网络分别对所述命名实体识别训练样本集中的每个训练样本进行特征提取,得到包含至少两个初始句子向量的初始句子矩阵,所述初始句子向量为基于所述句子向量生成网络中至少三个中间解码层的输出结果确定的;利用所述权重分配网络对所述初始句子矩阵中的每个字向量进行权重分配,得到句子权重矩阵,并通过对所述初始句子向量中同一位置字向量的权重进行融合处理,得到目标句子向量;利用所述条件随机场网络对所述目标句子向量中的字向量进行实体类型标记,以使得所述命名实体识别网络模型完成训练。4.根据权利要求1所述的方法,其特征在于,所述命名实体识别结果包括至少一个实体类型的命名实体,所述若基于实体语料库对所述命名实体识别结果进行匹配校验的结果为通过校验,则输出所述命名实体识别结果,包括:获取与所述命名实体识别结果的实体类型对应的至少一个实体语料库;分别计算每个实体类型的命名实体与所述实体语料库中第三方命名实体的匹配度,所述匹配度为所述命名实体与所述第三方命名实体的相似度最大值;若所述匹配度大于或等于预设匹配度阈值,则确定匹配校验的结果为通过校验,并输出所述命名实体识别结果。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:若基于...

【专利技术属性】
技术研发人员:侯昶宇王俊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1