嵌套实体识别方法、装置、设备及存储介质制造方法及图纸

技术编号:38254210 阅读:10 留言:0更新日期:2023-07-27 10:18
本发明专利技术涉及人工智能及数字医疗,提供一种嵌套实体识别方法、装置、设备及存储介质。该方法检测训练文本的文本数量是否小于预设数量,及标注实体是否满足预设要求,若文本数量小于预设数量,且标注实体满足预设要求,则基于训练文本及预设分类器对文本表征网络进行训练,得到文本表征模型,基于文本表征模型对训练文本所输出的表征信息及标注实体训练预设分类器,得到序列分类器,生成嵌套实体识别模型,并对待识别文本进行实体识别,得到文本实体,若文本实体有多个,基于每个文本实体在待识别文本中的文本位置识别出嵌套关系。此外,本发明专利技术还涉及区块链技术,所述嵌套关系可存储于区块链中。链中。链中。

【技术实现步骤摘要】
嵌套实体识别方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能及数字医疗
,尤其涉及一种嵌套实体识别方法、装置、设备及存储介质。

技术介绍

[0002]在数字医疗的搜索场景中,由于用户输入信息存在名称不规范等问题,导致搜索准确性低下,为此,嵌套实体识别方案应运而生。
[0003]在目前的嵌套实体识别方案中,通过遍历实体区间的所有候选实体,以筛选出查询语句所涉及的实体,由于这种方式需要对所有实体区间进行遍历,导致实体识别效率低下,同时在新增实体类型识别时,需要重新对整个模型进行训练,导致开发周期长。

技术实现思路

[0004]鉴于以上内容,有必要提供一种嵌套实体识别方法、装置、设备及存储介质,能够解决如何提高实体识别效率的技术问题。
[0005]一方面,本专利技术提出一种嵌套实体识别方法,所述嵌套实体识别方法包括:
[0006]获取多个训练文本,并获取每个训练文本在多个配置类型上所对应的标注实体;
[0007]获取嵌套实体识别网络,所述嵌套实体识别网络包括文本表征网络及每个配置类型所对应的预设分类器;
[0008]检测所述多个训练文本的文本数量是否小于预设数量,并检测所述标注实体是否满足预设要求;
[0009]若所述文本数量小于所述预设数量,且所述标注实体满足所述预设要求,则基于所述多个训练文本及任一预设分类器对所述文本表征网络进行训练,直至所述文本表征网络满足配置条件,得到文本表征模型;
[0010]基于所述文本表征模型对所述多个训练文本所输出的表征信息及所述标注实体,训练每个预设分类器,得到每个配置类型的序列分类器;
[0011]基于所述文本表征模型及每个配置类型的序列分类器,更新所述嵌套实体识别网络,得到嵌套实体识别模型;
[0012]基于所述嵌套实体识别模型对获取到的待识别文本进行实体识别,得到文本实体;
[0013]若所述文本实体有多个,则基于每个文本实体在所述待识别文本中的文本位置,识别出多个所述文本实体的嵌套关系。
[0014]根据本专利技术优选实施例,所述检测所述标注实体是否满足预设要求包括:
[0015]统计每个配置类型的标注实体的实体数量;
[0016]计算多个所述实体数量在预设特征上所对应的特征值;
[0017]若所述特征值大于预设数值,则确定所述标注实体满足所述预设要求。
[0018]根据本专利技术优选实施例,所述基于所述多个训练文本及任一预设分类器对所述文
本表征网络进行训练,直至所述文本表征网络满足配置条件,得到文本表征模型包括:
[0019]从所述多个训练文本中提取多个预设批次的批次文本;
[0020]基于所述任一预设分类器计算所述文本表征网络在任一批次文本上的第一学习率;
[0021]若所述第一学习率大于或者等于预设初始学习率,则计算所述第一学习率与所述预设初始学习率的学习率差值;
[0022]基于所述学习率差值识别出所述网络参数的标准值;
[0023]将所述网络参数调整至所述标准值,得到调整后的文本表征网络;
[0024]基于所述任一预设分类器计算所述调整后的文本表征网络在另一批次文本上的第二学习率;
[0025]检测所述第二学习率是否满足所述配置条件;
[0026]若所述第二学习率满足所述配置条件,则将所述调整后的文本表征网络确定为所述文本表征模型。
[0027]根据本专利技术优选实施例,所述文本表征网络包括输入层、编码层及解码层,所述基于所述任一预设分类器计算所述文本表征网络在任一批次文本上的第一学习率包括:
[0028]基于所述输入层将所述任一批次文本转换为文本向量;
[0029]基于所述编码层对所述文本向量进行编码处理,得到特征信息;
[0030]基于所述解码层对所述特征信息进行解码处理,得到预测表征;
[0031]将所述预测表征输入至所述任一预设分类器进行分类处理,得到所述任一预设分类器所输出的预测实体;
[0032]基于所述预测实体及所述标注实体,计算所述文本表征网络的网络损失值;
[0033]根据所述网络损失值生成所述第一学习率。
[0034]根据本专利技术优选实施例,所述检测所述第二学习率是否满足所述配置条件包括:
[0035]基于所述预设初始学习率及所述另一批次文本所对应的预设批次生成目标学习率;
[0036]若所述第二学习率小于或者等于所述目标学习率,及所述第二学习率与所述目标学习率的计算差值小于设定差值,则确定所述第二学习率满足所述配置条件。
[0037]根据本专利技术优选实施例,所述基于所述文本表征模型对所述多个训练文本所输出的表征信息及所述标注实体,训练每个预设分类器,得到每个配置类型的序列分类器包括:
[0038]对于每个预设分类器,将所述表征信息输入至该预设分类器中,得到多个输出实体及每个输出实体的置信度;
[0039]根据所述置信度从所述多个输出实体中选取目标实体;
[0040]根据所述目标实体与所述标注实体中不同实体文字的文字数量及所述标注实体的文字总量,计算该预设分类器的分类损失值;
[0041]基于所述分类损失值调整该预设分类器,得到所述序列分类器。
[0042]根据本专利技术优选实施例,所述基于每个文本实体在所述待识别文本中的文本位置,识别出多个所述文本实体的嵌套关系包括:
[0043]对所述待识别文本进行序号标识,得到所述待识别文本中每个待识别文字的文字序号;
[0044]根据所述文字序号识别出每个文本实体的实体序号作为所述文本位置;
[0045]根据多个所述文本位置的位置包含关系生成所述嵌套关系。
[0046]另一方面,本专利技术还提出一种嵌套实体识别装置,所述嵌套实体识别装置包括:
[0047]获取单元,用于获取多个训练文本,并获取每个训练文本在多个配置类型上所对应的标注实体;
[0048]所述获取单元,还用于获取嵌套实体识别网络,所述嵌套实体识别网络包括文本表征网络及每个配置类型所对应的预设分类器;
[0049]检测单元,用于检测所述多个训练文本的文本数量是否小于预设数量,并检测所述标注实体是否满足预设要求;
[0050]训练单元,用于若所述文本数量小于所述预设数量,且所述标注实体满足所述预设要求,则基于所述多个训练文本及任一预设分类器对所述文本表征网络进行训练,直至所述文本表征网络满足配置条件,得到文本表征模型;
[0051]所述训练单元,还用于基于所述文本表征模型对所述多个训练文本所输出的表征信息及所述标注实体,训练每个预设分类器,得到每个配置类型的序列分类器;
[0052]更新单元,用于基于所述文本表征模型及每个配置类型的序列分类器,更新所述嵌套实体识别网络,得到嵌套实体识别模型;
[0053]识别单元,用于基于所述嵌套实体识别模型对获取到的待识别文本进行实体识别,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种嵌套实体识别方法,其特征在于,所述嵌套实体识别方法包括:获取多个训练文本,并获取每个训练文本在多个配置类型上所对应的标注实体;获取嵌套实体识别网络,所述嵌套实体识别网络包括文本表征网络及每个配置类型所对应的预设分类器;检测所述多个训练文本的文本数量是否小于预设数量,并检测所述标注实体是否满足预设要求;若所述文本数量小于所述预设数量,且所述标注实体满足所述预设要求,则基于所述多个训练文本及任一预设分类器对所述文本表征网络进行训练,直至所述文本表征网络满足配置条件,得到文本表征模型;基于所述文本表征模型对所述多个训练文本所输出的表征信息及所述标注实体,训练每个预设分类器,得到每个配置类型的序列分类器;基于所述文本表征模型及每个配置类型的序列分类器,更新所述嵌套实体识别网络,得到嵌套实体识别模型;基于所述嵌套实体识别模型对获取到的待识别文本进行实体识别,得到文本实体;若所述文本实体有多个,则基于每个文本实体在所述待识别文本中的文本位置,识别出多个所述文本实体的嵌套关系。2.如权利要求1所述的嵌套实体识别方法,其特征在于,所述检测所述标注实体是否满足预设要求包括:统计每个配置类型的标注实体的实体数量;计算多个所述实体数量在预设特征上所对应的特征值;若所述特征值大于预设数值,则确定所述标注实体满足所述预设要求。3.如权利要求1所述的嵌套实体识别方法,其特征在于,所述基于所述多个训练文本及任一预设分类器对所述文本表征网络进行训练,直至所述文本表征网络满足配置条件,得到文本表征模型包括:从所述多个训练文本中提取多个预设批次的批次文本;基于所述任一预设分类器计算所述文本表征网络在任一批次文本上的第一学习率;若所述第一学习率大于或者等于预设初始学习率,则计算所述第一学习率与所述预设初始学习率的学习率差值;基于所述学习率差值识别出所述网络参数的标准值;将所述网络参数调整至所述标准值,得到调整后的文本表征网络;基于所述任一预设分类器计算所述调整后的文本表征网络在另一批次文本上的第二学习率;检测所述第二学习率是否满足所述配置条件;若所述第二学习率满足所述配置条件,则将所述调整后的文本表征网络确定为所述文本表征模型。4.如权利要求3所述的嵌套实体识别方法,其特征在于,所述文本表征网络包括输入层、编码层及解码层,所述基于所述任一预设分类器计算所述文本表征网络在任一批次文本上的第一学习率包括:基于所述输入层将所述任一批次文本转换为文本向量;
基于所述编码层对所述文本向量进行编码处理,得到特征信息;基于所述解码层对所述特征信息进行解码处理,得到预测表征;将所述预测表征输入至所述任一预设分类器进行分类处理,得到所述任一预设分类器所输出的预测实体;基于所述预测实体及所述标注实体,计算所述文本表征网络的网络损失值;根据所述网络损失值生成所述第一学习率。5.如权利要求3所述的嵌套实体识别方法,其特征在于,所述检测所述第二学习率是否满...

【专利技术属性】
技术研发人员:付桂振张文倩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1