实体识别模型热更新方法及其装置、设备、介质、产品制造方法及图纸

技术编号:32675298 阅读:29 留言:0更新日期:2022-03-17 11:31
本申请公开一种实体识别模型热更新方法及其装置、设备、介质、产品,所述方法包括:将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库的命名实体输出;将未精准命中的命名实体与标准词库进行模糊匹配,将实现模糊匹配的命名实体添加至标准词库;根据经该实体识别模型历史处理的被识别文本所构成的语料库,计算未实现模糊匹配的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体添加至标准词库中。本申请可以实现实体识别模型的热更新,提升模型完整准确识别命名实体的能力。名实体的能力。名实体的能力。

【技术实现步骤摘要】
实体识别模型热更新方法及其装置、设备、介质、产品


[0001]本申请涉及电商信息
,尤其涉及一种实体识别模型热更新方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。

技术介绍

[0002]命名实体识别在电商领域的搜索、推荐和用户画像分析等都起着重要作用,例如用户搜索时,搜索框对用户搜索的词汇联想,可以引导用户搜索想要搜索的商品词,提高搜索效率,而词汇联想中的联想词需要基于商品库中的商品,命名实体识别方法就可以识别出商品词。根据用户的搜索,识别出搜索关键词的tag,例如商品词、品牌等,可以用于提高搜索精排的效果。同时用户的搜索商品、点击商品、加购、下单商品等行为,可以使用嵌套实体识别方法识别出用户这些行为的偏好,用于用户画像分析。
[0003]命名实体识别(NER)可以被当作序列标注问题,采用经训练的神经网络模型来解决,其中实体边界和类别标签被联合预测。实体识别任务由于序列标注,在样本均衡及训练时,有较大的不足,所以在推断时会出现召回率较低,边界识别不准确等多种问题,在生产上的使用时精确率较低,使用场景较为受限。
[0004]因此,如何改进命名实体识别技术,使其能够从待识别文件中尽可能完整并且准确地识别出命名实体,成为该领域有待不断演进的问题。

技术实现思路

[0005]本申请的首要目的在于解决上述问题至少之一而提供一种实体识别模型热更新方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
[0006]为满足本申请的各个目的,本申请采用如下技术方案:
[0007]适应本申请的目的之一而提供的一种实体识别模型热更新方法,包括如下步骤:
[0008]将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果;
[0009]将未精准命中所述标准词库中标准词的命名实体与标准词库中标准词进行模糊匹配,将实现模糊匹配的命名实体作为标准词添加至所述标准词库中;
[0010]计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;
[0011]根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中。
[0012]深化的实施例中,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果,包括如下步骤:
[0013]将所述被识别文本进行编码,获得其嵌入向量,所述嵌入向量包含被识别文本中的每个字符的嵌入向量,每个字符的嵌入向量包含该字符字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量;
[0014]将该嵌入向量输入所述实体识别模型的文本特征提取模块进行表示学习,获得表征了该嵌入向量的深层语义信息的文本特征向量;
[0015]将该文本特征向量输入所述实体识别模型的条件随机场模块进行词性标注,提取出被识别文本中的一个或多个命名实体;
[0016]将提取出的命名实体与所述标准词库中进行精准匹配,将与标准词库中标准词实现精准匹配的命名实体作为识别结果输出。
[0017]深化的实施例中,计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本,包括如下步骤:
[0018]调用由所述实体识别模型在预设历史时长处理的被识别文本及其对应的未实现模糊匹配的命名实体构成的语料库;
[0019]计算所述未实现模糊匹配的各个命名实体的自信息熵及互信息熵的加权和值作为各个命名实体相应的信息熵评分;
[0020]比较各个命名实体的信息熵评分是否超过预设阈值,将信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本存储为待标注集。
[0021]深化的实施例中,根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中,包括如下步骤:
[0022]获取所述目标被识别文本及其相应的目标命名实体的许可信息;
[0023]根据目标被识别文本的许可信息所指示的正、负样本类型,将所述目标被识别文本标注为正、负样本,添加至数据集中构成迭代训练所述实体识别模型的新增数据样本;
[0024]根据目标命名实体的许可信息所包含的标准词确认指令,将相应的目标命名实体作为标准词添加至所述标准词库中。
[0025]扩展的一种实施例中,根据许可信息将所述目标被识别文本添加至数据集中构成迭代训练所述实体识别模型的数据样本、将所述目标命名实体作为标准词添加至所述标准词库中的步骤之后,包括如下步骤:
[0026]响应定时任务或用户指令,调用所述数据集中的所述新增数据样本对所述实体识别模型实施迭代训练;
[0027]在完成该实体识别模型的迭代训练后,重启该实体识别模型用于为被识别文本识别命名实体。
[0028]扩展的一种实施例中,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果的步骤之后,包括如下步骤:
[0029]构造包含所述识别结果中的命名实体的搜索表达式;
[0030]调用商品搜索引擎从商品数据库中获取与该搜索表达式相匹配的商品对象;
[0031]将所述商品对象构造为商品列表,将该商品列表推送至提供所述被识别文本的搜索请求方。
[0032]扩展的一种实施例中,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果的步骤之后,包括如下步骤:
[0033]利用所述识别结果中的命名实体对携带所述被识别文本的商品对象进行标注,使
所述识别结果中的命名实体构成所述商品对象的画像标签。
[0034]适应本申请的目的之一而提供的一种实体识别模型热更新装置,包括:精确匹配模块、模糊匹配模块、实体筛选模块,以及数据更新模块,其中,所述精确匹配模块,用于将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果;所述模糊匹配模块,用于将未精准命中所述标准词库中标准词的命名实体与标准词库中标准词进行模糊匹配,将实现模糊匹配的命名实体作为标准词添加至所述标准词库中;所述实体筛选模块,用于计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;所述数据更新模块,用于根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中。
[0035]深化的实施例中,所述精确匹配模块,包括:编码处理子模块,用于将所述被识别文本进行编码,获得其嵌入向量,所述嵌入向量包含被识别文本中的每个字符的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别模型热更新方法,其特征在于,包括如下步骤:将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果;将未精准命中所述标准词库中标准词的命名实体与标准词库中标准词进行模糊匹配,将实现模糊匹配的命名实体作为标准词添加至所述标准词库中;计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本;根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标准词库中。2.根据权利要求1所述的实体识别模型热更新方法,其特征在于,将被识别文本输入实体识别模型获得多个命名实体,将精准命中标准词库中标准词的命名实体输出为识别结果,包括如下步骤:将所述被识别文本进行编码,获得其嵌入向量,所述嵌入向量包含被识别文本中的每个字符的嵌入向量,每个字符的嵌入向量包含该字符字向量以及该字符的所有可能的分词根据该字符在分词中的出现位置进行分类编码获得的词向量;将该嵌入向量输入所述实体识别模型的文本特征提取模块进行表示学习,获得表征了该嵌入向量的深层语义信息的文本特征向量;将该文本特征向量输入所述实体识别模型的条件随机场模块进行词性标注,提取出被识别文本中的一个或多个命名实体;将提取出的命名实体与所述标准词库中进行精准匹配,将与标准词库中标准词实现精准匹配的命名实体作为识别结果输出。3.根据权利要求1所述的实体识别模型热更新方法,其特征在于,计算未实现模糊匹配所述标准词库中标准词的命名实体的信息熵评分,筛选出信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本,包括如下步骤:调用由所述实体识别模型在预设历史时长处理的被识别文本及其对应的未实现模糊匹配的命名实体构成的语料库;计算所述未实现模糊匹配的各个命名实体的自信息熵及互信息熵的加权和值作为各个命名实体相应的信息熵评分;比较各个命名实体的信息熵评分是否超过预设阈值,将信息熵评分超过预设阈值的目标命名实体及其相应的目标被识别文本存储为待标注集。4.根据权利要求1所述的实体识别模型热更新方法,其特征在于,根据许可信息将目标被识别文本添加至数据集中构成迭代训练实体识别模型的新增数据样本、将目标命名实体作为标准词添加至所述标...

【专利技术属性】
技术研发人员:郑彦
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1