模型构建方法、装置、设备及存储介质制造方法及图纸

技术编号:39407718 阅读:20 留言:0更新日期:2023-11-19 15:59
本申请实施例公开了一种模型构建方法、装置、设备及存储介质,该方法包括:获取纠错数据集,纠错数据集包括目标场景下的多个纠错文本;针对多个纠错文本中的任一纠错文本,调用语言模型,对任一纠错文本中的各个字符进行特征提取,得到各个字符的字符特征;针对任一纠错文本中任一字符的字符特征,获取基于任一字符的字符特征将任一字符识别为各个字符的概率,与任一字符为各个字符的参考概率之间的概率差异;按照减小概率差异的方向,优化语言模型中的特征提取参数,得到优化后的语言模型;基于优化后的语言模型和实体识别网络,构建目标场景下的实体识别模型。本申请实施例可提升字符特征的准确性,进而提升实体识别结果的准确性。确性。确性。

【技术实现步骤摘要】
模型构建方法、装置、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种模型构建方法、装置、设备及存储介质。

技术介绍

[0002]目前,随着计算机技术的持续发展,实体识别模型已被广泛应用于各种系统(如问答系统、对话系统以及搜索系统等);具体的,在获取到目标对象输入的文本后,可采用实体识别模型中的语言模型对获取到的文本中的各个字符进行特征提取,从而基于各个字符的字符特征,识别出文本中的实体以响应相应的文本;但医疗等专业名词较为不常见的场景下,目标对象往往会输入错误,使输入的错误文本中包括错误实体(即拼写错误的实体),导致语言模型提取到的字符特征的准确性较低,从而使得实体识别模型进行实体识别的准确性较低,在此种情况下,难以识别出错误文本中的错误实体。基于此,如何提升字符特征的准确性,进而提升实体识别的准确性成为了研究热点。

技术实现思路

[0003]本申请实施例提供了一种模型构建方法、装置、设备及存储介质,可采用纠错数据集对语言模型进行优化,从而采用优化后的语言模型构建实体识别模型,以提升通过实体识别模型中的语言模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型构建方法,其特征在于,包括:获取用于对语言模型进行模型优化的纠错数据集,所述纠错数据集包括目标场景下的多个纠错文本,且每个纠错文本包括至少一个错误实体,一个错误实体包括至少一个字符;针对所述多个纠错文本中的任一纠错文本,调用所述语言模型,对所述任一纠错文本中的各个字符进行特征提取,得到所述各个字符的字符特征;针对所述任一纠错文本中任一字符的字符特征,获取基于所述任一字符的字符特征将所述任一字符识别为所述各个字符的概率,与所述任一字符为所述各个字符的参考概率之间的概率差异;按照减小所述概率差异的方向,优化所述语言模型中的特征提取参数,得到优化后的语言模型;基于所述优化后的语言模型和实体识别网络,构建所述目标场景下的实体识别模型,所述实体识别模型用于对所述目标场景下的文本进行实体识别。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用于对初始语言模型进行模型优化的训练数据集,所述训练数据集包括所述目标场景下的多个训练文本,且每个训练文本包括至少一个参考实体,一个参考实体包括至少一个训练字符;针对所述多个训练文本中的任一训练文本,调用所述初始语言模型,对所述任一训练文本中的各个训练字符进行特征提取,得到所述各个训练字符的字符特征;针对所述任一训练文本中任一训练字符的字符特征,获取基于所述任一训练字符的字符特征识别为所述各个训练字符的概率,与所述任一训练字符为所述各个训练字符的参考概率之间的训练概率差异;按照减小所述训练概率差异的方向,优化所述初始语言模型中的特征提取参数,得到所述语言模型。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:按照预设的掩码概率,获取所述任一纠错文本中的第一掩码位置;基于目标掩码方式和所述第一掩码位置,确定所述任一纠错文本中的第二掩码位置;其中,所述目标掩码方式用于指示所述任一纠错文本中的掩码位置的选取方式,且所述目标掩码方式包括以下至少一项:字符掩码方式、全词掩码方式以及实体掩码方式;采用掩码字符对所述第二掩码位置上的字符进行掩码处理,以更新所述任一纠错文本,其中,所述更新后的纠错文本中的各个字符被用于特征提取。4.根据权利要求3所述的方法,其特征在于,所述任一纠错文本中的第二掩码位置的确定方式包括:将所述第一掩码位置作为所述任一纠错文本中的第二掩码位置;或者,确定所述第一掩码位置上的字符所组成的完整词,并将所述完整词所在的字符位置作为所述任一纠错文本中的第二掩码位置;或者,确定所述第一掩码位置上的字符所组成的目标实体,并将所述目标实体所在的字符位置作为所述任一纠错文本中的第二掩码位置。5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:获取所述目标场景下的混淆集,所述混淆集包括所述目标场景下的多个纠错字符对,
且一个纠错字符对包括至少一个错误实体和对应的所述至少一个错误实体被纠错后的实体;调用所述实体识别模型中的语言模型,对待处理文本中的各个字符进行特征提取,得到所述待处理文本中的各个字符的字符特征;调用所述实...

【专利技术属性】
技术研发人员:叶志豪江旺杰赵瑞辉郑建光欧子菁于苗苗
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1