分类处理方法、相关装置和介质制造方法及图纸

技术编号:38825637 阅读:11 留言:0更新日期:2023-09-15 20:04
本公开提供了一种分类处理方法、相关装置和介质。方法包括:获取目标主体名称;将目标主体名称输入分类模型,得到目标主体类别,分类模型在预训练多语言模型的基础上通过以下方式调整而成:获取具有主体类别标签第一样本主体名称、第二样本主体名称;对第二样本主体名称进行数据增强,得到第二增强样本主体名称;基于预训练多语言模型对第一样本主体名称的第一类别预测结果、和主体类别标签的比对,预训练多语言模型对第二样本主体名称的第二类别预测结果、和第二增强样本主体名称的第三类别预测结果的比对,进行模型调整,得到分类模型。本公开能在减少模型训练标注成本的同时,提高分类准确性。本公开可应用于人工智能、云技术等各种场景。技术等各种场景。技术等各种场景。

【技术实现步骤摘要】
分类处理方法、相关装置和介质


[0001]本公开涉及人工智能
,特别是涉及一种分类处理方法、相关装置和介质。

技术介绍

[0002]随着互联网上各种业务的迅速发展,风控压力也随之增大。对互联网上各种主体的真实经营范围的识别尤为重要。由于主体名称常常会指示主体的经营类别、所属地域等较为重要的主体信息,因此,在识别不同主体的真实经营范围时,经常将主体名称作为主体类别判定的依据。
[0003]目前,大多数的主体分类方法常常依赖于关键词匹配的方式,即针对每个语种构建一个关键词词典,该关键词词典中存储着与各关键词对应的主体类别。从主体名称中识别关键词,查找关键词词典得到对应的主体类别。这一方式往往受限于关键词词典的完善程度,主体分类的准确性低。另外,还有一些主体分类方法是基于单语言模型实现的,即针对不同的语种分别训练一个分类模型来进行主体分类。每个语种都需要大量的标注样本进行模型训练,训练标注成本高且准确性低。

技术实现思路

[0004]本公开实施例提供了一种分类处理方法、相关装置和介质,它能够在减少模型训练标注成本的同时,提高分类准确性。
[0005]根据本公开的一方面,提供了一种分类处理方法,包括:获取目标主体名称;将所述目标主体名称输入分类模型,得到目标主体类别,其中,所述分类模型在预训练多语言模型的基础上通过以下方式调整而成:获取多个第一样本主体名称和多个第二样本主体名称,其中,所述第一样本主体名称具有主体类别标签;对所述第二样本主体名称进行数据增强,得到第二增强样本主体名称,所述第二增强样本主体名称包含所述第二样本主体名称的译文;基于所述预训练多语言模型对所述多个第一样本主体名称的第一类别预测结果、和所述主体类别标签的比对、以及所述预训练多语言模型对所述多个第二样本主体名称的第二类别预测结果、和所述多个第二增强样本主体名称的第三类别预测结果的比对,对所述预训练多语言模型进行调整,得到所述分类模型。
[0006]根据本公开的一方面,提供了一种分类处理装置,所述分类处理装置包括:获取单元,用于获取目标主体名称;分类单元,用于将所述目标主体名称输入分类模型,得到目标主体类别,其中,所述分类模型在预训练多语言模型的基础上通过以下方式调整而成:获取多个第一样本主体名称和多个第二样本主体名称,其中,所述第一样本主体名称具有主体类别标签;
对所述第二样本主体名称进行数据增强,得到第二增强样本主体名称,所述第二增强样本主体名称包含所述第二样本主体名称的译文;基于所述预训练多语言模型对所述多个第一样本主体名称的第一类别预测结果、和所述主体类别标签的比对、以及所述预训练多语言模型对所述多个第二样本主体名称的第二类别预测结果、和所述多个第二增强样本主体名称的第三类别预测结果的比对,对所述预训练多语言模型进行调整,得到所述分类模型。
[0007]可选地,所述分类单元,具体包括:增强单元,用于将目标主体名称进行数据增强,得到多个增强目标主体名称;输入单元,用于将所述目标主体名称、和多个所述增强目标主体名称各自输入所述分类模型,得到多个类别判定子结果;确定单元,用于基于多个所述类别判定子结果,确定所述目标主体类别。
[0008]可选地,所述类别判定子结果包括多个候选主体类别的判定概率;所述确定单元,具体用于:基于多个所述类别判定子结果中同一所述候选主体类别的所述判定概率,确定所述候选主体类别的总判定概率;基于所述候选主体类别的总判定概率,从多个所述候选主体类别中选择所述目标主体类别。
[0009]可选地,所述分类模型包括候选主体类别概率预测子模型和分类层;所述分类单元具体用于:将所述目标主体名称输入所述候选主体类别概率预测子模型,得到各个所述候选主体类别的判定概率;通过所述分类层,将各个所述候选主体类别中判定概率最高的候选主体类别判定为所述目标主体类别。
[0010]可选地,所述分类处理装置还包括去噪单元,用于:所述分类单元具体用于:对所述目标主体名称进行数据去噪,得到去噪后主体名称;所述分类单元具体用于:将所述去噪后主体名称输入分类模型,得到目标主体类别。
[0011]可选地,所述分类处理装置还包括识别单元,用于:如果所述去噪后主体名称仅包含数字,确定分类处理结果为无法分类;如果所述去噪后主体名称经语义识别模型判定无语义,确定分类处理结果为无法分类。
[0012]根据本公开的一方面,提供了一种模型训练装置,所述模型训练装置包括:样本获取单元,用于获取多个第一样本主体名称和多个第二样本主体名称,其中,所述第一样本主体名称具有主体类别标签;数据增强单元,用于对所述第二样本主体名称进行数据增强,得到第二增强样本主体名称,所述第二增强样本主体名称包含所述第二样本主体名称的译文;调整单元,用于基于所述预训练多语言模型对所述多个第一样本主体名称的第一类别预测结果、和所述主体类别标签的比对、以及所述预训练多语言模型对所述多个第二
样本主体名称的第二类别预测结果、和所述多个第二增强样本主体名称的第三类别预测结果的比对,对所述预训练多语言模型进行调整,得到所述分类模型。
[0013]可选地,所述数据增强单元用于:对所述第二样本主体名称进行第四数目种语言类型的数据增强,得到所述第二样本主体名称的第四数目种语言类型的所述译文;将所述第四数目种语言类型的所述译文整合成所述第二增强样本主体名称。
[0014]可选地,所述第四数目种语言类型通过以下方式确定:针对多个所述第一样本主体名称和多个所述第二样本主体名称中的每个样本主体名称,确定所述样本主体名称的语言类型;针对每种语言类型,确定具有所述语言类型的样本主体名称数目;将所述样本主体名称数目排在前所述第四数目名的所述语言类型,作为所述第四数目种语言类型。
[0015]可选地,所述调整单元,具体包括:损失确定单元,用于基于多个所述第一样本主体名称的所述第一类别预测结果和所述主体类别标签确定第一损失函数,并基于多个所述第二样本主体名称的所述第二类别预测结果和所述第三类别预测结果确定第二损失函数;模型调整单元,用于基于所述第一损失函数和所述第二损失函数对所述预训练多语言模型进行调整,得到所述分类模型。
[0016]可选地,所述模型调整单元,用于:获取所述第一损失函数的第一权重、和所述第二损失函数的第二权重;基于所述第一权重和所述第二权重,计算所述第一损失函数和所述第二损失函数的加权和,作为总损失函数;基于所述总损失函数对所述预训练多语言模型进行调整,得到所述分类模型。
[0017]可选地,所述损失确定单元,包括:第一确定子单元,用于基于所述第一样本主体名称的所述第一类别预测结果和所述主体类别标签,确定第一损失子函数;第一平均子单元,用于对多个所述第一样本主体名称的所述第一损失子函数进行平均,得到所述第一损失函数;所述损失确定单元,还具体包括:第二确定子单元,用于基于所述第二样本主体名称的所述第二类别预测结果和所述第三类别预测结果确定第二损失子函数;第二平均子单元,用于对多个所述第二样本主体名称的所述第二损失子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分类处理方法,其特征在于,包括:获取目标主体名称;将所述目标主体名称输入分类模型,得到目标主体类别,其中,所述分类模型在预训练多语言模型的基础上通过以下方式调整而成:获取多个第一样本主体名称和多个第二样本主体名称,其中,所述第一样本主体名称具有主体类别标签;对所述第二样本主体名称进行数据增强,得到第二增强样本主体名称,所述第二增强样本主体名称包含所述第二样本主体名称的译文;基于所述预训练多语言模型对所述多个第一样本主体名称的第一类别预测结果、和所述主体类别标签的比对、以及所述预训练多语言模型对所述多个第二样本主体名称的第二类别预测结果、和所述多个第二增强样本主体名称的第三类别预测结果的比对,对所述预训练多语言模型进行调整,得到所述分类模型。2.根据权利要求1所述的分类处理方法,其特征在于,所述将所述目标主体名称输入分类模型,得到目标主体类别,包括:将目标主体名称进行数据增强,得到多个增强目标主体名称;将所述目标主体名称、和多个所述增强目标主体名称各自输入所述分类模型,得到多个类别判定子结果;基于多个所述类别判定子结果,确定所述目标主体类别。3.根据权利要求2所述的分类处理方法,其特征在于,所述类别判定子结果包括多个候选主体类别的判定概率;所述基于多个所述类别判定子结果,确定所述目标主体类别,包括:基于多个所述类别判定子结果中同一所述候选主体类别的所述判定概率,确定所述候选主体类别的总判定概率;基于所述候选主体类别的总判定概率,从多个所述候选主体类别中选择所述目标主体类别。4.根据权利要求1所述的分类处理方法,其特征在于,所述基于所述预训练多语言模型对所述多个第一样本主体名称的第一类别预测结果、和所述主体类别标签的比对、以及所述预训练多语言模型对所述多个第二样本主体名称的第二类别预测结果、和所述多个第二增强样本主体名称的第三类别预测结果的比对,对所述预训练多语言模型进行调整,得到所述分类模型,包括:基于多个所述第一样本主体名称的所述第一类别预测结果和所述主体类别标签确定第一损失函数,并基于多个所述第二样本主体名称的所述第二类别预测结果和所述第三类别预测结果确定第二损失函数;基于所述第一损失函数和所述第二损失函数对所述预训练多语言模型进行调整,得到所述分类模型。5.根据权利要求4所述的分类处理方法,其特征在于,所述基于所述第一损失函数和所述第二损失函数对所述预训练多语言模型进行调整,得到所述分类模型,包括:获取所述第一损失函数的第一权重、和所述第二损失函数的第二权重;基于所述第一权重和所述第二权重,计算所述第一损失函数和所述第二损失函数的加
权和,作为总损失函数;基于所述总损失函数对所述预训练多语言模型进行调整,得到所述分类模型。6.根据权利要求4所述的分类处理方法,其特征在于,所述基于多个所述第一样本主体名称的所述第一类别预测结果和所述主体类别标签确定第一损失函数,包括:基于所述第一样本主体名称的所述第一类别预测结果和所述主体类别标签,确定第一损失子函数;对多个所述第一样本主体名称的所述第一损失子函数进行平均,得到所述第一损失函数;所述基于多个所述第二样本主体名称的所述第二类别预测结果和所述第三类别预测结果确定第二损失函数,包括:基于所述第二样本主体名称的所述第二类别预测结果和所述第三类别预测结果确定第二损失子函数;对多个所述第二样本主体名称的所述第二损失子函数进行平均,得到所述第二损失函数。7.根据权利要求6所述的分类处理方法,其特征在于,所述第一类别预测结果包括多个候选主体类别的第一预测概率;所述基于所述第一样本主体名称的所述第一类别预测结果和所述主体类别标签,确定第一损失子函数,包括:针对每个所述第一样本主体名称,从所述第一类别预测结果中提取预测出的主体类别与所述主体类别标签一致的所述第一预测概率;对所述第一预测概率取负对数,得到所述第一损失子函数。8.根据权利要求6所述的分类处理方法,其特征在于,所述第二类别预测结果包括多个候选主体类别的第二预测概率,所述第三类别预测结果包括多个候选主体类别的第三预测概率;所述基于所述第二样本主体名称的所述第二类别预测结果和所述第三类别预测结果确定第二损失子函数,包括:针对每个所述候选主体类别,确定所述候选主体类别的所述第二预测概率和所述第三预测概率的差的平方;对多个所述候选主体类别的所述差的所述平方求和,得到所述第二损失子函数。9.根据权利要求1所述的分类处理方法,其特征在于,在获取目标主体名称之后,所述分类处理方法还包括:对所述目标主体名称进行数据去噪,得到去噪后主体名称;所述将所述目标主体名称输入分类模型,得到目标主体类别,包括:将所述去噪后主体名称输入分类模型,得到目标主体类别。10.根据权利要求...

【专利技术属性】
技术研发人员:铁瑞雪
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1