【技术实现步骤摘要】
分类处理方法、相关装置和介质
[0001]本公开涉及人工智能
,特别是涉及一种分类处理方法、相关装置和介质。
技术介绍
[0002]随着互联网上各种业务的迅速发展,风控压力也随之增大。对互联网上各种主体的真实经营范围的识别尤为重要。由于主体名称常常会指示主体的经营类别、所属地域等较为重要的主体信息,因此,在识别不同主体的真实经营范围时,经常将主体名称作为主体类别判定的依据。
[0003]目前,大多数的主体分类方法常常依赖于关键词匹配的方式,即针对每个语种构建一个关键词词典,该关键词词典中存储着与各关键词对应的主体类别。从主体名称中识别关键词,查找关键词词典得到对应的主体类别。这一方式往往受限于关键词词典的完善程度,主体分类的准确性低。另外,还有一些主体分类方法是基于单语言模型实现的,即针对不同的语种分别训练一个分类模型来进行主体分类。每个语种都需要大量的标注样本进行模型训练,训练标注成本高且准确性低。
技术实现思路
[0004]本公开实施例提供了一种分类处理方法、相关装置和介质,它能够在减少模型训练标注成本的同时,提高分类准确性。
[0005]根据本公开的一方面,提供了一种分类处理方法,包括:获取目标主体名称;将所述目标主体名称输入分类模型,得到目标主体类别,其中,所述分类模型在预训练多语言模型的基础上通过以下方式调整而成:获取多个第一样本主体名称和多个第二样本主体名称,其中,所述第一样本主体名称具有主体类别标签;对所述第二样本主体名称进行数据增强,得到第二增强样本主体名称,所述 ...
【技术保护点】
【技术特征摘要】
1.一种分类处理方法,其特征在于,包括:获取目标主体名称;将所述目标主体名称输入分类模型,得到目标主体类别,其中,所述分类模型在预训练多语言模型的基础上通过以下方式调整而成:获取多个第一样本主体名称和多个第二样本主体名称,其中,所述第一样本主体名称具有主体类别标签;对所述第二样本主体名称进行数据增强,得到第二增强样本主体名称,所述第二增强样本主体名称包含所述第二样本主体名称的译文;基于所述预训练多语言模型对所述多个第一样本主体名称的第一类别预测结果、和所述主体类别标签的比对、以及所述预训练多语言模型对所述多个第二样本主体名称的第二类别预测结果、和所述多个第二增强样本主体名称的第三类别预测结果的比对,对所述预训练多语言模型进行调整,得到所述分类模型。2.根据权利要求1所述的分类处理方法,其特征在于,所述将所述目标主体名称输入分类模型,得到目标主体类别,包括:将目标主体名称进行数据增强,得到多个增强目标主体名称;将所述目标主体名称、和多个所述增强目标主体名称各自输入所述分类模型,得到多个类别判定子结果;基于多个所述类别判定子结果,确定所述目标主体类别。3.根据权利要求2所述的分类处理方法,其特征在于,所述类别判定子结果包括多个候选主体类别的判定概率;所述基于多个所述类别判定子结果,确定所述目标主体类别,包括:基于多个所述类别判定子结果中同一所述候选主体类别的所述判定概率,确定所述候选主体类别的总判定概率;基于所述候选主体类别的总判定概率,从多个所述候选主体类别中选择所述目标主体类别。4.根据权利要求1所述的分类处理方法,其特征在于,所述基于所述预训练多语言模型对所述多个第一样本主体名称的第一类别预测结果、和所述主体类别标签的比对、以及所述预训练多语言模型对所述多个第二样本主体名称的第二类别预测结果、和所述多个第二增强样本主体名称的第三类别预测结果的比对,对所述预训练多语言模型进行调整,得到所述分类模型,包括:基于多个所述第一样本主体名称的所述第一类别预测结果和所述主体类别标签确定第一损失函数,并基于多个所述第二样本主体名称的所述第二类别预测结果和所述第三类别预测结果确定第二损失函数;基于所述第一损失函数和所述第二损失函数对所述预训练多语言模型进行调整,得到所述分类模型。5.根据权利要求4所述的分类处理方法,其特征在于,所述基于所述第一损失函数和所述第二损失函数对所述预训练多语言模型进行调整,得到所述分类模型,包括:获取所述第一损失函数的第一权重、和所述第二损失函数的第二权重;基于所述第一权重和所述第二权重,计算所述第一损失函数和所述第二损失函数的加
权和,作为总损失函数;基于所述总损失函数对所述预训练多语言模型进行调整,得到所述分类模型。6.根据权利要求4所述的分类处理方法,其特征在于,所述基于多个所述第一样本主体名称的所述第一类别预测结果和所述主体类别标签确定第一损失函数,包括:基于所述第一样本主体名称的所述第一类别预测结果和所述主体类别标签,确定第一损失子函数;对多个所述第一样本主体名称的所述第一损失子函数进行平均,得到所述第一损失函数;所述基于多个所述第二样本主体名称的所述第二类别预测结果和所述第三类别预测结果确定第二损失函数,包括:基于所述第二样本主体名称的所述第二类别预测结果和所述第三类别预测结果确定第二损失子函数;对多个所述第二样本主体名称的所述第二损失子函数进行平均,得到所述第二损失函数。7.根据权利要求6所述的分类处理方法,其特征在于,所述第一类别预测结果包括多个候选主体类别的第一预测概率;所述基于所述第一样本主体名称的所述第一类别预测结果和所述主体类别标签,确定第一损失子函数,包括:针对每个所述第一样本主体名称,从所述第一类别预测结果中提取预测出的主体类别与所述主体类别标签一致的所述第一预测概率;对所述第一预测概率取负对数,得到所述第一损失子函数。8.根据权利要求6所述的分类处理方法,其特征在于,所述第二类别预测结果包括多个候选主体类别的第二预测概率,所述第三类别预测结果包括多个候选主体类别的第三预测概率;所述基于所述第二样本主体名称的所述第二类别预测结果和所述第三类别预测结果确定第二损失子函数,包括:针对每个所述候选主体类别,确定所述候选主体类别的所述第二预测概率和所述第三预测概率的差的平方;对多个所述候选主体类别的所述差的所述平方求和,得到所述第二损失子函数。9.根据权利要求1所述的分类处理方法,其特征在于,在获取目标主体名称之后,所述分类处理方法还包括:对所述目标主体名称进行数据去噪,得到去噪后主体名称;所述将所述目标主体名称输入分类模型,得到目标主体类别,包括:将所述去噪后主体名称输入分类模型,得到目标主体类别。10.根据权利要求...
【专利技术属性】
技术研发人员:铁瑞雪,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。