一种数据分类方法及计算设备技术

技术编号:27878111 阅读:13 留言:0更新日期:2021-03-31 01:02
本发明专利技术公开了一种数据分类方法,在计算设备中执行,包括:获取待分类的数据;将该数据输入预设的多标签分类模型,以便多标签分类模型输出该数据属于每一个类别的概率,其中,多标签分类模型在训练时的损失函数适于提高目标类别的分类准确率;当最大概率对应的类别为目标类别,且最大概率大于等于预设的概率阈值时,将目标类别作为该数据所属的类别。本发明专利技术一并公开了相应的计算设备。

【技术实现步骤摘要】
一种数据分类方法及计算设备
本专利技术涉及音频数据处理
,尤其涉及一种数据分类方法及计算设备。
技术介绍
近年来,人工智能技术飞速发展,已被应用到多个领域。分类问题是人工智能算法中的一大类,应用非常广泛。在实际分类问题中,有时会碰到一种场景,即对特定类别的分类准确率要求很高,而不关心其召回率以及其他类别的分类准确率。例如,在智能外呼场景中,智能外呼机器人模拟真人向被叫用户发起语音通话,进行访问、营销等活动。根据智能外呼的语音通话情况,采用分类模型来将用户分为明确有意向、可能有意向、明确无意向三类,对于明确有意向的用户进行人工电话回访,以向这些用户提供定制化的服务。在该场景中,智能外呼服务商更关心筛选出的明确有意向类别的准确率,而不关心有没有漏检明确有意向的用户以及可能有意向、明确无意向类别的准确率。提高明确有意向类别的分类准确率,可以减少不必要的人工电话量,从而提高服务效率。现有的分类模型在分类准确率上对所有类别一视同仁,无法满足提高特定类别分类准确率的需求。
技术实现思路
为此,本专利技术提供一种数据分类方法及计算设备,以力图解决或至少缓解上面存在的问题。根据本专利技术的第一个方面,提供一种数据分类方法,在计算设备中执行,包括:获取待分类的数据;将所述数据输入预设的多标签分类模型,以便所述多标签分类模型输出所述数据属于每一个类别的概率,其中,所述多标签分类模型在训练时的损失函数适于提高目标类别的分类准确率;当最大概率对应的类别为所述目标类别,且所述最大概率大于等于预设的概率阈值时,将目标类别作为所述数据所属的类别。可选地,在根据本专利技术的数据分类方法中,损失函数适于对训练样本的真实类别标签不是所述目标类别,但所述多标签分类模型输出的类别为所述目标类别的情形进行惩罚。可选地,在根据本专利技术的数据分类方法中,多标签分类模型的损失函数为:其中,C为类别的数量;yj用于表示训练样本的真实类别标签是否为第j个类别,当yj=1时,表示训练样本的真实类别标签是第j个类别,当yj=0时,表示训练样本的真实类别标签不是第j个类别;pj为多标签分类模型输出的训练样本属于第j个类别的概率;λj为第j个类别的权重,其中,所述目标类别的权重大于其他类别的权重。可选地,在根据本专利技术的数据分类方法中,多标签分类模型的最后一个处理层为激活层,所述激活层包括与类别数量相同的Sigmoid激活函数,所述Sigmoid激活函数的输出为所述数据属于相应类别的概率。可选地,在根据本专利技术的数据分类方法中,当最大概率对应的类别为所述目标类别,且所述最大概率小于所述概率阈值时,将除所述目标类别之外概率最大的类别作为所述数据所属的类别。可选地,在根据本专利技术的数据分类方法中,当最大概率对应的类别不是所述目标类别时,将最大概率对应的类别作为所述数据所属的类别。可选地,在根据本专利技术的数据分类方法中,数据为语音通话音频,所述类别包括:明确有意向、可能有意向、明确无意向,其中,明确有意向为所述目标类别。根据本专利技术的第二个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,当所述程序指令被所述处理器读取并执行时,使得所述计算设备执行上述数据分类方法。根据本专利技术的第三个方面,提供一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行上述数据分类方法。本专利技术的数据分类方案采用多标签分类模型来对待分类的数据进行分类,通过融合损失函数和概率阈值来提高特定类别(即目标类别)的分类准确率。在训练多标签分类模型时,所采用的损失函数能够有针对性地对错提高目标类别的分类准确率。在采用训练好的多标签分类模型来对数据进行分类时,多标签分类模型输出数据属于每一个类别的概率,只有当最大概率对应的类别为目标类别且该最大概率大于等于预设的概率阈值时,才判定数据属于目标类别,通过设置概率阈值保证了目标类别的分类准确性。本专利技术的数据分类方法能够提高特定类别的分类准确率,在特定场景中具有重要作用。例如,本专利技术的数据分类方法可以应用于智能外呼场景中的用户意向分类,以准确识别出明确有意向的用户。经测试,本专利技术的数据分类方法能够将特定类别的分类准确率提升约3个百分点。当将其应用于智能外呼场景中时,明确有意向类别的用户识别准确率可达到95%。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术一个实施例的计算系统100的示意图;图2示出了根据本专利技术一个实施例的计算设备200的示意图;图3示出了根据本专利技术一个实施例的数据分类方法300的流程图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。针对现有技术中存在的问题,本专利技术提供了一种数据分类方法,能够提高分类模型对特定类别的分类准确率。图1示出了用于对分类模型进行训练及应用的计算系统100的示意图。如图1所示,计算系统100包括通过网络140通信连接的服务器110、训练计算系统120和用户计算设备130。用户计算设备130可以是任意类型的计算设备,包括但不限于个人计算设备(例如桌面计算机、笔记本计算机等)、移动计算设备(例如手机、平板电脑等)、游戏控制台或控制器、智能可穿戴设备、嵌入式计算设备、边缘计算设备或任何其他类型的计算设备。用户计算设备130可以作为智能设备部署于用户现场处,并与用户进行交互而处理用户输入。在一个实施例中,用户可以是使用智能外呼服务来提高用户访问效率的服务商,相应地,用户计算设备130可以是安装有智能外呼机器人客户端的计算设备,用于进行智能外呼以及根据外呼通话情况来识别用户意向。用户计算设备130可以存储或包括一个或多个机器学习模型132。机器学习模型132可以被设计用于执行各种任务,诸如图像分类、目标检测、语音识别、机器翻译、内容过滤等等。机器学习模型132可以是诸如神经网络(例如,深度神经网络)或者包括非线性模型和/或线性模型在内的其他类型的机器学习模型。机器学习模型132的示例包括但不限于各类深度神经网络(DNN),如前馈神经网络、递归神经网络(RNN,例如,长短期记忆递归神经网络(LST本文档来自技高网...

【技术保护点】
1.一种数据分类方法,在计算设备中执行,包括:/n获取待分类的数据;/n将所述数据输入预设的多标签分类模型,以便所述多标签分类模型输出所述数据属于每一个类别的概率,其中,所述多标签分类模型在训练时的损失函数适于提高目标类别的分类准确率;/n当最大概率对应的类别为所述目标类别,且所述最大概率大于等于预设的概率阈值时,将目标类别作为所述数据所属的类别。/n

【技术特征摘要】
1.一种数据分类方法,在计算设备中执行,包括:
获取待分类的数据;
将所述数据输入预设的多标签分类模型,以便所述多标签分类模型输出所述数据属于每一个类别的概率,其中,所述多标签分类模型在训练时的损失函数适于提高目标类别的分类准确率;
当最大概率对应的类别为所述目标类别,且所述最大概率大于等于预设的概率阈值时,将目标类别作为所述数据所属的类别。


2.如权利要求1所述的方法,其中,所述损失函数适于对训练样本的真实类别标签不是所述目标类别,但所述多标签分类模型输出的类别为所述目标类别的情形进行惩罚。


3.如权利要求1或2所述的方法,其中,所述多标签分类模型的损失函数为:



其中,C为类别的数量;
yj用于表示训练样本的真实类别标签是否为第j个类别,当yj=1时,表示训练样本的真实类别标签是第j个类别,当yj=0时,表示训练样本的真实类别标签不是第j个类别;
pj为多标签分类模型输出的训练样本属于第j个类别的概率;
λj为第j个类别的权重,其中,所述目标类别的权重大于其他类别的权重。


4.如权利要求1-3中任一项所述的方法,...

【专利技术属性】
技术研发人员:黄萧李林徐丞申刘荣
申请(专利权)人:天津车之家数据信息技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1