分类精度评价方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：29102069 阅读：34 留言：0更新日期：2021-06-30 10:15

本申请涉及一种分类精度评价方法、装置、计算机设备和存储介质。所述方法包括：获取有害语音样本集；将有害语音样本集中的每个有害语音样本输入待评价的有害语音分类模型中进行分类，得到预测类别标签；在预设的分类层级中，确定与预测类别标签和有害语音样本的样本类别标签对应的目标分类；根据目标分类计算待评价的有害语音分类模型的分类精确程度。本方案中，对有害语音样本进行了多层次的分类(即分类层级)，然后在分类层级中确定预测类别标签和样本类别标签共同所属的目标分类，目标分类可以反映预测类别标签和样本类别标签的匹配度，进而根据目标分类确定分类模型的分类精确程度，能够有效的提高分类模型评价的准确度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
分类精度评价方法、装置、计算机设备和存储介质

[0001]本申请涉及机器学习
，特别是涉及一种分类精度评价方法、装置、计算机设备和存储介质。

技术介绍

[0002]分类技术是在统计学习理论基础上发展起来的一种新的非常有效的机器学习方法。由于其出色的学习性能，分类技术已成为预测领域新的研究热点。
[0003]语音分类的应用已经深入日常生活的方方面面。例如，有害语音分类在预防各种电信诈骗上取得了显著的效果。有害语音分类模型是用于对有害语音进行分类的模型，有害语音的分类结果可以反过来评价有害语音分类模型的分类效果。
[0004]目前针对有害语音分类模型的评价是根据正确结果与预测结果是否一致来评价模型的分类效果，不能对具体的分类结果进行更加精细化的评价，对分类模型评价的准确度较低。

技术实现思路

[0005]基于此，有必要针对上述技术问题，提供一种能够提高分类模型评价准确度的分类精度评价方法、装置、计算机设备和存储介质。
[0006]第一方面，提供了一种分类精度评价方法，该方法包括：
[0007]获取有害语音样本集，有害语音样本集包括多个有害语音样本以及每个有害语音样本对应的样本类别标签；
[0008]将有害语音样本集中的每个有害语音样本输入待评价的有害语音分类模型中进行分类，得到预测类别标签；
[0009]在预设的分类层级中，确定与预测类别标签和有害语音样本的样本类别标签对应的目标分类；其中，目标分类为包含预测类别标签和样本类别标签的最低层级的分类；r/>[0010]根据目标分类确定待评价的有害语音分类模型的分类精确程度。
[0011]在其中一个实施例中，在预设的分类层级中，确定与预测类别标签和有害语音样本的样本类别标签对应的目标分类，包括：
[0012]在预设的分类层级中，逐层向上查找并比对预测类别标签的上层分类以及有害语音样本的样本类别标签的上层分类；
[0013]当预测类别标签的上层分类与有害语音样本的样本类别标签的上层分类相同时，将相同的分类作为目标分类。
[0014]在其中一个实施例中，根据目标分类确定待评价的有害语音分类模型的分类精确程度，包括：
[0015]根据目标分类以及不在目标分类中的最小类确定每个样本标签的寄生最小类组，其中，最小类为有害语音样本集中各样本类别标签对应的分类；
[0016]根据每一个样本对应的寄生最小类组计算归类切量；
[0017]将所有样本的归类切量相加得到总归类切量；
[0018]根据总归类切量和总最大归类切量计算分类精确程度。
[0019]在其中一个实施例中，根据每一个样本对应的寄生最小类组计算归类切量，包括：
[0020]当有害语音样本的预测类别标签与样本类别标签相同时，根据最小类的集合中每个最小类中的样本数与总样本数计算归类切量；
[0021]当有害语音样本的预测类别标签与样本类别标签不同时，根据目标分类中的样本数、不在目标分类中的每个最小类的样本数以及总样本数计算归类切量。
[0022]在其中一个实施例中，分类精确程度包括总归类切率；根据总归类切量和总最大归类切量计算分类精确程度，包括：
[0023]根据样本类别标签的最小类计算最大归类切量，根据最大归类切量计算总最大归类切量；
[0024]根据总归类切量与总最大归类切量计算总归类切率。
[0025]在其中一个实施例中，分类精确程度包括总归类损失率；
[0026]根据总归类切量和总最大归类切量计算分类精确程度，包括：
[0027]根据总归类切量与总最大归类切量计算总归类损失量；
[0028]根据总归类损失量和总最大归类切量计算总归类损失率。
[0029]在其中一个实施例中，分类层级的确定过程，包括：
[0030]将有害语音样本集中各样本类别标签对应的分类作为分类层级的最小类；
[0031]根据最小类和预设的迭代归类算法进行归类处理，得到至少一个归类集合，其中，一个归类集合包含一次归类得到的分类；
[0032]根据最小类和至少一个归类集合包含的分类之间的关联关系，建立分类层级。
[0033]第二方面，提供了一种分类精度评价装置，该装置包括：
[0034]获取模块，用于获取有害语音样本集，有害语音样本集包括多个有害语音样本以及每个有害语音样本对应的样本类别标签；
[0035]分类模块，用于将有害语音样本集中的每个有害语音样本输入待评价的有害语音分类模型中进行分类，得到预测类别标签；
[0036]目标分类确定模块，在预设的分类层级中，确定与预测类别标签和有害语音样本的样本类别标签对应的目标分类；其中，目标分类为包含预测类别标签和样本类别标签的最低层级的分类；
[0037]确定模块，用于根据目标分类确定待评价的有害语音分类模型的分类精确程度。
[0038]第三方面，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行该计算机程序时实现以下步骤：
[0039]获取有害语音样本集，有害语音样本集包括多个有害语音样本以及每个有害语音样本对应的样本类别标签；
[0040]将有害语音样本集中的每个有害语音样本输入待评价的有害语音分类模型中进行分类，得到预测类别标签；
[0041]在预设的分类层级中，确定与预测类别标签和有害语音样本的样本类别标签对应的目标分类；其中，目标分类为包含预测类别标签和样本类别标签的最低层级的分类；
[0042]根据目标分类确定待评价的有害语音分类模型的分类精确程度。
[0043]第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下步骤：
[0044]获取有害语音样本集，有害语音样本集包括多个有害语音样本以及每个有害语音样本对应的样本类别标签；
[0045]将有害语音样本集中的每个有害语音样本输入待评价的有害语音分类模型中进行分类，得到预测类别标签；
[0046]在预设的分类层级中，确定与预测类别标签和有害语音样本的样本类别标签对应的目标分类；其中，目标分类为包含预测类别标签和样本类别标签的最低层级的分类；
[0047]根据目标分类确定待评价的有害语音分类模型的分类精确程度。
[0048]上述分类精度评价方法、装置、计算机设备和存储介质，通过获取有害语音样本集，有害语音样本集包括多个有害语音样本以及每个有害语音样本对应的样本类别标签；将有害语音样本集中的每个有害语音样本输入待评价的有害语音分类模型中进行分类，得到预测类别标签；在预设的分类层级中，确定与预测类别标签和有害语音样本的样本类别标签对应的目标分类；其中，目标分类为包含预测类别标签和样本类别标签的最低层级的分类；根据目标分类确定待评价的有害语音分类模型的分类精确程度。本方案中，对有害语音样本进行了多层次的分类(即分类层级)，然后在分类层级中确定预测类别标本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分类精度评价方法，其特征在于，所述方法包括：获取有害语音样本集，所述有害语音样本集包括多个有害语音样本以及每个有害语音样本对应的样本类别标签；将所述有害语音样本集中的每个有害语音样本输入待评价的有害语音分类模型中进行分类，得到预测类别标签；在预设的分类层级中，确定与所述预测类别标签和所述有害语音样本的样本类别标签对应的目标分类；其中，所述目标分类为包含所述预测类别标签和所述样本类别标签的最低层级的分类；根据所述目标分类确定所述待评价的有害语音分类模型的分类精确程度。2.根据权利要求1所述的方法，其特征在于，所述在预设的分类层级中，确定与所述预测类别标签和所述有害语音样本的样本类别标签对应的目标分类，包括：在预设的分类层级中，逐层向上查找并比对所述预测类别标签的上层分类以及所述有害语音样本的样本类别标签的上层分类；当所述预测类别标签的上层分类与所述有害语音样本的样本类别标签的上层分类相同时，将相同的分类作为目标分类。3.根据权利要求1所述的方法，其特征在于，所述根据所述目标分类确定所述待评价的有害语音分类模型的分类精确程度，包括：根据所述目标分类以及不在目标分类中的最小类确定每个样本标签的寄生最小类组，其中，所述最小类为所述有害语音样本集中各样本类别标签对应的分类；根据每一个样本对应的寄生最小类组计算归类切量；将所有样本的归类切量相加得到总归类切量；根据所述总归类切量和总最大归类切量计算所述分类精确程度。4.根据权利要求3所述的方法，其特征在于，所述根据每一个样本对应的寄生最小类组计算归类切量，包括：当所述有害语音样本的预测类别标签与样本类别标签相同时，根据最小类的集合中每个最小类中的样本数与总样本数计算归类切量；当所述有害语音样本的预测类别标签与样本类别标签不同时，根据目标分类中的样本数、不在目标分类中的每个最小类的样本数以及总样本数计算归类切量。5.根据权利要求3所述的方法，其特征在于，所述分类精确程度包括总归类切...

【专利技术属性】
技术研发人员：刘皓辰，谭泽龙，计哲，黄远，孙晓晨，沈亮，李鹏，万辛，倪善金，郭敏，张卫强，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人