分类规则获取方法及装置制造方法及图纸

技术编号：25951578 阅读：19 留言：0更新日期：2020-10-17 03:43

本申请提供的分类规则获取方法及装置，能够将经过SWEM模型分类后的数据作为样本数据，并且分别确定所有类别中的第一衡量指数和第二衡量指数最小的目标类别；第一衡量指数最小，说明该目标类别中的数据可分性差，第二衡量指数最小，说明该第二衡量指数对应的两个目标类别之间的可分性差。进而需要确定出这两个目标类别内重合的目标样本数据，并对目标样本数据的类别进行修改，以使其与其他类别明显区分，形成包含预设分类规则在内的新的分类规则。本申请的技术方案能够根据衡量指数确定需要修改类别的目标样本数据，形成更加具体和准确的分类规则，可应用于多版本迭代的数据集，适用范围比较广。

全部详细技术资料下载

【技术实现步骤摘要】
分类规则获取方法及装置
本申请涉及计算机
，尤其涉及一种分类规则获取方法及装置。
技术介绍
随着人工智能的快速发展，机器学习和深度学习在分类任务中得到广泛应用，尤其是在自然语言处理任务中，例如：用户意图识别、垃圾邮件识别等。随着深度学习的发展，目前已经有多种基于深度学习的分类模型，例如：textCNN模型、Transformer模型和BERT模型等。基于分类模型处理各种分类任务，是当前主要的数据分类方法。目前的数据分类处理流程主要包括：先根据业务类型或先验知识人为地建立多个分类标准，再根据不同的分类标准依次对数据集的类别进行划分，然后利用基于深度学习的分类模型对数据集进行机器分类，根据机器分类结果，依次验证数据集类别划分的结果，并对划分结果不理想的数据集的分类标准进行修改。然而，上述这种数据分类方法，在满足业务需求的前提下，技术人员根据个人经验，会设计多种分类标准，在不知道哪种分类标准更合理的情况下，只有将所有分类标准下的数据都输入到分类模型，通过最后的机器分类结果进行衡量。可见，在这样的数据分类方式中，技术人员主观设计的分类标准针对于不同版本的数据集，并不能全部适用。
技术实现思路
本申请提供了一种分类规则获取方法及装置，以解决当前数据分类方法中分类标准适用范围小的问题。第一方面，本申请提供了一种分类规则获取方法，包括：利用SWEM模型将样本数据集表示成不同类别的样本数据，所述SWEM模型具有预设分类规则；在所有类别中确定第一衡量指数最小的第一目标类...

【技术保护点】
1.一种分类规则获取方法，其特征在于，包括：/n利用SWEM模型将样本数据集表示成不同类别的样本数据，所述SWEM模型具有预设分类规则；/n在所有类别中确定第一衡量指数最小的第一目标类别，以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别，所述第一衡量指数用于衡量类别中样本数据的可分性，所述第二衡量指数用于衡量类别之间样本数据的可分性；/n确定所述第一目标类别与所述第二目标类别中相互重合的目标样本数据；/n结合所述预设分类规则，修改所述目标样本数据所归属的类别，形成新的分类规则。/n

【技术特征摘要】
1.一种分类规则获取方法，其特征在于，包括：
利用SWEM模型将样本数据集表示成不同类别的样本数据，所述SWEM模型具有预设分类规则；
在所有类别中确定第一衡量指数最小的第一目标类别，以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别，所述第一衡量指数用于衡量类别中样本数据的可分性，所述第二衡量指数用于衡量类别之间样本数据的可分性；
确定所述第一目标类别与所述第二目标类别中相互重合的目标样本数据；
结合所述预设分类规则，修改所述目标样本数据所归属的类别，形成新的分类规则。

2.根据权利要求1所述的方法，其特征在于，在所有类别中确定第一衡量指数最小的第一目标类别，以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别的步骤包括：
分别计算出两两类别之间的第二衡量指数；
利用每个类别相关的所述第二衡量指数，计算出每个类别的第一衡量指数；
在所有类别中确定所述第一衡量指数最小的第一目标类别；
在所有类别中确定与所述第一目标类别相关的最小第二衡量指数对应的第二目标类别。

3.根据权利要求2所述的方法，其特征在于，根据如下公式计算出两两类别之间的第二衡量指数：

其中，Sij表示类别i与类别j之间的第二衡量指数，Bij表示类别i与类别j之间的类间距离，Wi表示类别i的类内距离。

4.根据权利要求3所述的方法，其特征在于，根据如下公式计算出类别i与类别j之间的类间距离Bij：
Bij＝(ci-cj)(ci-cj)T，
其中，ci表示类别i的均值向量，cj表示类别j的均值向量。

5.根据权利要求3所述的方法，其特征在于，根据如下公式计算出类内距离Wi：

其中，xk表示类别i中第k个样本数据，ci表示类别i的均值向量。

6.根据权利要求3所述的方法，其特征在于，根据如下公式计算出每个类别的第一衡量指数：

其中，表示类别i的第一衡量指数，N表示类别数量，表示类别j中的样本数据的数量。

7.根据权利要求2所述的方法，其特征在于，利用...

【专利技术属性】
技术研发人员：王聪，沈承恩，杨善松，
申请(专利权)人：海信视像科技股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人