分类规则获取方法及装置制造方法及图纸

技术编号:25951578 阅读:19 留言:0更新日期:2020-10-17 03:43
本申请提供的分类规则获取方法及装置,能够将经过SWEM模型分类后的数据作为样本数据,并且分别确定所有类别中的第一衡量指数和第二衡量指数最小的目标类别;第一衡量指数最小,说明该目标类别中的数据可分性差,第二衡量指数最小,说明该第二衡量指数对应的两个目标类别之间的可分性差。进而需要确定出这两个目标类别内重合的目标样本数据,并对目标样本数据的类别进行修改,以使其与其他类别明显区分,形成包含预设分类规则在内的新的分类规则。本申请的技术方案能够根据衡量指数确定需要修改类别的目标样本数据,形成更加具体和准确的分类规则,可应用于多版本迭代的数据集,适用范围比较广。

【技术实现步骤摘要】
分类规则获取方法及装置
本申请涉及计算机
,尤其涉及一种分类规则获取方法及装置。
技术介绍
随着人工智能的快速发展,机器学习和深度学习在分类任务中得到广泛应用,尤其是在自然语言处理任务中,例如:用户意图识别、垃圾邮件识别等。随着深度学习的发展,目前已经有多种基于深度学习的分类模型,例如:textCNN模型、Transformer模型和BERT模型等。基于分类模型处理各种分类任务,是当前主要的数据分类方法。目前的数据分类处理流程主要包括:先根据业务类型或先验知识人为地建立多个分类标准,再根据不同的分类标准依次对数据集的类别进行划分,然后利用基于深度学习的分类模型对数据集进行机器分类,根据机器分类结果,依次验证数据集类别划分的结果,并对划分结果不理想的数据集的分类标准进行修改。然而,上述这种数据分类方法,在满足业务需求的前提下,技术人员根据个人经验,会设计多种分类标准,在不知道哪种分类标准更合理的情况下,只有将所有分类标准下的数据都输入到分类模型,通过最后的机器分类结果进行衡量。可见,在这样的数据分类方式中,技术人员主观设计的分类标准针对于不同版本的数据集,并不能全部适用。
技术实现思路
本申请提供了一种分类规则获取方法及装置,以解决当前数据分类方法中分类标准适用范围小的问题。第一方面,本申请提供了一种分类规则获取方法,包括:利用SWEM模型将样本数据集表示成不同类别的样本数据,所述SWEM模型具有预设分类规则;在所有类别中确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别,所述第一衡量指数用于衡量类别中样本数据的可分性,所述第二衡量指数用于衡量类别之间样本数据的可分性;确定所述第一目标类别与所述第二目标类别中相互重合的目标样本数据;结合所述预设分类规则,修改所述目标样本数据所归属的类别,形成新的分类规则。本申请一些实施例中,在所有类别中确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别的步骤包括:分别计算出两两类别之间的第二衡量指数;利用每个类别相关的所述第二衡量指数,计算出每个类别的第一衡量指数;在所有类别中确定所述第一衡量指数最小的第一目标类别;在所有类别中确定与所述第一目标类别相关的最小第二衡量指数对应的第二目标类别。本申请一些实施例中,根据如下公式计算出两两类别之间的第二衡量指数:其中,Sij表示类别i与类别j之间的第二衡量指数,Bij表示类别i与类别j之间的类间距离,Wi表示类别i的类内距离。本申请一些实施例中,根据如下公式计算出类别i与类别j之间的类间距离Bij:Bij=(ci-cj)(ci-cj)T,其中,ci表示类别i的均值向量,cj表示类别j的均值向量。本申请一些实施例中,根据如下公式计算出类内距离Wi:其中,xk表示类别i中第k个样本数据,ci表示类别i的均值向量。本申请一些实施例中,根据如下公式计算出每个类别的第一衡量指数:其中,表示类别i的第一衡量指数,N表示类别数量,表示类别j中的样本数据的数量。本申请一些实施例中,利用每个类别相关的所述第二衡量指数,计算出每个类别的第一衡量指数之后,还包括:计算出整个样本数据集的数据集衡量指数。本申请一些实施例中,根据如下公式计算数据集衡量指数:其中,S表示数据集衡量指数,表示类别i的第一衡量指数,N表示类别数量。本申请一些实施例中,在结合所述预设分类规则,修改所述目标样本数据所归属的类别,形成新的分类规则之后,还包括:使SWEM模型利用新的分类规则将样本数据集再次表示成不同类别的样本数据;在所有类别中再次确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别,所述第一衡量指数用于衡量类别中样本数据的可分性,所述第二衡量指数用于衡量类别之间样本数据的可分性;再次确定所述第一目标类别与所述第二目标类别中相互重合的目标样本数据;再结合新的分类规则,修改所述目标样本数据所归属的类别,直至数据集衡量指数满足预设要求,从而形成最终的分类规则。本申请一些实施例中,利用SWEM模型将样本数据集表示成不同类别的样本数据的步骤包括:将样本数据集划分成若干个短文本;对所述短文本进行分词处理,得到若干个词;将每个词表示成词向量;将所述样本数据集以词向量的形成输入到所述SWEM模型中,获得不同类别的样本数据,所述样本数据为SWEM模型输出的稠密向量。第二方面,本申请还提供了一种分类规则获取装置,包括:样本数据获取模块,用于利用SWEM模型将样本数据集表示成不同类别的样本数据,所述SWEM模型具有预设分类规则;分类衡量模块,用于在所有类别中确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别,所述第一衡量指数用于衡量类别中样本数据的可分性,所述第二衡量指数用于衡量类别之间样本数据的可分性;确定所述第一目标类别与所述第二目标类别中相互重合的目标样本数据;类别修改模块,用于结合所述预设分类规则,修改所述目标样本数据所归属的类别,形成新的分类规则。由上述内容可知,本申请技术方案中的分类规则获取方法及装置,能够将经过SWEM模型分类后的数据作为样本数据,并且分别确定所有类别中的第一衡量指数和第二衡量指数最小的目标类别;第一衡量指数最小,说明该目标类别中的数据可分性差,第二衡量指数最小,说明该第二衡量指数对应的两个目标类别之间的可分性差。进而需要确定出这两个目标类别内重合的目标样本数据,并对目标样本数据的类别进行修改,以使其与其他类别明显区分,形成包含预设分类规则在内的新的分类规则。本申请的技术方案能够根据衡量指数确定需要修改类别的目标样本数据,形成更加具体和准确的分类规则,可应用于多版本迭代的数据集,适用范围比较广。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例示出的离散型向量化表示方法的示意图;图2为本申请实施例示出的稠密型向量化表示方法的示意图;图3为本申请实施例示出的一种分类规则获取方法的流程图;图4为本申请实施例示出的一种SWEM模型处理结果的示意图;图5为本申请实施例示出的另一种分类规则获取方法的流程图;图6为本申请实施例示出的一种分类规则获取装置的结构示意图。具体实施方式为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅本文档来自技高网...

【技术保护点】
1.一种分类规则获取方法,其特征在于,包括:/n利用SWEM模型将样本数据集表示成不同类别的样本数据,所述SWEM模型具有预设分类规则;/n在所有类别中确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别,所述第一衡量指数用于衡量类别中样本数据的可分性,所述第二衡量指数用于衡量类别之间样本数据的可分性;/n确定所述第一目标类别与所述第二目标类别中相互重合的目标样本数据;/n结合所述预设分类规则,修改所述目标样本数据所归属的类别,形成新的分类规则。/n

【技术特征摘要】
1.一种分类规则获取方法,其特征在于,包括:
利用SWEM模型将样本数据集表示成不同类别的样本数据,所述SWEM模型具有预设分类规则;
在所有类别中确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别,所述第一衡量指数用于衡量类别中样本数据的可分性,所述第二衡量指数用于衡量类别之间样本数据的可分性;
确定所述第一目标类别与所述第二目标类别中相互重合的目标样本数据;
结合所述预设分类规则,修改所述目标样本数据所归属的类别,形成新的分类规则。


2.根据权利要求1所述的方法,其特征在于,在所有类别中确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别的步骤包括:
分别计算出两两类别之间的第二衡量指数;
利用每个类别相关的所述第二衡量指数,计算出每个类别的第一衡量指数;
在所有类别中确定所述第一衡量指数最小的第一目标类别;
在所有类别中确定与所述第一目标类别相关的最小第二衡量指数对应的第二目标类别。


3.根据权利要求2所述的方法,其特征在于,根据如下公式计算出两两类别之间的第二衡量指数:



其中,Sij表示类别i与类别j之间的第二衡量指数,Bij表示类别i与类别j之间的类间距离,Wi表示类别i的类内距离。


4.根据权利要求3所述的方法,其特征在于,根据如下公式计算出类别i与类别j之间的类间距离Bij:
Bij=(ci-cj)(ci-cj)T,
其中,ci表示类别i的均值向量,cj表示类别j的均值向量。


5.根据权利要求3所述的方法,其特征在于,根据如下公式计算出类内距离Wi:



其中,xk表示类别i中第k个样本数据,ci表示类别i的均值向量。


6.根据权利要求3所述的方法,其特征在于,根据如下公式计算出每个类别的第一衡量指数:



其中,表示类别i的第一衡量指数,N表示类别数量,表示类别j中的样本数据的数量。


7.根据权利要求2所述的方法,其特征在于,利用...

【专利技术属性】
技术研发人员:王聪沈承恩杨善松
申请(专利权)人:海信视像科技股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1