高维数据分类方法、装置、设备及存储介质制造方法及图纸

技术编号:28560336 阅读:17 留言:0更新日期:2021-05-25 17:55
本发明专利技术公开一种高维数据分类方法、装置、设备及存储介质。该方法包括:获取待分类高维数据;对待分类高维数据的各维特征向量进行归一化处理;根据基于训练样本的总类内散度矩阵和总类间散度矩阵构建的特征映射模型,确定各训练样本的投影样本;确定预设的分类器结构中的各二分类器中各训练样本的投影样本的均值;根据特征映射模型,确定待分类高维数据的投影数据;将待分类高维数据的投影数据与各二分类器中训练样本的投影样本的均值进行比较,分别获得各二分类器的比较结果;以及根据各二分类器的比较结果,确定待分类高维数据的类别。该方法能够实现多分类问题的一步快速准确预测,提升高维数据分类的速度。

【技术实现步骤摘要】
高维数据分类方法、装置、设备及存储介质
本专利技术涉及数据分类领域,具体而言,涉及一种高维数据分类方法、装置、设备及存储介质。
技术介绍
目前数据分类已经在许多业务中得到使用,例如健康风险预测、核保结论预测、理赔风险预测、财务发票分类识别等,并且随着OCR(OpticalCharacterRecognition,光学字符识别)、文本分析等技术的普及,分类问题作为一个基础前置技术正逐渐成为一个不可忽视或者无法绕开的技术点,因此,研究分类技术无论对于业务应用还是基础技术研发都有重要的意义和价值。目前可用于高维数据多分类的方法非常多,例如支持向量机、深度神经网络等。支持向量机是采用特征升维的思路实现分类,深度神经网络是采用统计学习的思路实现多分类。深度学习技术存在诸多问题,例如模型笨重,需要的存储空间和计算量较大,使得在传统CPU(CentralProcessingUnit,中央处理器)架构下运行速度非常慢,而GPU(GraphicsProcessingUnit,图形处理器)的成本非常高。在所述
技术介绍
部分公开的上述信息仅用于加强对本专利技术的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术提供一种高维数据分类方法、装置、设备及存储介质,能够实现多分类问题的一步快速准确预测,提升高维数据分类的速度。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术的一方面,提供一种高维数据分类方法,其特征在于,包括:获取待分类高维数据;对所述待分类高维数据的各维特征向量进行归一化处理;根据基于训练样本的总类内散度矩阵和总类间散度矩阵构建的特征映射模型,确定各训练样本的投影样本;确定预设的分类器结构中的各二分类器中各训练样本的投影样本的均值;根据所述特征映射模型,确定所述待分类高维数据的投影数据;将所述待分类高维数据的投影数据与所述各二分类器中所述训练样本的投影样本的均值进行比较,分别获得各二分类器的比较结果;以及根据各二分类器的比较结果,确定所述待分类高维数据的类别。根据本专利技术的一实施方式,当所述类别的数量为k时,所述分类器的数量为k-1。根据本专利技术的一实施方式,所述预设的分类器结构由以下公式确定:二分类器1:{C1}:{C2,C3,…Cj,…,Ck}二分类器2:{C1,C2}:{C3,C4,…Cj,…,Ck}……二分类器k-1:{C1,C2,…,Cj,…,Ck-1}:{Ck}其中,{C1,C2,…Cj,…,Ck}为所述类别的集合,“:”表示二分类器的间隔。根据本专利技术的一实施方式,所述特征映射模型根据下述公式获得:其中,Sw为所述总类内散度矩阵,Sb为所述总类间散度矩阵。根据本专利技术的一实施方式,各训练样本的投影样本为所述特征映射模型的转置矩阵与各训练样本的乘积,所述待分类高维数据的投影数据为所述特征映射模型的转置矩阵与所述待分类高维数据的乘积。根据本专利技术的一实施方式,所述待分类高维数据的投影数据的维度小于所述待分类高维数据的维度。根据本专利技术的一实施方式,根据各二分类器的比较结果,确定所述待分类高维数据的类别包括:根据各二分类器的比较结果,分别确定各二分类器中各类别的分值;以及对各二分类器中各类别的分值进行累加,确定其中分值最高的类别为所述待分类高维数据的类别。根据本专利技术的另一方面,提供一种高维数据分类装置,其特征在于,包括:数据获取模块,用于获取待分类高维数据;数据处理模块,用于对所述待分类高维数据的各维特征向量进行归一化处理;样本投影模块,用于根据基于训练样本的总类内散度矩阵和总类间散度矩阵构建的特征映射模型,确定各训练样本的投影样本;均值确定模块,用于确定预设的分类器结构中的各二分类器中各训练样本的投影样本的均值;数据投影模块,用于根据所述特征映射模型,确定所述待分类高维数据的投影数据;数据比较模块,用于将所述待分类高维数据的投影数据与所述各二分类器中所述训练样本的投影样本的均值进行比较,分别获得各二分类器的比较结果;以及类别确定模块,用于根据各二分类器的比较结果,确定所述待分类高维数据的类别。根据本专利技术的再一方面,提供一种计算机设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种方法。根据本专利技术的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种方法。根据本专利技术提供的高维数据分类方法,根据特征映射模型,确定训练样本的投影样本和待分类高维数据的投影数据,基于预设的分类器结构,确定投影样本的均值,通过比较待分类高维数据的投影数据和投影样本的均值,获得各二分类器的比较结果,由此确定待分类高维数据的类别。对于分类类别为k的分类任务,仅需要k-1个分类器,即可以获得最终的分类结果,从而能够实现多分类问题的一步快速准确预测,提升高维数据分类的速度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本专利技术。附图说明通过参照附图详细描述其示例实施例,本专利技术的上述和其它目标、特征及优点将变得更加显而易见。图1是根据一示例性实施方式示出的一种高维数据分类方法的流程图。图2是根据一示例性实施方式示出的另一种高维数据分类方法的流程图。图3是根据一示例性实施方式示出的一种高维数据分类装置的框图。图4是根据一示例性实施方式示出的一种电子设备的结构示意图。图5是根据一示例性实施方式示出的一种计算机可读存储介质的示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本专利技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本专利技术的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本专利技术的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本专利技术的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本专利技术的各方面变得模糊。目前健康险已成为互联网保险业务量最大的业务,随之产生的客户逆向选择、带病投保等风险快速提升,为了控制承保风险,中高端健康险险种已经开始要求客户提供第三方出具的体检报告,保险公司基于对体检报告的分析,进行承保风险评估,再在此基础上形成差异化定价、除外项等一系列承保措施,从而一定程度上降低了保险公司的理赔风险。本专利技术提供的一种高维本文档来自技高网...

【技术保护点】
1.一种高维数据分类方法,其特征在于,包括:/n获取待分类高维数据;/n对所述待分类高维数据的各维特征向量进行归一化处理;/n根据基于训练样本的总类内散度矩阵和总类间散度矩阵构建的特征映射模型,确定各训练样本的投影样本;/n确定预设的分类器结构中的各二分类器中各训练样本的投影样本的均值;/n根据所述特征映射模型,确定所述待分类高维数据的投影数据;/n将所述待分类高维数据的投影数据与所述各二分类器中所述训练样本的投影样本的均值进行比较,分别获得各二分类器的比较结果;以及/n根据各二分类器的比较结果,确定所述待分类高维数据的类别。/n

【技术特征摘要】
1.一种高维数据分类方法,其特征在于,包括:
获取待分类高维数据;
对所述待分类高维数据的各维特征向量进行归一化处理;
根据基于训练样本的总类内散度矩阵和总类间散度矩阵构建的特征映射模型,确定各训练样本的投影样本;
确定预设的分类器结构中的各二分类器中各训练样本的投影样本的均值;
根据所述特征映射模型,确定所述待分类高维数据的投影数据;
将所述待分类高维数据的投影数据与所述各二分类器中所述训练样本的投影样本的均值进行比较,分别获得各二分类器的比较结果;以及
根据各二分类器的比较结果,确定所述待分类高维数据的类别。


2.根据权利要求1所述的方法,其特征在于,当所述类别的数量为k时,所述分类器的数量为k-1。


3.根据权利要求2所述的方法,其特征在于,所述预设的分类器结构由以下公式确定:
二分类器1:{C1}:{C2,C3,…Cj,…,Ck}
二分类器2:{C1,C2}:{C3,C4,…Cj,…,Ck}
……
二分类器k-1:{C1,C2,…,Cj,…,Ck-1}:{Ck}
其中,{C1,C2,…Cj,…,Ck}为所述类别的集合,“:”表示二分类器的间隔。


4.根据权利要求1所述的方法,其特征在于,所述特征映射模型根据下述公式获得:



其中,Sw为所述总类内散度矩阵,Sb为所述总类间散度矩阵。


5.根据权利要求4所述的方法,其特征在于,各训练样本的投影样本为所述特征映射模型的转置矩阵与各训练样本的乘积,所述待分类高维数据的投影数据为所述特征映射模型的转置矩阵与所述待分类高维数据的乘积。...

【专利技术属性】
技术研发人员:刘岩
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1