一种多变量数据分类方法与装置制造方法及图纸

技术编号:21572595 阅读:20 留言:0更新日期:2019-07-10 15:41
本发明专利技术公开了一种多变量数据分类方法与装置,包括:对原始数据进行预处理,根据K‑邻近算法执行数据填充并生成待提取数据;使用待提取数据训练根据数据特征进行分类的数据分类模型;使用数据分类模型对数据进行进一步的数据分类。本发明专利技术的技术方案能够针对不同原始数据或不同类型的原始数据来进行处理和分类,实现对多变量复杂数据的有效信息提取。

A Multivariable Data Classification Method and Device

【技术实现步骤摘要】
一种多变量数据分类方法与装置
本专利技术涉及计算机领域,并且更具体地,特别是涉及一种多变量数据分类方法与装置。
技术介绍
随着计算机技术及人工智能技术的发展,深度学习技术在图像、音频、文本等有组织的数据方面有较多的处理方法及应用案例,比如传统RNN(递归神经网络)和CNN(卷积神经网络)等,能够对一些区分度比较高的数据实现粗粒度分类。然而,随着深度学习技术逐渐步入多种行业领域,处理数据复杂度倍增,且数据往往无组织、不同维度之间无牵连、或存在大量数据缺失和数据异常等问题,现有技术运用的随机丢弃机制无法有效实现对异常数据的剔除,也无法实现缺失数据的智能识别与相似还原,这导致分类模型拟合度差,使数据的所属分类鉴别、数据隐含信息提取等变得困难。总之,现有技术尚无法有效实现对此类复杂数据场景下的有效处理。针对现有技术中难以在复杂数据场景下进行数据分类的问题,目前尚未有有效的解决方案。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种多变量数据分类方法与装置,能够针对不同原始数据或不同类型的原始数据来进行处理和分类,实现对多变量复杂数据的有效信息提取。基于上述目的,本专利技术实施例的一方面提供了一种多变量数据分类方法,包括以下步骤:对原始数据进行预处理,并且根据K-邻近算法执行数据填充并生成待提取数据;使用待提取数据训练根据数据特征进行分类的数据分类模型;使用数据分类模型对数据进行进一步的数据分类。在一些实施方式中,对原始数据进行预处理包括;将原始数据的不同数据记录中的数据特征按类别顺序重新排列;统计与标记原始数据的每个数据记录中缺失的数据信息;标记原始数据中重要的数据信息;将原始数据的文本信息转化为以空间向量形式表示的数值;随机打乱原始数据的数据记录顺序;对原始数据进行标准化处理。在一些实施方式中,标准化处理为无量纲化处理,无量纲化处理包括以下至少之一:去均值、归一化、标准化、主成分分析/零相位分量分析白化。在一些实施方式中,根据K-邻近算法执行数据填充并生成待提取数据包括:对原始数据使用K-邻近算法在超平面内生成包络;将落入包络内的原始数据作为正常数据,对正常数据计算高斯分布均值方差;对高斯分布均值方差使用拉伊达准则确定数据分布区间;使用在数据分布区间内的随机值执行数据填充。在一些实施方式中,使用待提取数据训练根据数据特征进行分类的数据分类模型包括:在神经网络输入层中将待提取数据向量化并转化为可处理的张量形式;在长短期记忆网络层中使用少于神经网络输入层中神经元个数的神经元对张量进行深度特征提取;在注意力层中对所有深度提取的特征进行加权;根据加权后的特征生成数据分类模型。在一些实施方式中,长短期记忆网络层包括输入门、遗忘门、和输出门,输入门用于筛选信息,遗忘门用于确定要提取的信息,输出门用于确定要输出的信息。在一些实施方式中,对所有深度提取的特征进行加权包括:根据权重系数、偏置系数、随机初始化的注意力矩阵来确定长短期记忆网络层的输出张量中各数据信息的概率权重,并根据概率权重对输出张量进行加权。在一些实施方式中,使用待提取数据训练根据数据特征进行分类的数据分类模型和使用数据分类模型进行数据分类的步骤均在服务器端执行。本专利技术实施例的另一方面,还提供了一种多变量数据分类装置,包括:处理器;和存储器,存储器存储有可运行的程序代码,程序代码在被运行时执行上述的方法。本专利技术实施例的另一方面,还提供了一种数据处理系统,具有上述的多变量数据分类装置。本专利技术具有以下有益技术效果:本专利技术实施例提供的多变量数据分类方法与装置,通过采集原始数据,对原始数据进行预处理,根据K-邻近算法执行数据填充并生成待提取数据,使用待提取数据训练根据数据特征进行分类的数据分类模型,使用数据分类模型对数据进行进一步的数据分类以及输出所得到的数据分类结果的技术方案,能够针对不同原始数据或不同类型的原始数据来进行处理和分类,实现对多变量复杂数据的有效信息提取。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。图1为本专利技术提供的多变量数据分类方法的流程示意图;图2为本专利技术提供的多变量数据分类方法的数据预处理的流程示意图;图3为本专利技术提供的多变量数据分类方法的神经网络模型图;和图4为本专利技术提供的多变量数据分类方法的LSTM网络结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”、“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。基于上述目的,本专利技术实施例的第一个方面,提出了一种能够针对不同原始数据或不同类型的原始数据来进行处理和分类的多变量数据分类方法的实施例。图1示出的是本专利技术提供的多变量数据分类方法的实施例的流程示意图。所述多变量数据分类方法,包括以下步骤:步骤S101,对原始数据进行预处理,并且根据K-邻近算法执行数据填充并生成待提取数据;步骤S103,使用待提取数据训练根据数据特征进行分类的数据分类模型;步骤S105,使用数据分类模型对数据进行进一步的数据分类。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。数据预处理主要实现对数据进行格式转换、压缩及分割等一系列工作。预处理的步骤可参见图2:如图2所示,对原始数据进行预处理具体包括;数据指标序列化——将原始数据的不同数据记录中的数据特征按类别顺序重新排列;缺失信息统计——统计与标记原始数据的每个数据记录中缺失的数据信息;可靠记录筛选——标记原始数据中重要的数据信息;文本信息数值化——将原始数据的文本信息转化为以空间向量形式表示的数值;缺失数据填充——根据K-邻近算法执行数据填充并生成待提取数据;随机打乱数据——随机打乱原始数据的数据记录顺序;数据标准化——对原始数据进行标准化处理。其中,原始数据可以是血液数据,包含性别、年龄及血常规、生化检验、凝血筛查、肿瘤标记物筛查这四个大检查项目,共计以下101个子项目:中性粒细胞、C-反应蛋白测定mg/dl、淋巴细胞、单核细胞、嗜酸性粒细胞、嗜碱性粒细胞、白细胞计数10^9/L、红细胞计数10^12/L、血红蛋白测定g/L、红细胞比积测定L/L、平均红细胞体积fl、平均红细胞血红蛋白量pg、平均红细胞血红蛋白浓度g/L、红细胞体积分布宽度测定CV、血小板计数10^9/L、平均血小板体积测定fl、嗜酸粒细胞直接计数10^9/L、血小板比积测定、血小板体积分布宽度、低荧光网织红细胞、中荧光网织红细本文档来自技高网...

【技术保护点】
1.一种多变量数据分类方法,其特征在于,包括以下步骤:对原始数据进行预处理,并且根据K‑邻近算法执行数据填充并生成待提取数据;使用所述待提取数据训练根据数据特征进行分类的数据分类模型;使用所述数据分类模型对数据进行进一步的数据分类。

【技术特征摘要】
1.一种多变量数据分类方法,其特征在于,包括以下步骤:对原始数据进行预处理,并且根据K-邻近算法执行数据填充并生成待提取数据;使用所述待提取数据训练根据数据特征进行分类的数据分类模型;使用所述数据分类模型对数据进行进一步的数据分类。2.根据权利要求1所述的方法,其特征在于,对所述原始数据进行预处理包括;将所述原始数据的不同数据记录中的数据特征按类别顺序重新排列;统计与标记所述原始数据的每个数据记录中缺失的数据信息;标记所述原始数据中重要的数据信息;将所述原始数据的文本信息转化为以空间向量形式表示的数值;随机打乱所述原始数据的数据记录顺序;对所述原始数据进行标准化处理。3.根据权利要求2所述的方法,其特征在于,所述标准化处理为无量纲化处理,所述无量纲化处理包括以下至少之一:去均值、归一化、标准化、主成分分析/零相位分量分析白化。4.根据权利要求1所述的方法,其特征在于,根据K-邻近算法执行数据填充并生成待提取数据包括:对所述原始数据使用K-邻近算法在超平面内生成包络;将落入所述包络内的所述原始数据作为正常数据,对所述正常数据计算高斯分布均值方差;对所述高斯分布均值方差使用拉伊达准则确定数据分布区间;使用在所述数据分布区间内的随机值执行所述数据填充。5.根据权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:周镇镇
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1