数据分群建模方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:28979672 阅读:9 留言:0更新日期:2021-06-23 09:26
本发明专利技术涉及一种数据分群建模方法、装置、电子设备及计算机存储介质,属于数据挖掘领域。该方法在对数据进行建模前,先对数据进行特征分析,从而得到数据特征,然后再根据数据特征确定出对应的分群方式对数据进行分群,得到多个数据子群,然后再针对每个数据子群分别进行数据建模,从而使得得到的模型可以有针对性地对数据所包含的信息进行学习以及利用,实现对数据的精准建模,提高模型的准确度。

【技术实现步骤摘要】
数据分群建模方法、装置、电子设备及计算机存储介质
本申请属于数据挖掘领域,具体涉及一种数据分群建模方法、装置、电子设备及计算机存储介质。
技术介绍
在一些应用场景中,会用到训练好的网络模型来对新获取到的数据进行处理。针对训练好的网络模型而言,模型的优劣取决于多种因素,其中一种因素为建模时对训练样本所提供的信息的利用率。其中,若模型对训练样本所提供的信息的利用率越高,信息损失越小,得到的模型对数据进行处理的准确度也相应的越高。在现有技术当中,当为了达到一种效果而进行建模时,往往是把大量的数据直接一起输入网络模型进行建模。然而,当数据较为复杂,数据所包括的每个样本所具备的特征较多时,会降低模型对数据信息的利用率,造成信息的大量损失,得到的模型的准确率也相应降低。
技术实现思路
有鉴于此,本申请的目的在于提供一种数据分群建模方法、装置、电子设备及计算机存储介质,通过对数据进行分群后,分别对每个数据子群进行建模,提高信息的利用率,从而实现对数据的精准建模,提高模型的准确度。本申请的实施例是这样实现的:第一方面,本申请实施例提供一种数据分群建模方法,所述方法包括:对获取到的数据进行特征分析,得到数据的数据特征;根据所述数据特征对所述数据进行分群,得到多个数据子群;针对每个所述数据子群分别进行数据建模。在上述过程中,由于在对数据进行建模前,先对数据进行特征分析,得到数据特征,然后再根据数据特征确定出对应的分群方式对数据进行分群,得到多个数据子群,然后再针对每个数据子群分别进行数据建模,相较于现有的直接统一建模的方式,可以更有针对性地对数据所包含的信息进行学习以及利用,实现对数据的精准建模,提高模型的准确度。结合第一方面实施例,在一种可能的实施方式中,所述数据包括多个样本,所述对获取到的数据进行特征分析,包括以下方式中的至少一种:获取每个所述样本的来源信息;计算每个所述样本的缺失值及异常值,得到与每个所述样本对应的缺失比例及异常比例;计算各个样本之间的共线性程度;计算每个所述样本所包括的每个特征对于建模目标的重要性程度,且计算每个所述样本所包括的预设特征在不同的取值范围下对于建模输出结果的分布的差异。结合第一方面实施例,在一种可能的实施方式中,所述根据所述数据特征对所述数据进行分群,包括以下方式中的至少一种:根据所述来源信息,将具备相同或相近来源信息的样本分入同一数据子群;将所述缺失比例大于或等于缺失比例阈值的样本分入同一数据子群,将所述缺失比例低于所述缺失比例阈值的样本分入同一数据子群;将所述异常比例大于或等于异常比例阈值的样本分入同一数据子群,将所述异常比例低于所述异常比例阈值的样本分入同一数据子群;将所述共线性程度大于或等于共线性程度阈值时对应的样本分入不同的数据子群;对目标特征按照变点进行划分,再对其余特征按照预先确定的不同划分条件做笛卡尔积,根据结果将所述样本划分到不同的数据子群;其中,所述目标特征为所述重要性程度大于或等于重要性阈值,且在不同的取值范围下对于建模输出结果的分布造成大于或等于预设差异度的特征,所述变点为所述目标特征对建模输出结果的分布造成大于或等于预设差异度时的取值;通过聚类算法,将特征相似的样本进行聚类,并将属于同一类的样本分入同一个数据子群。结合第一方面实施例,在一种可能的实施方式中,在所述通过聚类算法,将特征相似的样本进行聚类之前,所述方法还包括:对所述数据进行协同插值,搜索到特征相似的样本;通过所述特征相似的样本对所述缺失比例大于或等于所述缺失比例阈值的样本进行特征填补;相应的,所述通过聚类算法,将特征相似的样本进行聚类,包括:通过所述聚类算法将经过特征填补后的所有样本进行聚类。结合第一方面实施例,在一种可能的实施方式中,在所述通过聚类算法,将特征相似的样本进行聚类之前,所述方法还包括:将每个所述样本所包括的特征形成特征矩阵;对每个所述特征矩阵进行线性变换后乘以预先保存的权重矩阵,得到多个目标矩阵;相应的,所述通过聚类算法,将特征相似的样本进行聚类,包括:通过所述聚类算法对所述多个目标矩阵进行聚类。结合第一方面实施例,在一种可能的实施方式中,所述针对每个所述数据子群分别进行数据建模,包括:在对每个所述数据子群内的数据进行预处理后,进行数据建模。结合第一方面实施例,在一种可能的实施方式中,在针对相同的数据采用多种分群方式时,根据所述数据特征对所述数据进行分群,得到多个数据子群,包括:在基于其中一种分群方式得到的多个数据子群的基础上,针对至少一个数据子群采取所述多种分群方式中的其他分群方式继续进行分群,得到多个不同的多个数据子群。第二方面,本申请实施例提供一种数据分群建模装置,所述装置包括:分析模块、分群模块以及建模模块。分析模块,用于对获取到的数据进行特征分析,得到数据的数据特征;分群模块,用于根据所述数据特征对所述数据进行分群,得到多个数据子群;建模模块,用于针对每个所述数据子群分别进行数据建模。结合第二方面实施例,在一种可能的实施方式中,所述分析模块,用于根据以下方式中的至少一种方式进行特征分析:获取每个所述样本的来源信息;计算每个所述样本的缺失值及异常值,得到与每个所述样本对应的缺失比例及异常比例;计算各个样本之间的共线性程度;计算每个所述样本所包括的每个特征对于建模目标的重要性程度,且计算每个所述样本所包括的预设特征在不同的取值范围下对于建模输出结果的分布的差异。结合第二方面实施例,在一种可能的实施方式中,所述分群模块,用于根据以下方式中的至少一种方式进行分群:根据所述来源信息,将具备相同或相近来源信息的样本分入同一数据子群;将所述缺失比例大于或等于缺失比例阈值的样本分入同一数据子群,将所述缺失比例低于所述缺失比例阈值的样本分入同一数据子群;将所述异常比例大于或等于异常比例阈值的样本分入同一数据子群,将所述异常比例低于所述异常比例阈值的样本分入同一数据子群;将所述共线性程度大于或等于共线性程度阈值时对应的样本分入不同的数据子群;对目标特征按照变点进行划分,再对其余特征按照预先确定的不同划分条件做笛卡尔积,根据结果将所述样本划分到不同的数据子群;其中,所述目标特征为所述重要性程度大于或等于重要性阈值,且在不同的取值范围下对于建模输出结果的分布造成大于或等于预设差异度的特征,所述变点为所述目标特征对建模输出结果的分布造成大于或等于预设差异度时的取值;通过聚类算法,将特征相似的样本进行聚类,并将属于同一类的样本分入同一个数据子群。结合第二方面实施例,在一种可能的实施方式中,所述分群模块,用于对所述数据进行协同插值,搜索到特征相似的样本;通过所述特征相似的样本对所述缺失比例大于或等于所述缺失比例阈值的样本进行特征填补;通过所述聚类算法将经过特征填补后的所有样本进行聚类。结合第二方面实施例,在一种可能的实施方式中,所述分群模块,用于将每个所述样本所包括的特征形成特征矩阵;对每个所述特征矩阵进行线性变换后乘以预先保存的权重矩阵,得到多个目标矩阵;通过所述聚类算法对所述多个目标矩阵进本文档来自技高网...

【技术保护点】
1.一种数据分群建模方法,其特征在于,所述方法包括:/n对获取到的数据进行特征分析,得到数据的数据特征;/n根据所述数据特征对所述数据进行分群,得到多个数据子群;/n针对每个所述数据子群分别进行数据建模。/n

【技术特征摘要】
1.一种数据分群建模方法,其特征在于,所述方法包括:
对获取到的数据进行特征分析,得到数据的数据特征;
根据所述数据特征对所述数据进行分群,得到多个数据子群;
针对每个所述数据子群分别进行数据建模。


2.根据权利要求1所述的方法,其特征在于,所述数据包括多个样本,所述对获取到的数据进行特征分析,包括以下方式中的至少一种:
获取每个所述样本的来源信息;
计算每个所述样本的缺失值及异常值,得到与每个所述样本对应的缺失比例及异常比例;
计算各个样本之间的共线性程度;
计算每个所述样本所包括的每个特征对于建模目标的重要性程度,且计算每个所述样本所包括的预设特征在不同的取值范围下对于建模输出结果的分布的差异。


3.根据权利要求2所述的方法,其特征在于,所述根据所述数据特征对所述数据进行分群,包括以下方式中的至少一种:
根据所述来源信息,将具备相同或相近来源信息的样本分入同一数据子群;
将所述缺失比例大于或等于缺失比例阈值的样本分入同一数据子群,将所述缺失比例低于所述缺失比例阈值的样本分入同一数据子群;
将所述异常比例大于或等于异常比例阈值的样本分入同一数据子群,将所述异常比例低于所述异常比例阈值的样本分入同一数据子群;
将所述共线性程度大于或等于共线性程度阈值时对应的样本分入不同的数据子群;
对目标特征按照变点进行划分,再对其余特征按照预先确定的不同划分条件做笛卡尔积,根据结果将所述样本划分到不同的数据子群;其中,所述目标特征为所述重要性程度大于或等于重要性阈值,且在不同的取值范围下对于建模输出结果的分布造成大于或等于预设差异度的特征,所述变点为所述目标特征对建模输出结果的分布造成大于或等于预设差异度时的取值;
通过聚类算法,将特征相似的样本进行聚类,并将属于同一类的样本分入同一个数据子群。


4.根据权利要求3所述的方法,其特征在于,在所述通过聚类算法,将特征相似的样本进行聚类之前,所述方法还包括:
对所述数据进行...

【专利技术属性】
技术研发人员:王建华陈斌斌
申请(专利权)人:青岛创新奇智科技集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1