数据分群建模方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号：28979672 阅读：9 留言：0更新日期：2021-06-23 09:26

本发明专利技术涉及一种数据分群建模方法、装置、电子设备及计算机存储介质，属于数据挖掘领域。该方法在对数据进行建模前，先对数据进行特征分析，从而得到数据特征，然后再根据数据特征确定出对应的分群方式对数据进行分群，得到多个数据子群，然后再针对每个数据子群分别进行数据建模，从而使得得到的模型可以有针对性地对数据所包含的信息进行学习以及利用，实现对数据的精准建模，提高模型的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
数据分群建模方法、装置、电子设备及计算机存储介质
本申请属于数据挖掘领域，具体涉及一种数据分群建模方法、装置、电子设备及计算机存储介质。
技术介绍
在一些应用场景中，会用到训练好的网络模型来对新获取到的数据进行处理。针对训练好的网络模型而言，模型的优劣取决于多种因素，其中一种因素为建模时对训练样本所提供的信息的利用率。其中，若模型对训练样本所提供的信息的利用率越高，信息损失越小，得到的模型对数据进行处理的准确度也相应的越高。在现有技术当中，当为了达到一种效果而进行建模时，往往是把大量的数据直接一起输入网络模型进行建模。然而，当数据较为复杂，数据所包括的每个样本所具备的特征较多时，会降低模型对数据信息的利用率，造成信息的大量损失，得到的模型的准确率也相应降低。
技术实现思路
有鉴于此，本申请的目的在于提供一种数据分群建模方法、装置、电子设备及计算机存储介质，通过对数据进行分群后，分别对每个数据子群进行建模，提高信息的利用率，从而实现对数据的精准建模，提高模型的准确度。本申请的实施例是这样实现的：第一方面，本申请实施例提供一种数据分群建模方法，所述方法包括：对获取到的数据进行特征分析，得到数据的数据特征；根据所述数据特征对所述数据进行分群，得到多个数据子群；针对每个所述数据子群分别进行数据建模。在上述过程中，由于在对数据进行建模前，先对数据进行特征分析，得到数据特征，然后再根据数据特征确定出对应的分群方式对数据进行分群，得到多个数据子群，然后再针对每个数据子群分别进行数据建模，...

【技术保护点】
1.一种数据分群建模方法，其特征在于，所述方法包括：/n对获取到的数据进行特征分析，得到数据的数据特征；/n根据所述数据特征对所述数据进行分群，得到多个数据子群；/n针对每个所述数据子群分别进行数据建模。/n

【技术特征摘要】
1.一种数据分群建模方法，其特征在于，所述方法包括：
对获取到的数据进行特征分析，得到数据的数据特征；
根据所述数据特征对所述数据进行分群，得到多个数据子群；
针对每个所述数据子群分别进行数据建模。

2.根据权利要求1所述的方法，其特征在于，所述数据包括多个样本，所述对获取到的数据进行特征分析，包括以下方式中的至少一种：
获取每个所述样本的来源信息；
计算每个所述样本的缺失值及异常值，得到与每个所述样本对应的缺失比例及异常比例；
计算各个样本之间的共线性程度；
计算每个所述样本所包括的每个特征对于建模目标的重要性程度，且计算每个所述样本所包括的预设特征在不同的取值范围下对于建模输出结果的分布的差异。

3.根据权利要求2所述的方法，其特征在于，所述根据所述数据特征对所述数据进行分群，包括以下方式中的至少一种：
根据所述来源信息，将具备相同或相近来源信息的样本分入同一数据子群；
将所述缺失比例大于或等于缺失比例阈值的样本分入同一数据子群，将所述缺失比例低于所述缺失比例阈值的样本分入同一数据子群；
将所述异常比例大于或等于异常比例阈值的样本分入同一数据子群，将所述异常比例低于所述异常比例阈值的样本分入同一数据子群；
将所述共线性程度大于或等于共线性程度阈值时对应的样本分入不同的数据子群；
对目标特征按照变点进行划分，再对其余特征按照预先确定的不同划分条件做笛卡尔积，根据结果将所述样本划分到不同的数据子群；其中，所述目标特征为所述重要性程度大于或等于重要性阈值，且在不同的取值范围下对于建模输出结果的分布造成大于或等于预设差异度的特征，所述变点为所述目标特征对建模输出结果的分布造成大于或等于预设差异度时的取值；
通过聚类算法，将特征相似的样本进行聚类，并将属于同一类的样本分入同一个数据子群。

4.根据权利要求3所述的方法，其特征在于，在所述通过聚类算法，将特征相似的样本进行聚类之前，所述方法还包括：
对所述数据进行...

【专利技术属性】
技术研发人员：王建华，陈斌斌，
申请(专利权)人：青岛创新奇智科技集团有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人