一种数据处理方法及装置制造方法及图纸

技术编号:16885906 阅读:59 留言:0更新日期:2017-12-27 03:42
本发明专利技术公开了一种数据处理方法及装置,该方法包括:获取待处理电子表格数据;查询待处理电子表格数据中包含非数字信息的列,将查询到的列进行数字化处理;根据待处理电子表格数据获取多组聚类组合,其中每组聚类组合包含至少一个聚类字段;提取一组聚类组合,根据聚类组合查询所述处理电子表格数据中对应信息,将对应信息进行聚类分析,获取指定的多个聚类样本,统计每个聚类样本占对应信息的比例后进行保存;统计聚类组合中每个聚类字段下的对应信息分别在每个聚类样本中所占的比例后进行保存;返回执行提取一组聚类组合的操作,直至预设的多组聚类组合全部处理完毕。本发明专利技术提高了数据探索效率、统计效率、批量自动处理能力及信息可读性。

A method and device for data processing

The invention discloses a data processing method and device. The method includes: obtaining the spreadsheet data to be processed; the pending query contains non numeric information spreadsheet data columns in the query to the list of digital processing; according to the processing of the spreadsheet data acquisition multiple clustering combination, each of which contains at least clustering combination a cluster of fields; extracting a set of clustering combination, according to the corresponding information clustering combination query the spreadsheet data, the corresponding information for clustering analysis, access to a number of clustering samples specified, the statistics of each sample accounted for the proportion of the corresponding information after preservation; the corresponding information of each cluster are occupied in the field each cluster in the sample proportion after the statistical clustering combination of preservation; returns to extract a set of cluster operations until the pre All sets of cluster combinations are completed. The invention improves the efficiency of data exploration, the efficiency of statistics, the ability of batch processing and the readability of information.

【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术实施例涉及数据挖掘技术,尤其涉及一种数据处理方法及装置。
技术介绍
近年来随着大数据技术突飞猛进的发展,挖掘数据价值是企业和政府行业管理不可或缺的一部分。目前,挖掘数据价值通常有两种模式:传统的统计分析和新型的机器学习。统计分析就是常见的分组以及汇总分析,统计的结果通常包括“和”、“差”、“平均值”以及“分布概率”、“相关系数”等统计学内容,通常会以统计报表的形式提供给企业决策层作为决策的数据依据。聚类分析是无监督的机器学习算法,属于探索性的数据分析方法,通常,利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。统计分析的主观性较强,难以进行前瞻性分析,聚类分析的结果通常没有定量的分析,此外,由于缺少具体的数据分析,聚类结果难以直接指导决策。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术提供一种数据处理方法及装置,以实现提高数据探索效率、统计效率、批量自动处理能力及信息可读性。第一方面,本专利技术实施例提供了一种数据处理方法,包括:获取待处理电子表格数据;查本文档来自技高网...
一种数据处理方法及装置

【技术保护点】
一种数据处理方法,其特征在于,包括:获取待处理电子表格数据;查询所述待处理电子表格数据中包含非数字信息的列,将查询到的列进行数字化处理,生成处理电子表格数据;根据所述待处理电子表格数据获取多组聚类组合,其中每组聚类组合包含至少一个聚类字段,每个聚类字段是所述待处理电子表格数据中的一个列字段;提取一组聚类组合,根据所述聚类组合查询所述处理电子表格数据中对应信息,将所述对应信息进行聚类分析,获取指定的多个聚类样本,统计每个聚类样本占所述对应信息的比例后进行保存;统计所述聚类组合中每个聚类字段下的对应信息分别在所述每个聚类样本中所占的比例后进行保存;返回执行提取一组聚类组合的操作,直至预设的多组聚类...

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理电子表格数据;查询所述待处理电子表格数据中包含非数字信息的列,将查询到的列进行数字化处理,生成处理电子表格数据;根据所述待处理电子表格数据获取多组聚类组合,其中每组聚类组合包含至少一个聚类字段,每个聚类字段是所述待处理电子表格数据中的一个列字段;提取一组聚类组合,根据所述聚类组合查询所述处理电子表格数据中对应信息,将所述对应信息进行聚类分析,获取指定的多个聚类样本,统计每个聚类样本占所述对应信息的比例后进行保存;统计所述聚类组合中每个聚类字段下的对应信息分别在所述每个聚类样本中所占的比例后进行保存;返回执行提取一组聚类组合的操作,直至预设的多组聚类组合全部处理完毕。2.根据权利要求1所述的方法,其特征在于,获取待处理电子表格数据,包括:获取原始电子表格数据;将所述原始电子表格数据中不需要进行聚类统计分析的列字段以及该列字段对应的信息删除;将所述原始电子表格数据中包含多个子字段的列字段进行拆分,生成待处理电子表格数据。3.根据权利要求1所述的方法,其特征在于,查询所述待处理电子表格数据中包含非数字信息的列,将查询到的列进行数字化处理之前,还包括:将所述待处理电子表格数据中的标题行中列字段及其所对应的列的序号保存至第一字典表变量;根据所述待处理电子表格数据获取多组聚类组合,包括:获取所述第一字典表变量中的多个列字段;将所述多个列字段进行不同组合生成多组聚类组合,将所述多组聚类组合保存至第一工作表。4.根据权利要求1所述的方法,其特征在于,所述非数字信息包括汉字信息、空值信息和空字符串信息;查询所述待处理电子表格数据中包含非数字信息的列,将查询到的列进行数字化处理,生成处理电子表格数据,包括:将所述汉字信息按照字段进行分组,删除每组中重复信息,并将不重复信息进行排序;将所述不重复信息按照排序进行数字编号,将所述数字编号保存至第二字典表变量;根据所述第二字典表变量中的信息,将汉字信息转换为对应的数字编号;将所述空值信息和空字符串信息转换为特定数字。5.根据权利要求1所述的方法,其特征在于,将所述对应信息进行聚类分析,获取指定的多个聚类样本,包括:从所述对应信息中随机选取K个作为聚类中心;将所述对应信息中的其它信息按照最小距离原则分配至最邻近的聚类中心对应的聚类,得到K个聚类样本;将所述K个聚类样本中每个聚类样本中的样本均值作为新的聚类中心;返回执行将所述对应信息中的其它信息按照最小距离原则分配至最邻近的聚类中心对应的聚类,得到K个聚类样本的操作,直至聚类中心不再变化时,获取当前的K个聚类样本作为指定的多个聚类样本。6.根据权利要求1所述的方法,其特征在于,将统计的每个聚类样本占所述对应信息的比例保存至第二工作表;将统计的所述聚类组合中每个聚类字段下的对应信息分别在所述每个聚类样本中所占的比例保存至第三工作表;在统计所述聚类组合中每个聚类字段下的对应信息分别在所述每个聚类样本中所占的比例后保存至第三工作表之后,还包括:将所述第二工作表和所述第三工作表保存至由各个聚类字段命名的第一工作簿中。7.一种数据处理装置,其特征在于,包括:待处理电子表格数据获...

【专利技术属性】
技术研发人员:汪利鹏赵丹牟远王勇
申请(专利权)人:新智数通北京技术服务有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1