数据抽样方法和装置制造方法及图纸

技术编号:16128837 阅读:44 留言:0更新日期:2017-09-01 20:51
本发明专利技术公开了一种数据抽样方法和装置,其中,该方法包括:获取多条数据;根据多条数据中每一条数据的一个或多个属性值对多条数据进行分层,其中,每一条数据的一个或多个属性值中包括至少一个特定属性值,特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,其余属性值为一条数据中除特定属性值之外的其他属性值;从每一层数据中抽取至少一条数据作为抽样数据。本发明专利技术解决了由于传统数据抽样的分层标准是抽样数据中的明显属性,造成无法对隐藏的属性进行分层,影响抽样结果的准确性的技术问题。

Data sampling method and apparatus

The invention discloses a data sampling method and device, wherein, the method includes obtaining a plurality of data; according to the data of one or more attributes of each data value of a plurality of data layers, wherein one or more attributes of each data value including at least a specific attribute value, attribute value is specific to the rest of the attribute data values in whole or in part of machine learning, the attribute values for other attributes except the specific attribute value beyond a data value; drawn from the data of each layer in at least one data as sample data. The invention solves the technical problem that the layered standard of the traditional data sampling is the obvious attribute in the sampling data, resulting in the inability to stratify the hidden attributes and influence the accuracy of the sampling results.

【技术实现步骤摘要】
数据抽样方法和装置
本专利技术涉及数据抽样领域,具体而言,涉及数据抽样的方法和装置。
技术介绍
目前,现有技术的数据抽样方法需要对抽样数据的领域知识有一定了解,通过所了解的领域知识作为分层抽样的标准,比如,在一张统计用户信息的excel数据表格中,直接用该数据表中显示的某些列,即使用“性别”、“年龄”、“身高”等属性作为分层的标准,“性别”、“年龄”、“身高”等这些属性就是已知的领域知识。所以上述现有技术中数据抽样方法存在两个问题:1)在对某组数据的领域知识不了解或者了解有限的情况下,无法进行准确的数据抽样。2)无法根据隐藏的属性来进行数据分层,此不足将会影响数据抽样的应用范围。例如,无法在上述excel表格中的已知属性“身高”、“体重”等数据中,得知其数据的隐藏属性“兴趣点”“购买力”等。针对现有技术中存在数据抽样方法分层不准确的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术提供了一种数据抽样方法和装置。以解决现有技术中存在数据抽样方法分层不准确的问题。根据本专利技术实施例的一个方面,提供了一种数据抽样方法,包括:获取多条数据;根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层,其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;从每一层数据中抽取至少一条数据作为抽样数据。进一步地,上述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的包括:所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习中的聚类分析算法得到的。进一步地,根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层之前,所述方法还包括:根据所述每一条数据的所述其余属性值中的部分或全部进行机器学习得到所述至少一个特定属性值。进一步地,根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层包括:获取所述每一条数据的所有属性值的优先级;根据每一个属性值的优先级从所述所有属性值中筛选出所述一个或多个属性值;根据筛选出的所述一个或多个属性值对所述多条数据进行分层。进一步地,获取所述每一条数据的所有属性值的优先级包括:根据对每一条数据的其余属性值中的部分或全部进行机器学习时的聚类标准确定优先级或者根据每一条数据的所有属性值确定优先级。根据本专利技术的另一方面,提供了一种数据抽样装置,包括:获取单元,用于获取多条数据;分层单元,用于根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层,其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;第一抽取单元,用于从每一层数据中抽取至少一条数据作为抽样数据。进一步地,所述分层单元包括:聚类分析模块,用于所述数据的其余属性值中的部分或全部进行机器学习得到所述特定属性值。进一步地,所述分层单元包括:第一获取模块,用于根据所述每一条数据的所述其余属性值中的部分或全部进行机器学习得到所述至少一个特定属性值。进一步地,所述分层单元包括:第二获取模块,用于获取所述每一条数据的所有属性值的优先级;筛选模块,用于根据每一个属性值的优先级从所述所有属性值中筛选出所述一个或多个属性值;分层模块,用于根据筛选出的所述一个或多个属性值对所述多条数据进行分层。进一步地,所述第二获取模块包括:优先级确定模块,用于根据对每一条数据的其余属性值中的部分或全部进行机器学习时的聚类标准确定优先级或者根据每一条数据的所有属性值确定优先级。根据本专利技术的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述方法。在本专利技术实施例中,采用获取多条数据;根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层,其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;从每一层数据中抽取至少一条数据作为抽样数据的方式。通过本实施例,解决现有技术中存在数据抽样方法分层不准确的问题,使得分层更加细致准确。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限。在附图中:图1是根据本专利技术实施例的一种数据抽样方法的流程图;图2是根据本专利技术实施例的一种数据抽样装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例提供了一种数据抽样方法,图1是根据本专利技术实施例的一种数据抽样方法的流程图。如图1所示,该方法包括步骤如下:步骤S102:获取多条数据;步骤S104:根据获取的多条数据中每一条数据的一个或多个属性值对获取的多条数据进行分层;其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;步骤S106:从每一层数据中抽取至少一条数据作为抽样数据。下面举例对上述步骤进行说明:表1是根据本专利技术实施例的一种数据抽样方法的待分层数据表,如表1所示,在该数据表中,有10名客户,每一横排代表一条数据(即一个客户的数据),每一条数据有很多列,既有很多属性,比如“Gender”、“Height”、“Age”、“City”等,数据的每一个属性都有对应的属性值,每一条数据均由多个属性值构成。比如“ID”为“1”的第一条数据的属性值有“1”、“165”、“55”、“1”、“1”,分别对应的属性为:“Gender”、“Height”、“Age”、“City”、“Occupation”。表1将表1中所示的数据表中属性值通过机器学习得到特定属性值,如表2学习后的数据表所示,特定属性值是表中的“cluster”。表2是根据本专利技术实施例的一种数据抽样方法的补充特定属性值数据表。根本文档来自技高网
...
数据抽样方法和装置

【技术保护点】
一种数据抽样方法,其特征在于,包括:获取多条数据;根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层,其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;从每一层数据中抽取至少一条数据作为抽样数据。

【技术特征摘要】
1.一种数据抽样方法,其特征在于,包括:获取多条数据;根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层,其中,所述每一条数据的一个或多个属性值中包括至少一个特定属性值,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的,所述其余属性值为一条数据中除特定属性值之外的其他属性值;从每一层数据中抽取至少一条数据作为抽样数据。2.根据权利要求1所述的方法,其特征在于,所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的包括:所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习中的聚类分析算法得到的。3.根据权利要求1所述的方法,其特征在于,在根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层之前,所述方法还包括:根据所述每一条数据的所述其余属性值中的部分或全部进行机器学习得到所述至少一个特定属性值。4.根据权利要求1所述的方法,其特征在于,根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层包括:获取所述每一条数据的所有属性值的优先级;根据每一个属性值的优先级从所述所有属性值中筛选出所述一个或多个属性值;根据筛选出的所述一个或多个属性值对所述多条数据进行分层。5.根据权利要求4所述的方法,其特征在于,获取所述每一条数据的所有属性值的优先级包括:根据对每一条数据的其余属性值中的部分或全部进行机器...

【专利技术属性】
技术研发人员:李刚毅赵小光谭国苹于坤元刘刚王平平
申请(专利权)人:博彦科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1