数据抽样方法和装置制造方法及图纸

技术编号：16128837 阅读：44 留言：0更新日期：2017-09-01 20:51

本发明专利技术公开了一种数据抽样方法和装置，其中，该方法包括：获取多条数据；根据多条数据中每一条数据的一个或多个属性值对多条数据进行分层，其中，每一条数据的一个或多个属性值中包括至少一个特定属性值，特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的，其余属性值为一条数据中除特定属性值之外的其他属性值；从每一层数据中抽取至少一条数据作为抽样数据。本发明专利技术解决了由于传统数据抽样的分层标准是抽样数据中的明显属性，造成无法对隐藏的属性进行分层，影响抽样结果的准确性的技术问题。

Data sampling method and apparatus

The invention discloses a data sampling method and device, wherein, the method includes obtaining a plurality of data; according to the data of one or more attributes of each data value of a plurality of data layers, wherein one or more attributes of each data value including at least a specific attribute value, attribute value is specific to the rest of the attribute data values in whole or in part of machine learning, the attribute values for other attributes except the specific attribute value beyond a data value; drawn from the data of each layer in at least one data as sample data. The invention solves the technical problem that the layered standard of the traditional data sampling is the obvious attribute in the sampling data, resulting in the inability to stratify the hidden attributes and influence the accuracy of the sampling results.

全部详细技术资料下载

【技术实现步骤摘要】
数据抽样方法和装置
本专利技术涉及数据抽样领域，具体而言，涉及数据抽样的方法和装置。
技术介绍
目前，现有技术的数据抽样方法需要对抽样数据的领域知识有一定了解，通过所了解的领域知识作为分层抽样的标准，比如，在一张统计用户信息的excel数据表格中，直接用该数据表中显示的某些列，即使用“性别”、“年龄”、“身高”等属性作为分层的标准，“性别”、“年龄”、“身高”等这些属性就是已知的领域知识。所以上述现有技术中数据抽样方法存在两个问题：1)在对某组数据的领域知识不了解或者了解有限的情况下，无法进行准确的数据抽样。2)无法根据隐藏的属性来进行数据分层，此不足将会影响数据抽样的应用范围。例如，无法在上述excel表格中的已知属性“身高”、“体重”等数据中，得知其数据的隐藏属性“兴趣点”“购买力”等。针对现有技术中存在数据抽样方法分层不准确的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术提供了一种数据抽样方法和装置。以解决现有技术中存在数据抽样方法分层不准确的问题。根据本专利技术实施例的一个方面，提供了一种数据抽样方法，包括：获取多条数据；根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层，其中，所述每一条数据的一个或多个属性值中包括至少一个特定属性值，所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的，所述其余属性值为一条数据中除特定属性值之外的其他属性值；从每一层数据中抽取至少一条数据作为抽样数据。进一步地，上述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的包括：所述特定属性值是对该数据的其余属性值...
数据抽样方法和装置

【技术保护点】
一种数据抽样方法，其特征在于，包括：获取多条数据；根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层，其中，所述每一条数据的一个或多个属性值中包括至少一个特定属性值，所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的，所述其余属性值为一条数据中除特定属性值之外的其他属性值；从每一层数据中抽取至少一条数据作为抽样数据。

【技术特征摘要】
1.一种数据抽样方法，其特征在于，包括：获取多条数据；根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层，其中，所述每一条数据的一个或多个属性值中包括至少一个特定属性值，所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的，所述其余属性值为一条数据中除特定属性值之外的其他属性值；从每一层数据中抽取至少一条数据作为抽样数据。2.根据权利要求1所述的方法，其特征在于，所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习得到的包括：所述特定属性值是对该数据的其余属性值中的部分或全部进行机器学习中的聚类分析算法得到的。3.根据权利要求1所述的方法，其特征在于，在根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层之前，所述方法还包括：根据所述每一条数据的所述其余属性值中的部分或全部进行机器学习得到所述至少一个特定属性值。4.根据权利要求1所述的方法，其特征在于，根据所述多条数据中每一条数据的一个或多个属性值对所述多条数据进行分层包括：获取所述每一条数据的所有属性值的优先级；根据每一个属性值的优先级从所述所有属性值中筛选出所述一个或多个属性值；根据筛选出的所述一个或多个属性值对所述多条数据进行分层。5.根据权利要求4所述的方法，其特征在于，获取所述每一条数据的所有属性值的优先级包括：根据对每一条数据的其余属性值中的部分或全部进行机器...

【专利技术属性】
技术研发人员：李刚毅，赵小光，谭国苹，于坤元，刘刚，王平平，
申请(专利权)人：博彦科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人