一种基于元组粒度的个人大数据定价方法技术

技术编号:17734505 阅读:53 留言:0更新日期:2018-04-18 11:46
本发明专利技术公布了一种基于元组粒度的个人大数据定价方法。首先对影响数据价值的数据属性进行调查,然后分析了信息熵、价值权重、数据引用指数、数据成本等因素对数据元组价值的影响,推导出一个数据元组价值计算方法,该方法可根据参数动态调整,随着数据规模的增加、数据成本的降低以及数据质量的提高,数据交易各方将得到更多的实惠。最后通过一个具体实例验证定价方法的正确性和有效性。

An individual large data pricing method based on the size of tuple

The invention unveiled a method for pricing personal large data based on the size of a tuple. First carries on the investigation to the data attributes affect the data value, and then analyzes the information entropy and data reference value weight, impact index, cost data and other factors on the data tuple value calculation method, a data tuple value is derived, the method can be adjusted according to the parameters, and the size of the data increases with decreasing data cost and to improve the quality of data, each data transaction will get more benefits. Finally, a specific example is used to verify the correctness and effectiveness of the pricing method.

【技术实现步骤摘要】
一种基于元组粒度的个人大数据定价方法所属
本专利技术涉及大数据
,尤其是涉及一种基于元组粒度的个人大数据定价方法。
技术介绍
随着大数据的巨大价值被重新认识以及计算机存储成本的下降,对个人信息的收集数量达到前所未有的水平。这些数据的经济价值恰好验证了了许多互联网公司从搜索引擎、社会媒体网站以及销售这些信息等方面所取得的成功。但是,由于隐私等相关问题,大量潜在的有用私有数据不能被利益相关者所访问。无论是对于数据拥有者还是企图分析它的机构来说,个人大数据本身具有很大的价值。通常,个人大数据是指涉及个人隐私的特征行为数据,是个人生活活动或工作中产生的、个人可以拥有或控制的数据。个人大数据具有快速的数据流转、多样的数据类型、复杂的数据来源等特点,主要包括个人基础信息以及个人收支、财产、朋友圈、健康、教育、观点以及个人感知数据等信息。虽然个人大数据本身蕴藏着巨大的商业价值,但往往被个人所忽略。数字技术的使用本应该使个人成为商业、经济系统中服务和商品的参与提供者和共同创造者。然而,目前的数据产品、定价和交易机制几乎完全绕开个人用户。基于此,本专利技术提出了一种基于元组粒度的个人大数据定价方法。通过对影响数据价值的数据属性进行调查,然后分析了信息熵、价值权重、数据引用指数、数据成本等因素对数据元组价值的影响,推导出一个数据元组价值计算方法,该方法可根据参数动态调整,随着数据规模的增加、数据成本的降低以及数据质量的提高。从而使得个人、数据交易平台和数据需求方都能从数据交易中受益,实现一个互惠共赢、数据普惠的数据交易生态系统。
技术实现思路
本专利技术旨在提出一种基于元组粒度的个人大数据定价方法。本专利技术解决其技术难题所采用的技术方案如下:1)度量个人大数据数据元组价格的特征量:本专利技术根据数据包的整体价格,利用数据的信息熵、引用指数、价值权重三个特征量来反向推出数据包每个数据元组的价格:●信息熵:信息熵是一个与事物发生的可能性相关的属性,它是概率分布的非负函数,刻画了信息的不确定性;信息的不确定性越大,信息的熵越大;●数据引用指数:数据引用指数是指某个用户的数据元组至少有r条被购买r次,把这个最大值称作用户的数据引用指数;数据引用指数越大,用户的数据元组价值越大;●价值权重:价值权重是一个体现数据元组价值的属性;价值权重越大,数据元组的价值越大;2)获取每一个数据元组的信息熵qi:假设数据包有n条数据元组,每条数据元组有k个属性,则第i条数据元组的第j个数据项出现的概率为:数据包第i条数据元组的熵为:其中,xij表示第i条数据元组的第j个数据项出现的次数;3)获取每一个用户的数据引用指数:根据步骤1)中定义可知,每个用户的数据引用指数可以从数据包中直接得出;4)获取每一个数据元组的价值权重w:每一个数据元组的价值权重w由确定,且满足约束条件:其中,第i条数据元组的价值权重为wi,凭经验设置,数据包所有元组的价值权重之和为w;5)获取每一个数据元组的价格:,i=1...n,j=1...m其中,pi表示第i条数据元组的价格,Ps表示数据包的供给价格,等于wi表示第i条数据元组的价值权重,w表示数据包中所有数据元组的价值权重之和,等于qi表示第i条数据元组的信息熵,q表示数据包中所有数据元组的信息熵之和,等于rj表示第j条数据元组所属用户的数据引用指数,r表示数据包中所有用户的数据引用指数值之和,等于α为价值权重因子、β为信息熵因子、γ为数据引用指数因子,它们是手动设置的且和为1。附图说明图1影响因子和价格比较图图2平均定价与本文定价比较具体实施方式根据上述对个人大数据数据元组价格的特征量的描述和获取,本专利技术通过一个具体实例验证定价该方法的正确性和有效性,步骤如下:1)假设交易平台有一个数据包,其包含10条数据元组,每条数据元组有5个数据项。假定收集、分析和共享此数据包的成本是20元,此数据包的需求价格是60元,这个数据包的具体情况如表1所示;2)根据步骤1)的假设和下面公式可以求得数据包的供给价格PS:PS=PD-C其中,PD为数据包的需求价格,C为交易平台收集、分析和共享此数据包的成本,故可得数据包的供给价格PS为40元;3)假设价值权重因子α=0.3,信息熵因子β=0.4以及数据引用指数因子(R指数)γ=0.3,根据步骤2)来计算每条数据出现的频率,计算结果如表2所示。4)根据步骤2)3)4)5)获取每一个数据元组的价格,结果如表3所示:5)图表结果分析:●从图1能看出价值权重、信息量和数据引用指数越高,数据元组价格越高。从图1也能看出如果一条数据元组的价值权重、信息量和数据引用指数权重和大于另一条数据元组,那么这条数据元组应该比另一条数据元组更有价值。这一点与我们的结论相一致,证明我们提出的定价模型是正确的、合理的和有效的。●从图2看出通常的平均定价是一条直线。然而,我们提出的定价方法是一条围绕此直线波动的曲线,这就能准确反映每条数据元组的价值。说明我们提出的定价模型能准确控制每条数据元组的价格,反映每条数据元组应有的价值。表1:个人消费数据包表2:数据项出现概率用户ID支付类型服务商价值权重0.300.200.200.100.100.300.200.300.300.100.400.100.200.100.200.400.100.100.100.100.400.100.200.200.200.400.200.300.300.200.300.200.200.200.200.200.200.300.300.200.200.100.100.100.100.100.200.100.100.20表3:数据元组详细定价描述本文档来自技高网...
一种基于元组粒度的个人大数据定价方法

【技术保护点】
一种基于元组粒度的个人大数据定价方法,其特征在于该方法的步骤如下:1)度量个人大数据数据元组价格的特征量:本专利技术根据数据包的整体价格,利用数据的信息熵、引用指数、价值权重三个特征量来反向推出数据包每个数据元组的价格:●信息熵:信息熵是一个与事物发生的可能性相关的属性,它是概率分布的非负函数,刻画了信息的不确定性;信息的熵越大,信息的不确定性越大;●数据引用指数:数据引用指数是指某个用户的数据元组至少有r条被购买r次,把这个最大值称作用户的数据引用指数;数据引用指数越大,用户的数据元组价值越大;●价值权重:价值权重是一个体现数据元组价值的属性;价值权重越大,数据元组的价值越大;2)获取每一个数据元组的信息熵qi:假设数据包有n条数据元组,每条数据元组有k个属性,则第i条数据元组的第j个数据项出现的概率为:

【技术特征摘要】
1.一种基于元组粒度的个人大数据定价方法,其特征在于该方法的步骤如下:1)度量个人大数据数据元组价格的特征量:本发明根据数据包的整体价格,利用数据的信息熵、引用指数、价值权重三个特征量来反向推出数据包每个数据元组的价格:●信息熵:信息熵是一个与事物发生的可能性相关的属性,它是概率分布的非负函数,刻画了信息的不确定性;信息的熵越大,信息的不确定性越大;●数据引用指数:数据引用指数是指某个用户的数据元组至少有r条被购买r次,把这个最大值称作用户的数据引用指数;数据引用指数越大,用户的数据元组价值越大;●价值权重:价值权重是一个体现数据元组价值的属性;价值权重越大,数据元组的价值越大;2)获取每一个数据元组的信息熵qi:假设数据包有n条数据元组,每条数据元组有k个属性,则第i条数据元组的第j个数据项出现的概率为:数据包第i条数据元组的熵为:其中,xij表示第...

【专利技术属性】
技术研发人员:郭兵沈艳申云成曹亚波段旭良张洪董祥千黄义纯王丹张鹏博
申请(专利权)人:成都数银科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1