基于夏普利值的数据特征组合定价方法、系统及电子设备技术方案

技术编号:31842294 阅读:33 留言:0更新日期:2022-01-12 13:22
本发明专利技术涉及机器学习,具体而言是一种基于夏普利值的数据特征组合定价方法、系统及电子设备,所述方法包括收集卖方提供的特征数据集的特征变量并对其进行预处理;构建基于机器学习的学习模型,从特征分类个变量中选择最优的特征分类个变量;基于幽灵数据实例构造的特征夏普利值估计,以此计算选择的特征变量的边际贡献和平均夏普利值;根据特征变量的边际贡献和平均夏普利值判断特征变量是否能够进行交易,若能够进行交易则;本发明专利技术实施,可以提高数据提供方的长期收益最大化,也满足数据买方对数据买方公司的风险评估,减少风险损失。减少风险损失。减少风险损失。

【技术实现步骤摘要】
基于夏普利值的数据特征组合定价方法、系统及电子设备


[0001]本专利技术涉及机器学习,具体而言是一种基于夏普利值的数据特征组合定价方法、系统及电子设备。

技术介绍

[0002]机器学习和数据挖掘技术带来的数据分析的进步,让生成的大数据的价值不可估量,数据因此成为一种新型的资产。企业运作过程中会产生海量的数据,这些收集到的数据亦可进行交易从而为企业增收,使得企业收益最大化。数据因其不同于传统商品,具有大量、多样、高速、可复制的特征,加之数据极其依赖其时效性,缺乏时效性的数据会对数据价格带来较为重大的影响,而且数据价值也具有不确定性、多样性和稀疏性,因此对于数据的定价仍是一个较新的难题。
[0003]例如,某银行利用金融科技对各种数据进行分析,通过购买的特征数据机器学习并进行预测,为破解信息不对称难题提供了重要工具。银行为某企业贷款过程中,除了利用银行系统内部关于该企业的数据外,还会利用能够获取的关于该企业经营能力的有价值的外部数据。通过购买等手段获取关于该企业的数据,进行机器学习技术分析该企业的经营能力以减少贷款风险。通过捕捉该企业生产经营的轨迹,为金融机构提供可靠的“信用数据”,既提高了贷款成功的可能性,还降低了交易成本和信贷服务门槛。
[0004]这一数据交易过程通过第三方数据交易平台实现,既能在一定程度上保证买方数据的隐私和安全,又能通过动态化市场定价来保证数据买方的价格合理。第三方交易平台需要对所采购的数据进行市场定价,为交易双方提供各自所需的数据与支付费用。为了保证数据卖方及第三方数据交易平台的利益,购买数据成功的企业需要与平台签订保密协议,该数据仅限于企业自身经营使用,不能进行传播及二次销售。
[0005]第三方数据交易平台构建数据特征选择模型和近似夏普利值的特征价值分配算法,可根据得出来得结果判断哪些特征变量对结果影响最大,哪些特征变量对结果影响较小。买方关注影响较大的特征集合,在一定程度上通过机器学习结果来控制风险和减少损失。对银行来说购买该数据可得到相应行业的具体信息,为该行业的贷款评估分析提供了支撑,也可减少贷款风险。同时,数据卖方也能获得一笔收益。
[0006]第三方交易平台提供数据动态定价方法和系统,对于数据特征海量、存在冗余等问题,使用基于预测准确度递增的特征选择算法。通过随机森林预测算法,将递归特征消除法、交叉验证与特征组合结合,能够对数据特征进行有效选择,随后对选出的数据特征进行信息挖掘分析。由于不同的数据特征对预测产生不同的贡献,本专利技术提出基于夏普利值的数据特征贡献分配方法,可计算出每个特征对应的效应(对预测准确度的边际贡献)。最后将交易的监测特征数据利用拍卖的方式和乘权更新算法实现动态定价。基于Myerson最优拍卖的支付函数,改进乘性权重更新算法对数据特征实现动态定价,有利于充分实现数据价值,并为企业带来额外收入。

技术实现思路

[0007]为了使第三方数据交易平台能够充分利用企业产品中检测获得的特性实现数据的拍卖,使买方在购买的数据中提取关键信息,也能获取关于数据卖方企业所在行业的信息,本专利技术提出一种基于夏普利值的数据特征组合定价方法、系统及电子设备,所述方法包括被
[0008]收集卖方提供的特征数据集的特征变量并对其进行预处理;
[0009]构建基于机器学习的学习模型,从特征分类变量中选择最优的特征分类变量;
[0010]在选择最优变量时,基于幽灵数据实例构造的特征夏普利值估计,以此计算选择的特征变量的边际贡献和平均夏普利值;
[0011]并选择最优变量时使用夏普利值对于各个特征的价值按照其边际贡献进行分配,量化不同输入特征对训练模型输出预测结果的影响并将符合设置家边际贡献的特征保留;
[0012]检测数据是否能够用于机器学习和交易,如果能够进行及机器学习和交易,则数据买方和卖方构建交易,并通过构建的学习模型获取当前数据的预测值作为数据的支付价格。
[0013]进一步的,从特征分类个变量中选择最优的特征分类个变量的过程包括以下步骤:
[0014]使用所有特征分变量数据对基于机器学习的学习模型进行训练;
[0015]对特征变量的重要性进行排序,选取重要性值最大的前k个特征;
[0016]用验证集评估模型,重新计算每个特征变量的重要性并进行排序;
[0017]把训练集拆分成新训练集与新验证集,采用新训练集和所有特征变量训练模型,使用验证集评估模型,计算所有的特征变量重要性并进行排序。
[0018]进一步的,基于幽灵数据实例构造的特征变量的夏普利值估计包括从特征变量中随机抽取一个实例,并构造一个含有某一特征的实例和一个不含前述特征的实例,并将这两个实例作为幽灵数据实例。
[0019]进一步的,特征变量的边际贡献表示为:
[0020][0021]其中,为第m次迭代过程中实例x中第j个特征的边界贡献值;为实例x在第m次迭代中使用带有特征j的实例实现的预测,为第m次迭代时实例x中第j个特征以后的特征被实例z中特征进行随机替换后的特征向量;为实例x在第m次迭代中使用不带特征j的实例实现的预测,为第m次迭代时实例x中第j个特征以及第j个特征以后的特征被实例z中特征进行随机替换后的特征向量。
[0022]进一步的,对该特征变量进行定价的过程包括以下步骤:
[0023]S41、与数据买方交易之前,数据卖方先设置交易数据的价格p
n
,买方个数以及买方报价,并计算数据买方的收益函数;
[0024]S42、根据买方的收益函数计算数据买方的最终支付;数据买方支付费用,将选择的特征变量进行交易;
[0025]S43、基于乘权更新算法卖方更新数据价格,返回到S41,开始下一轮定价。
[0026]进一步的,数据买方支付费用R
n
表示为:
[0027]其中,G(b
n
,p
n
)为卖方设置交易数据的价格为p
n
且买方报价为b
n
时买方的收益函数。
[0028]进一步的,卖方的收益函数根据卖方设置交易数据的价格以及买方的报价进行确定,在卖方价格固定的情况下,当报价b
n
小于卖方设置交易数据的价格p
n
时,随着报价b
n
增大买方的收益增大,直到报价b
n
等于卖方设置交易数据的价格p
n
时达到最大收益;当报价b
n
大于卖方设置交易数据的价格p
n
时,买方效用保持最大值不变且买方支付费用也维持最大值不变。
[0029]进一步的,每次确定定价后,同一数据卖给多个用户时,根据数据复制价格对数据进行定价,若数据复制为i个样本,则每个样本的售价Sn为:
[0030][0031]其中,S为只有一份数据时的售价,e为惩罚因子。
[0032]本专利技术提出一种基于夏普利值的数据特征组合定价系统,包括特征选择子系统和定价本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于夏普利值的数据特征组合定价方法,其特征在于,具体包括以下步骤:收集卖方提供的特征数据集的特征变量并对其进行预处理;构建基于机器学习的学习模型,从特征分类变量中选择最优的特征分类变量;在选择最优变量时,基于幽灵数据实例构造的特征夏普利值估计,以此计算选择的特征变量的边际贡献和平均夏普利值;并选择最优变量时使用夏普利值对于各个特征的价值按照其边际贡献进行分配,量化不同输入特征对训练模型输出预测结果的影响并将符合设置家边际贡献的特征保留;检测数据是否能够用于机器学习和交易,如果能够进行及机器学习和交易,则数据买方和卖方构建交易,并通过构建的学习模型获取当前数据的预测值作为数据的支付价格。2.根据权利要求1所述的一种基于夏普利值的数据特征组合定价方法,其特征在于,从特征分类个变量中选择最优的特征分类个变量的过程包括以下步骤:使用所有特征分变量数据对基于机器学习的学习模型进行训练;对特征变量的重要性进行排序,选取重要性值最大的前k个特征;用验证集评估模型,重新计算每个特征变量的重要性并进行排序;把训练集拆分成新训练集与新验证集,采用新训练集和所有特征变量训练模型,使用验证集评估模型,计算所有的特征变量重要性并进行排序。3.根据权利要求1所述的一种基于夏普利值的数据特征组合定价方法,其特征在于,基于幽灵数据实例构造的特征变量的夏普利值估计包括从特征变量中随机抽取一个实例,并构造一个含有某一特征的实例和一个不含前述特征的实例,并将这两个实例作为幽灵数据实例。4.根据权利要求1所述的一种基于夏普利值的数据特征组合定价方法,其特征在于,特征变量的边际贡献表示为:其中,为第m次迭代过程中实例x中第j个特征的边界贡献值;为实例x在第m次迭代中使用带有特征j的实例实现的预测,为第m次迭代时实例x中第j个特征以后的特征被实例z中特征进行随机替换后的特征向量;为实例x在第m次迭代中使用不带特征j的实例实现的预测,为第m次迭代时实例x中第j个特征以及第j个特征以后的特征被实例z中特征进行随机替换后的特征向量。5.根据权利要求1所述的一种基于夏普利值的数据特征组合定价方法,其特征在于,对该特征变量进行定价的过程包括以下步骤:S41、与数据买方交易之前,数据卖方先设置交易数据的价格p
n
,买方个数以及买方报价,并计算数据买方的收益函数;S42、根据买方的收益函数计算数...

【专利技术属性】
技术研发人员:余海燕刘珂缪红霞
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1