一种自动定价系统及方法技术方案

技术编号:33639742 阅读:37 留言:0更新日期:2022-06-02 01:58
本发明专利技术公开了自动定价系统,通过获取与用户进行交互并接收用户上传标注的交易数据集,将交易数据集传递到后台函数进行计算,根据用户的需要选择是否进行隐私保护,分别选择基于信息熵的隐私度量和集对分析的隐私度量进行交易数据集中的隐私含量计算,结合用户设置的各个影响定价因素的权重参数,通过预设的交易数据集的价格计算每个数据元组的价格,将元组中各属性转化为联系数的形式,消除了隐私泄露的风险,同时计算各元组的联系数势和记分函数,根据联系数势和记分函数的值的大小选择是否发布这个元组,计算各个元组的相对信息泄露集对势熵或相对信息泄露集对记分函数熵,可算出交易数据集中各个元组的隐私含量,同时也确保了交易的安全性。保了交易的安全性。保了交易的安全性。

【技术实现步骤摘要】
一种自动定价系统及方法


[0001]本专利技术属于数据处理
,尤其涉及一种自动定价系统及方法。

技术介绍

[0002]待交易数据通常存储在结构化或非结构化的数据库中,用户需要购买的数据通常需要从数据库中查询获得,便产生了基于查询的数据定价模型,该模型允许卖方对于存储在数据库中的交易数据集,制定一些视图的价格,允许买方根据自身需要进行任意查询来确认购买需要的数据,同时模型能通过指定视图的价格生成其他任意视图的价格,这样查询到的数据价格为一系列能够组合出该查询的视图中最优组合结。然而,查询的数据定价模型只能以固定的数量或通过预定义的视图来购买数据,但用户提出的查询往往是重复且存在冗余的,需要花费大量时间进行去重。另外,查询的定价模型考虑的是数据通过离线方式进行交易,但在大数据条件下通常在较短的时间内或有大量的数据生成,导致预先设定的视图不能覆盖新生成的数据,难以保证生成数据价格过程的时效性。

技术实现思路

[0003]有鉴于此,本专利技术提供了一种自动定价系统及方法,将元组中各属性转化为联系数的形式,一定程度上消除了隐私泄露的风险,同时计算各元组的联系数势和记分函数,根据联系数势和记分函数的值的大小选择是否发布这个元组,计算各个元组的相对信息泄露集对势熵或相对信息泄露集对记分函数熵,同时利用元组隐私级别和描述对象,可算出交易数据集中各个元组的隐私含量,以提高了生成数据价格过程的时效性,具体采用以下技术方案来实现。
[0004]第一方面,本专利技术提供了一种自动定价系统,包括:
[0005]预处理模块,与用户进行交互并接收用户上传标注的交易数据集,将交易数据集传递到后台函数进行计算,其中,预处理模块包含隐私级别分析函数和数据描述对象设定函数,隐私级别分析函数用于构建隐私级别的敏感词词典,自动将交易数据集中的属性与敏感词库进行比对,返回交易数据集各属性的隐私级别;数据描述对象设定函数,用于构建描述对象的词典并根据交易数据的内容,采用关键词比对的方式,返回交易数据集的描述对象;
[0006]隐私度量模块,根据用户的需要选择是否进行隐私保护,分别选择基于信息熵的隐私度量和集对分析的隐私度量进行交易数据集中的隐私含量计算;
[0007]元组定价模块,结合用户设置的各个影响定价因素的权重参数,通过预设的交易数据集的价格计算每个数据元组的价格。
[0008]作为上述技术方案的进一步改进,通过预设的交易数据集的价格计算每个数据元组的价格,包括:
[0009]设定数据包的需求价格为P
D
,收集、分享和共享交易平台数据的成本为C,交易数据集的供应价格P
S
满足表达式P
S
+C=P
D
,需求价格减去数据成本为供应价格,应用反向定价
法为细粒度级别的数据元组定价,设定一个二元组p=(θ,r)来描述定价模型,其中θ、r分别表示数据集的隐私度量值和数据引用指数,设定α为隐私含量的参数,β为数据引用指数的参数,其满足表达式α+β=1,将数据集作为基本销售单位,数据集中第i个数据元组的价格设为p
i
,原始交易数据集的供给价格为P
S
,得到第i个数据元组的价格计算表达式其中i=1,2...n,j=1,2...m,θ
i
表示第i个元组的隐私含量,r
j
表示第j个用户的数据引用指数,表示各个数据元组的供给价格之和等于整个待交易数据集的供给价格。
[0010]作为上述技术方案的进一步改进,分别选择基于信息熵的隐私度量和集对分析的隐私度量进行交易数据集中的隐私含量计算,包括:
[0011]通过数字或特殊符号对数据集中存在的不一致、残缺和噪声数据进行数据预处理;
[0012]计算数据集的隐私度量联系数,分析脱敏数据集各元组共有的同一度、差异度和对立度特性,并加以量化描述,得到联系度表达式;
[0013]通过设定数据集的集对势、记分函数、信息泄露集对势熵、信息泄露集对记分函数熵与集对分析有关的参数,计算交易数据集的隐私度量值。
[0014]作为上述技术方案的进一步改进,通过数字或特殊符号对数据集中存在的不一致、残缺和噪声数据进行数据预处理,包括:
[0015]在特定的问题背景下,根据两个集合具有的特性,计算与集对分析相关的参数值进行交易数据集的度量,度量的过程为:设定X为非空集,则称A={<x,a
A
(x),b
A
(x),C
A
(x)>|x∈X}为SPA集,其中a
A
(x)、b
A
(x)、C
A
(x)分别表示X中元素X中元素x属于A的同一度、不确定度和对立度,μ
A
(x)=a
A
(x)+b
A
(x)i+c
A
(x)j,a
A
(x):x

[0,1],b
A
(x):x

[0,1],c
A
(x):x

[0,1],满足a
A
(x)+b
A
(x)+c
A
(x)=1的归一化条件,其中i∈[

1,1],称为不确定度系数,j为对立度系数,取j=

1,联系度μ能反映脱敏数据集各元组之间的确定性与不确定性关系;
[0016]当对交易数据集的元组进行遍历时,取属性值中最小值minA
i
、当前值A
i
和最大值maxA
i
,采用这三个值设定一个三元区间数[minA
i
,A
i
,maxA
i
],将交易数据集中的数据元组转换为T2,原始交易数据集为T1,将三元数区间转换为联系数形式μ(A
i
)=a
Ai
+b
Ai
i+c
Ai
j,其中,当A
i
≠0时,≠0时,当A
i
=0时,=0时,将T2进一步转化为集对联系数信息表T3。
[0017]作为上述技术方案的进一步改进,对T3中的隐私信息数据进行集结运算,数据信息集结包括合取运算和析取运算,合取运算:若μ(A
A
)=a
A
+b
A
i+c
A
j,μ(A
b
)=a
B
+b
B
i+c
B
j,则μ(A
A
∧A
B
)=a+bi+cj,其中a=min(a
A
,a
B
),c=max(c
A
,c
B
),b=1

a

c;析取运算:若μ(A
A...

【技术保护点】

【技术特征摘要】
A
i
,采用这三个值设定一个三元区间数[min A
i
,A
i
,max A
i
],将交易数据集中的数据元组转换为T2,原始交易数据集为T1,将三元数区间转换为联系数形式其中,当A
i
≠0时,≠0时,当A
i
=0时,=0时,将T2进一步转化为集对联系数信息表T3。5.根据权利要求4所述的自动定价系统,其特征在于,对T3中的隐私信息数据进行集结运算,数据信息集结包括合取运算和析取运算,合取运算:若μ(A
A
)=a
A
+b
A
i+c
A
j,μ(A
b
)=a
B
+b
B
i+c
B
j,则μ(A
A
∧A
B
)=a+bi+cj,其中a=min(a
A
,a
B
),c=max(c
A
,c
B
),b=1

a

c;析取运算:若μ(A
A
)=a
A
+b
A
i+c
A
j,μ(A
B
)=a
B
+b
B
i+c
B
j,则μ(A
A
∨A
B
)=a+bi+cj,其中a=max(a
A
,a
B
),c=min(c
A
,c
B
),b=1

a

c,将两种集对逻辑联结法进行结合,采用合取和析取运算分别计算联系数,对计算出的a、b、c取平均作为最后的结果。6.根据权利要求1所述的自动定价系统,其特征在于,数据预处理模块包括数据获取单元和数据分析单元,数据获取单元用于对原始数据进行预处理,数据预处理的过程包括数据集成、数据清洗和去冗余,数据集成为将不同数据源的数据在逻辑和物理上进行集中合并,给用户呈现一个统一的视图,数据清洗为对集成数据中不完整、不准确或不合理的数据进行修补或删除,数据冗余为数据重复或过剩以释放存储空间;数据分析单元用于对数据建立有效分析模型并处理不同类型和格式的数据,通过对训练样本的学习发掘出数据间的相关关系,以实现对未知输出的预测,运用可视化对数据分析结果进行展示。7.根据权利要求6所述的自动定价系统,其特征在于,数据分析单元的执行过程包括:将原始数据分为训练集合测试集,训练集用于模型的训练,测试集用于模型准确度的测试,估计数据效用函数反映数据效用与数据容量间的关系,将训练集分为若干个容量不同的样本,分别为n1、n2...n
j
,...n
L
,其中n
i
<n
j+1
,j=1,2....

【专利技术属性】
技术研发人员:林乐新王佳
申请(专利权)人:深圳闪回科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1