一种基于信息增益的SQL文件数据确权查重方法、装置及介质制造方法及图纸

技术编号:42582132 阅读:22 留言:0更新日期:2024-09-03 18:00
一种基于信息增益的SQL文件数据确权查重方法、装置及介质,涉及数据检索技术领域,通过数据提供方的样例SQL文件中每个属性的标注,在经过特征提取后,计算出每条数据的信息增益,选择信息增益最大的一批数据进行相似度计算,根据相似度分数判断SQL文件中数据的重复率。为数据确权业务中数据SQL数据的质量评估和查重提供了基于信息增益的判定方法,提高数据的质量和准确性。

【技术实现步骤摘要】

本专利技术涉及数据检索,具体涉及一种基于信息增益的sql文件数据确权查重方法。


技术介绍

1、在隐私计算、数据确权等业务场景中,需要对比评估数据的重复率评估数据的价值,用于进行行为决策。数据提供方往往会提供一部分数据样例,样例中的sql文件中每列的用途及含义都已经被标记。

2、随着隐私保护意识的提高,确权中的sql文件中包含着的水印信息或脱敏数据,以列的行时存放在sql文件中。在确权场景中,水印列和脱敏列往往会被提前标记在数据样例或数据集文件中。这些情况在一定程度上影响了数据的可用性和查重的准确率。


技术实现思路

1、本专利技术为了克服以上技术的不足,提供了一种为数据确权业务中数据sql数据的质量评估和查重提供了基于信息增益的确权查重方法。

2、本专利技术克服其技术问题所采用的技术方案是:

3、一种基于信息增益的sql文件数据确权查重方法,包括:

4、对sql文件进行预处理;

5、对预处理后的sql文件提取特征;

6、对预处理后的sql文本文档来自技高网...

【技术保护点】

1.一种基于信息增益的SQL文件数据确权查重方法,其特征在于,包括:

2.根据权利要求1所述的基于信息增益的SQL文件数据确权查重方法,其特征在于:SQL文件来源于金融机构数据库。

3.根据权利要求1所述的基于信息增益的SQL文件数据确权查重方法,其特征在于:根据SQL文件中每个属性的标记内容及业务需求,设置每个属性的权重信息,完成SQL文件的预处理。

4.根据权利要求1所述的基于信息增益的SQL文件数据确权查重方法,其特征在于,从预处理后的SQL文件提取特征包括:词袋模型、TF-IDF向量。

5.根据权利要求2所述的基于信息增益的SQL文...

【技术特征摘要】

1.一种基于信息增益的sql文件数据确权查重方法,其特征在于,包括:

2.根据权利要求1所述的基于信息增益的sql文件数据确权查重方法,其特征在于:sql文件来源于金融机构数据库。

3.根据权利要求1所述的基于信息增益的sql文件数据确权查重方法,其特征在于:根据sql文件中每个属性的标记内容及业务需求,设置每个属性的权重信息,完成sql文件的预处理。

4.根据权利要求1所述的基于信息增益的sql文件数据确权查重方法,其特征在于,从预处理后的sql文件提取特征包括:词袋模型、tf-idf向量。

5.根据权利要求2所述的基于信息增益的sql文件数据确权查重方法,其特征在于:基于熵值法对预处理后的sql文件的每条数据计算其在整个预处理后的sql文件中的熵a1及每条数据的条件熵a2,通过公式a1减a2计算得到确权查重的信息增益。...

【专利技术属性】
技术研发人员:李彬贾荫鹏李圣伟孙善宝罗清彩李锐
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1