【技术实现步骤摘要】
本专利技术涉及数据检索,具体涉及一种基于信息增益的sql文件数据确权查重方法。
技术介绍
1、在隐私计算、数据确权等业务场景中,需要对比评估数据的重复率评估数据的价值,用于进行行为决策。数据提供方往往会提供一部分数据样例,样例中的sql文件中每列的用途及含义都已经被标记。
2、随着隐私保护意识的提高,确权中的sql文件中包含着的水印信息或脱敏数据,以列的行时存放在sql文件中。在确权场景中,水印列和脱敏列往往会被提前标记在数据样例或数据集文件中。这些情况在一定程度上影响了数据的可用性和查重的准确率。
技术实现思路
1、本专利技术为了克服以上技术的不足,提供了一种为数据确权业务中数据sql数据的质量评估和查重提供了基于信息增益的确权查重方法。
2、本专利技术克服其技术问题所采用的技术方案是:
3、一种基于信息增益的sql文件数据确权查重方法,包括:
4、对sql文件进行预处理;
5、对预处理后的sql文件提取特征;
6、
...【技术保护点】
1.一种基于信息增益的SQL文件数据确权查重方法,其特征在于,包括:
2.根据权利要求1所述的基于信息增益的SQL文件数据确权查重方法,其特征在于:SQL文件来源于金融机构数据库。
3.根据权利要求1所述的基于信息增益的SQL文件数据确权查重方法,其特征在于:根据SQL文件中每个属性的标记内容及业务需求,设置每个属性的权重信息,完成SQL文件的预处理。
4.根据权利要求1所述的基于信息增益的SQL文件数据确权查重方法,其特征在于,从预处理后的SQL文件提取特征包括:词袋模型、TF-IDF向量。
5.根据权利要求2所述的基
...【技术特征摘要】
1.一种基于信息增益的sql文件数据确权查重方法,其特征在于,包括:
2.根据权利要求1所述的基于信息增益的sql文件数据确权查重方法,其特征在于:sql文件来源于金融机构数据库。
3.根据权利要求1所述的基于信息增益的sql文件数据确权查重方法,其特征在于:根据sql文件中每个属性的标记内容及业务需求,设置每个属性的权重信息,完成sql文件的预处理。
4.根据权利要求1所述的基于信息增益的sql文件数据确权查重方法,其特征在于,从预处理后的sql文件提取特征包括:词袋模型、tf-idf向量。
5.根据权利要求2所述的基于信息增益的sql文件数据确权查重方法,其特征在于:基于熵值法对预处理后的sql文件的每条数据计算其在整个预处理后的sql文件中的熵a1及每条数据的条件熵a2,通过公式a1减a2计算得到确权查重的信息增益。...
【专利技术属性】
技术研发人员:李彬,贾荫鹏,李圣伟,孙善宝,罗清彩,李锐,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。