大型结构化数据集的统计指纹识别制造技术

技术编号:24296772 阅读:41 留言:0更新日期:2020-05-26 21:23
一种用于结构化数据集的统计指纹识别的系统和方法通过将结构化数据库划分为数据子集组开始。这些子集是基于数据的结构来创建的;例如,通过将每一列指定为子集,可以将按列和行描绘的数据分解为子集。从每个子集中导出指纹,然后将针对每个子集的指纹组合,以便创建针对数据集的整体指纹。通过将此过程应用于未知来源的“野生文件(wild file)”,并将结果与数据所有者的文件作比较,可以确定是否从数据所有者错误地获取了野生文件中的数据。

Statistical fingerprint recognition of large structured data sets

【技术实现步骤摘要】
【国外来华专利技术】大型结构化数据集的统计指纹识别
本专利技术的领域是数据水印和指纹识别,尤其是结构化大数据集的统计指纹识别。
技术介绍
专有数据文件(例如,.csv、.sql、.txt等类型的文件)或以JSON或XML数据提要(feed)中的文本数据的有意或无意泄漏代表巨大的损坏潜在可能。现有的解决方案可用于防止当数据驻留在公司防火墙后时的丢失。像安全HTTP或SSL协议之类的解决方案防止当数据(无论是作为文件还是作为数据提要)离开防火墙并穿越因特网到达合法接收者(此处描述为“受信任的第三方”或TTP)时丢失的风险。存在其他解决方案以当在原始源(数据所有者)的防火墙之外使用文件时声明并记录文件所有权。这些数据水印和指纹识别解决方案是合需的,因为在盗窃或其他损失的情况下它们提供了所有权证据。数据水印和指纹识别构成用于证明数据文件所有权的两类过程。这两种办法并不总是相互排斥的,但是获得一般区别。文件水印包括对数据进行更改(通常较小),以创建对于用户难以识别的唯一模式。根据指定规则更改数字(连续)变量的最低有效位是一个简单的示例。创建数据文件的指纹不涉本文档来自技高网...

【技术保护点】
1.一种用于对结构化数据库进行指纹识别的方法,所述方法包括以下步骤:/na.将结构化数据库分为多个子集;/nb.导出针对所述多个子集中的每个子集的指纹;以及/nc.将针对所述多个子集中的每个子集的所述指纹组合以创建针对所述结构化数据库的指纹。/n

【技术特征摘要】
【国外来华专利技术】20171005 US 62/568,7201.一种用于对结构化数据库进行指纹识别的方法,所述方法包括以下步骤:
a.将结构化数据库分为多个子集;
b.导出针对所述多个子集中的每个子集的指纹;以及
c.将针对所述多个子集中的每个子集的所述指纹组合以创建针对所述结构化数据库的指纹。


2.如权利要求1所述的方法,其特征在于,所述多个子集中的每个子集包括列状数据集。


3.如权利要求2所述的方法,其特征在于,进一步包括按数据类型分析所述多个列状数据集中的每个列状数据集的步骤。


4.如权利要求3所述的方法,其特征在于,进一步包括预处理所述多个列状数据集中的每个列状数据集的步骤。


5.如权利要求4所述的方法,其特征在于,进一步包括将多个统计测试中的至少一个统计测试应用于所述多个列状数据集的步骤。


6.如权利要求5所述的方法,其特征在于,所述列状数据集中的至少一者包括定量数据集。


7.如权利要求6所述的方法,其特征在于,应用于所述定量数据集的多个统计测试中的所述至少一个统计测试选自包括均值、中值、众数、最小值、最大值、标准偏差和方差的集合。


8.如权利要求5所述的方法,其特征在于,所述列状数据集中的至少一者包括定性数据集。


9.如权利要求8所述的方法,其特征在于,应用于所述多个列状数据集的所述多个统计测试中的至少一个统计测试选自包括两个样本卡方、卡方拟合优度、以及卡方独立性测试的集合。


10.如权利要求1所述的方法,其特征在于,进一步包括将时间维度分析应用于所述结构化数据库以计及所述结构化数据库内的数据的时间漂移的步骤。


11.如权利要求1所述的方法,其特征在于,进一步包括将针对所述结构化数据库的所述指纹与针对数据所有者结构化数据库的指纹作比较以确定所述结构化数据库是否从所述数据所有者结构化数据库导出的步骤。


12.一种存储指令的计算机可读介质,当所述指令由计算机执行时,致使它:
a.将结构化数据库分为多个子集;
...

【专利技术属性】
技术研发人员:亚瑟·科尔曼梁芷苓·克里斯蒂娜马丁·罗斯C·鲍尔斯N·尚卡尔
申请(专利权)人:链睿有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1