针对数据库表、文本文件和数据馈送的变化指纹鉴定制造技术

技术编号:20499749 阅读:30 留言:0更新日期:2019-03-03 03:24
变化指纹鉴定被应用于文本文件、数据库表或数据馈送,以确定其中生成所标识的“野生文件”的时间帧,即使在其文件创建元数据丢失时。数据中的每行包含关于单个对象的信息。数据中的至少一列在创建文件时包含每个对象的年龄。该年龄数据可被用于确定创建文件的日期,诸如通过使用识别处理或通过查看基于年龄从文件中添加或删除的数据。通过标识其中创建野生文件的时间帧,数据拥有者可极大地减少确定野生文件是否包含被盗数据所需的计算负担,因为它极大地减少了必须与野生文件相比的文件世界。

Fingerprint identification for changes in database tables, text files and data feeds

Changing fingerprint identification is applied to text files, database tables or data feeds to determine the time frame in which the identified \wild file\ is generated, even when metadata is lost in its file creation. Each row in the data contains information about a single object. At least one column in the data contains the age of each object when creating a file. This age data can be used to determine the date of file creation, such as by using identification processing or by viewing data added or deleted from the file based on age. By identifying the time frames in which wild files are created, data owners can greatly reduce the computational burden of determining whether wild files contain stolen data, because it greatly reduces the file world that must be compared with wild files.

【技术实现步骤摘要】
【国外来华专利技术】针对数据库表、文本文件和数据馈送的变化指纹鉴定
本专利技术解决了使用基于内容的零水印技术的数据文件的数据隐私和取证分析的问题,以确定创建文件的日期。
技术介绍
数据的拥有者(每个都是“数据提供者”)通常将他们的数据给予、租借或出售给据信以合法方式处理该数据的个人或组织(“可信第三方”或“TTP”)。TTP有义务遵守合同要求或数据处理规则,诸如由地方、州或联邦政府制定的金融服务或隐私法律中的条例B。该数据通常作为一系列数据库表(.sql)、文本文件(.csv、.txt或其它格式)、或作为实时数据馈送(例如,XML或JSON)来被传送。尽管如此,数据提供者的数据可泄漏(所泄漏的文件被定义为“被泄漏的子集”)到那些或非法地故意或无意使用该数据的其他人(“坏角色”)的手中。这可能因为以下原因而发生,例如,TTP故意发布数据并且其本身就是坏角色;TTP的员工故意或意外地发布数据;或实际数据提供者本身的员工故意或无意地泄露数据。一旦数据提供者的数据泄漏,它可被许多坏角色按各种方式操纵:元素可被更改,它可以与来自其他数据提供者的数据合并,或者它可被分成子集或重新排列,以及其他类型的操作。这使得数据提供者难以在法庭上认清数据是自己的,标识对泄漏数据负责的一方,并追回损失的收入。如共同未决的国际专利申请号PCT/US2016/068418中所公开的,申请人已经开发了用于对数据集打上水印以标识泄漏的子集并标识哪个TTP或哪些TTP是坏角色(“罪责分配”)的硬件和软件中系统和方法。该系统和方法解决了两个问题:出站处理和入站处理。出站处理指将唯一数据与来自数据提供者的每个出站数据子集(也称为“水印”或“指纹”,这取决于所使用的技术)的关联,以便任何泄漏子集中包含的数据(即使以某种方式改变)仍然可被标识为来自数据提供者和该特定文件。入站处理允许数据提供者随后跟踪数据流回到特定的TTP,从而可以分配它是泄漏子集的可能源的概率,并以可在法院强制执行的方式确定其罪责。这需要取得从第三方获取的数据文件(“野生文件(WildFile)”)的能力,该数据文件实际上可以包含数据提供者的数据,不管第三方是否已知为坏角色,并且以能被识别为来自特定数据文件、来自特定TTP的方式来处理它。在作出此确定时,入站处理的问题是,数据提供者(或其代理,诸如第三方服务)必须将野生文件中包含的数据与来自特定TTP的匹配泄漏子集匹配。在提供数据指纹鉴定和罪责分配的商业系统中,每个TTP可能在多年期间每月接收数百个文件,并且可能有数千个TTP。在数百万文件的世界中,在当今的技术下,通过其中对每个文件进行比较的蛮力方法与单个文件进行匹配将是计算上非常昂贵的(如果不是不可能的话)。示例将给这个问题带来一种规模感。假设数据提供者一年运送200,000文件超过10年,这代表2,000,000个总文件出货(“文件世界”)。同样假设花一个小时来确定特定文件是否是特定野生文件中的泄漏数据的源。如果需要搜索整个文件世界,则将花费2,000,000小时,这等于228年。可进一步注意到,该示例忽略任何数据提供者可能同时处理从多个源获取的多个野生文件的事实。花费这么长的解决方案显然是无用的。那么随后可以看到以下的系统和方法将是非常需要的:允许数据提供者在合理的时间段内确定野生文件是否与特定的泄漏子集相匹配,使得进行数据指纹鉴定值得首先做。
技术实现思路
本专利技术涉及利用变化指纹鉴定的系统和方法。变化指纹鉴定可被定义为可被应用于由特定软件程序生成的任何文本文件、数据库表或数据馈送的过程,所述特定软件程序允许其或相联关程序确定生成文件的后验时间框架(例如,月和年),即使当其原始创建日期未知时。通过这样做,上述问题空间被减少到合理数量的文件,以使得罪责分配在合理的时间段内成为可能。在以上示例中,用于匹配的问题空间从二百万个文件的文件世界减少到比较所需要的16,666个文件。这将问题空间减少为一可管理的东西,其中可以使用硬件或其他形式的系统缩放来将野生文件与特定的泄漏子集匹配。当任何文件或文本流由软件系统生成时,其创建的日期和时间通常被记录。例如,这一信息可以在通过Windows文件资源管理器或Linux中的ls命令可用的细节中找到。然而,当文件被提供给第三方,并且文件内包含的所有元数据(例如,变量名、值标签)或有意或无意地被删除了并文件名被更改了,或者,替换地,文件中的数据被操纵(例如,记录,诸如,将变量名和值从1-10更改为A-J)并以不同元数据(例如,更改变量名和更改值标签)被保存在另一个名称下时,就会出现问题。发生这种情况的最可能的情况是从基于软件的系统中窃取数据,或者,替换地,当包含来自该系统的数据的文件以明文形式交给TTP时,并且随后TTP操纵文件及其数据以故意混淆其所有权/从特定软件程序的生成。这两个场景在术语“数据泄漏”的定义之内,并且虽然它们表示两个最可能的场景,但是本专利技术旨在覆盖可能发生数据泄漏和伴随的文件识别信息的丢失的任何用例。在本专利技术的某些实现中,文本文件、数据表、或数据馈送在XML或JSON馈送的情况下包含记录行或记录串。每行包含关于单个对象的数据——例如,关于单个消费者的个人信息(例如,唯一用户id、姓名、地址、人口统计信息等)或关于项目的生产信息(例如,制造商、制造、型号特征)。在这两个示例中,在创建文件时至少一个列包含每个对象的“有效”的年龄。有效年龄是可以根据出生日期或生产日期进行验证的年龄,尽管本专利技术还覆盖出生日期或生产日期“锚”可能不可用的情况。在这种情况下,包含随时间以某种可预测方式变化的数据的一个或多个辅助列可被用作替换“锚”,以三角测量特定野生文件的有效年龄。出于本专利技术的这些实现的目的,可以通过名称、地址等或其他id来识别野生文件中的单个项,只要记录包含不随事件而改变的持久和唯一标识符(例如,Acxiom公司的消费者链接变量)。一旦怀疑坏角色使用了泄漏子集,数据提供者就可以诉诸法律手段来阻止泄漏并追回损失的收入。作为该过程的一部分,数据提供者通常有合同权来审核涉嫌滥用数据的TTP。然而,许多TTP可能已经接收了数百个数据文件一个月达很长时间段,诸如十年或更长,所以问题由于规模而变得困难。缺少任何用于限制该搜索的手段,将需要数据提供者在发送数据文件的整个期间内通过电子邮件、文档、电子表格和其他物理文档来尝试发现泄漏发生的时间、地点和方式。就诉讼所需的时间以及花费在发现过程上的努力/金钱而言,这种发现的成本将是巨大的和令人望而却步的。如果搜索空间可以限制为一个月,而不是十二个月,则92%的搜索空间被消除。如果数据保留超过一年,那么搜索空间减少甚至更大。可以看出,有必要限制用于发现的搜索空间,以加快诉讼和降低成本。这是本专利技术所要解决的两个问题。本专利技术特别适用于机器的入站处理部分以及法律发现的某些要素。本专利技术的这些和其他特征、目标及优点将通过结合如以下描述的附图考虑以下对优先实施例和所附权利要求书的详细描述而变得更好理解。附图说明图1解说了根据本专利技术的实现的变化指纹鉴定系统的总体概念性框架和设计。图2解说了根据本专利技术的实现的水印系统的系统约简手段。图3解说了根据本专利技术的实现的用于比较的两个示例文件,Wi野生文件和当前数据文件。图4解说了根据本专利技术的实现本文档来自技高网
...

【技术保护点】
1.一种用于确定在野生文件中找到的数据的源的方法,所述野生文件包括多个记录,所述方法包括以下步骤:a.标识具有关于所述野生文件记录的年龄相关信息的字段;b.将识别过程应用于所述野生文件记录,其中来自所述野生文件记录的个人可标识信息(PII)与数据拥有者的主文件中的相应字段相匹配以将真实年龄附加至所述野生文件记录;c.将所述真实年龄数据与来自所述野生文件记录的所述年龄相关信息作比较以标识野生文件创建时段;d.在文件保留期内传送的所有源数据文件的主数据库中,只选择在所述野生文件创建时段期间发送的那些数据文件;e.仅将所选数据文件与所述野生文件中的所述记录作比较以确定所述野生文件是否与所选数据文件中的任一者相匹配;以及f.生成针对所述野生文件的表示其与所述相应数据文件的关联性的强度的罪责得分。

【技术特征摘要】
【国外来华专利技术】2016.02.08 US 62/292,8201.一种用于确定在野生文件中找到的数据的源的方法,所述野生文件包括多个记录,所述方法包括以下步骤:a.标识具有关于所述野生文件记录的年龄相关信息的字段;b.将识别过程应用于所述野生文件记录,其中来自所述野生文件记录的个人可标识信息(PII)与数据拥有者的主文件中的相应字段相匹配以将真实年龄附加至所述野生文件记录;c.将所述真实年龄数据与来自所述野生文件记录的所述年龄相关信息作比较以标识野生文件创建时段;d.在文件保留期内传送的所有源数据文件的主数据库中,只选择在所述野生文件创建时段期间发送的那些数据文件;e.仅将所选数据文件与所述野生文件中的所述记录作比较以确定所述野生文件是否与所选数据文件中的任一者相匹配;以及f.生成针对所述野生文件的表示其与所述相应数据文件的关联性的强度的罪责得分。2.如权利要求1所述的方法,其特征在于,所述年龄相关信息是出生日期。3.如权利要求1所述的方法,其特征在于,所述年龄相关信息是制造日期。4.如权利要求1所述的方法,其特征在于,所述年龄相关信息是年龄范围。5.如权利要求4所述的方法,其特征在于,所述真实年龄数据包括两年的年龄范围。6.如权利要求1所述的方法,其特征在于,应用识别过程的所述步骤包括:从原始的合法接受的文档中导出真实年龄数据的标识。7.如权利要求1所述的方法,其特征在于,仅选择与所述野生文件创建日期对应的那些数据文件的所述步骤包括:首先仅选择在给定年期间发送的那些数据文件并且随后从给定年期间发送的那些文件中选择在给定月期间发送的那些数据文件的步骤。8.如权利要求1所述的方法,其特征在于,仅选择与所述野生文件创建日期对应的那些数据文件的所述步骤包括:仅选择在给定年和给定月期间发送的那些数据文件的单个步骤。9.如权利要求4所述的方法,其特征在于,标识具有关于所述野生文件记录的年龄相关信息的所述步骤包括在所述野生文件中标识包含年龄范围的字段的步骤,并且其中将所述真实年龄数据与来自所述野生文件记录的所述年龄相关信息作比较以标识野生文件创建时段的所述步骤包括将多个月中发布的文件与所述野生文件的数据作比较以标识至少一个记录的年龄范围变化的月份的步骤。10.如权利要求9所述的方法,其特征在于,对于所述记录中的每一者而言,如果将识别过程应用于所述野生文件的所述数据中的所述记录的所述步骤不产生匹配,...

【专利技术属性】
技术研发人员:亚瑟·科尔曼马丁·罗斯梁芷苓·克里斯蒂娜
申请(专利权)人:利弗莱姆有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1