在数据库表、文本文件和数据馈送中对文本和指纹识别进行加盐制造技术

技术编号:20520686 阅读:29 留言:0更新日期:2019-03-06 04:08
用于对数据库表、文本文件、数据馈送等进行加盐和指纹识别的系统和方法首先根据数据集中的一个或多个字段来重新排序数据。加盐配方被选择并被应用于该经排序的数据。数据的指纹在排序和加盐之后被捕捉。数据然后在被发送到受信任的第三方之前被恢复到其原始顺序。因为数据所有者保留关于排序技术、加盐技术和指纹的信息,所以数据所有者可从经加盐的文件重建未经加盐的文件,并可确定野生文件是否包含来自该数据文件的数据。加盐很难被不良行为者检测到,即使该不良行为者知道数据已经被加盐。

【技术实现步骤摘要】
【国外来华专利技术】在数据库表、文本文件和数据馈送中对文本和指纹识别进行加盐
本专利技术的领域是对数据集的数据和指纹识别进行加盐以确定数据是否被不当地复制或使用。加盐是将独特数据(盐)插入数据子集,使得在数据被泄漏的情况下,被包含在该数据子集中的数据可被标识回数据所有者的机制。指纹识别是从数据集产生短得多的集合的过程,尽管如此,它的指纹仍标识原始数据集。
技术介绍
数据泄漏可被定义为除所有者或授权用户以外的某个人对数据的偷用。估计每年全球数据泄漏的财务影响达数亿美元,并因此代表了数据服务行业中一个非常重要的问题。试图防止数据泄漏的解决方案已经存在一段时间了。这些解决方案防止数据泄漏到组织的防火墙之外,或在数据离开防火墙并在开放网络上“走钢丝”般移动时对其进行加密。还存在一旦图形、视频、音频、或文档(即文本或pdf)数据实际以明文暴露在防火墙外则声明该数据的所有权的解决方案;各组织使用这些众所周知的“数字水印”解决方案以保护其数据免遭滥用。(术语“水印”借用于印刷媒体,其中水印由印刷文档上的印记图像或图案组成以验证真实性,而数字水印是出于相同目的嵌入数字文件中的一种标记。)水印允许数据所有者追讨无授权使用的赔偿,因为他们可在法庭上将水印用作所有权和版权侵权的证据。与此同时,这种法律救济措施的存在阻碍了个人或团体希望获得并随后免费使用此受版权保护的材料。遗憾的是,无论在使用时以明文还是密文传输,文本和数据库文件的数据泄漏仍然是未解决的问题。消费者数据的所有者(“数据所有者”)经常将其数据给予、租赁、或贩售给被受信仅以合法方式、遵守合同要求或数据处理规定(诸如金融服务中的B条例或地方、州或联邦政府制定的隐私法)使用该数据的个人或组织(“受信任的第三方”或“TTP”)。此数据通常作为一系列数据库表(例如.sql格式)、文本文件(例如.csv、.txt、.xls、.doc和.rtp格式)、或作为实时数据馈送(例如,XML或JSON)传送。尽管如此,经常发生数据所有者的数据泄漏(被泄漏的文件在本文被定义为“被泄漏的子集”)到那些没有正当许可甚至非法地故意或无意使用该数据的其他人(“不良行为者”)的手中。这可能因为以下原因而发生,例如,TTP故意发布数据并且其本身就是不良行为者;TTP的员工故意或意外地发布数据;或数据所有者本身的员工故意或无意地泄露数据。数据库、文本文件或实时数据馈送(例如,XML或JSON)的水印提出了独特的挑战。图像、视频或音频文件密集且高度结构化。在这些文件中嵌入少量数据作为水印而不降级文件的信息内容或用户体验是容易的,因为这些类型的文件是抗噪声的。抗噪声文件是一种可在不降级结果数据的情况下添加少量噪声(诸如水印)的文件;例如,可通过改变少量数据比特或改变相邻帧的顺序将水印添加到视频文件中,而观看者不会注意到该变化。以此同时,这种类型数据的高度结构化特性使得不良行为者很难移除水印。相比之下,数据库、文本文件或实时数据馈送(例如,XML或JSON)相对轻质,并因此不能容忍噪声的引入。例如,更改姓名或地址中的单个字符都可能会导致该记录中的数据无效。这种类型的数据的结构可能容易地以使得水印易碎、易于检测、并因此容易使试图确定数据被不当使用的那方无法识别的方式(例如,重排序、追加行、删除行)被操纵。例如,数据表内的各元素可被更改;数据可与来自其他数据源的数据合并;并且数据可被划分为子集和/或以其他方式重排和操纵以避免检测。因此,对于想要声明数据库或文本文件(或其JSON或XML等价物)的所有权和/或检测对泄漏数据负责的机构的数据所有者而言存在重大障碍。数据所有者也不能通过法律行动容易地追讨收入损失,因为其缺少符合适用证据标准的不法行为的证据。此外,当前用于检测数据泄漏的方法主要通过手动操作,且因此是耗时、劳动密集、昂贵、且容易出错的。因此,对这些类型的文件加水印或“加盐”的经改进的系统和方法将是非常有益的。
技术实现思路
本专利技术涉及一种用于对数据库表、文本文件、数据馈送(例如,XML或JSON)等类似数据进行加盐(或应用水印)的方法。在本专利技术的某些实现中,首先根据数据集中的一个或多个字段来重新排序(resort)数据集。加盐配方(recipe)(其可从一组可用的加盐配方中选择)被应用于经排序的数据。数据的指纹然后在排序和加盐之后被捕捉。数据然后在被发送到TTP之前被恢复到其原始顺序。因为数据所有者为每个文件保留,并且在一些实现中为文件的每个版本保留关于排序技术、加盐技术和指纹的信息,所以数据所有者可从经加盐的文件重建未经加盐的文件。此外,被泄漏的子集中包含的数据,即使被改变,也可被数据所有者标识为已经被给予特定接收方和接收方接收到的特定文件。从获取自第三方的野生文件中标识特定的被泄漏的子集和不良行为者的过程被称为罪责分配(guiltassignment)。罪责分配允许数据所有者基于数据的加盐建立强有力的证据案例,通过该证据案例可起诉不良行为者。加盐很难被不良行为者检测到,并因此不良行为者很难或不可能移除加盐,即使不良行为者知道数据已经或可能已经被加盐。加盐因此降低了潜在的不良行为者一开始就真正不当使用其获得的数据的可能性,因为潜在的不良行为者知道此类不当使用会被检测到并导致法律行动。本专利技术的这些和其他特征、目标及优点将通过结合如以下描述的附图考虑以下对优先实施例和所附权利要求书的详细描述而变得更好理解。附图说明图1例示了根据本专利技术的实施例的将盐添加到新文件或数据馈送的处理。图2例示了根据本专利技术的实施例的分析未知来源的文件或数据馈送是否存在盐的处理。图3例示了根据本专利技术的实施例的加盐系统的基础设施和架构。具体实施方式在本专利技术被更详细描述之前,应理解,本专利技术不限于所描述的特定实施例和实现,并且在描述特定实施例和实现时使用的术语仅用于描述那些特定实施例和实现的目的,而不旨在进行限制,因为本专利技术的范围将仅通过权利要求书来限制。为了开始讨论本专利技术的某些实现,相关联的技术陈述的精确定义如下。设D是数据库,包括但不限于公司C所拥有的平面文件或数据馈送。D由关系形式的元组或结构化文本(例如,.csv、XML、JSON或SQL数据)组成。设Si是来自D的元组的子集。设M是生成W的独特的方法,W是D或比D小得多的Si的表示。目标然后为生成W使得:1.W包含针对给定M的“水印”(即,M不能针对两个不同的D或Si生成相同的W)。2.使用统计置信度,W可确定代理人A1相较于其他代理人A2、A3、……An而言是分配或改变D或S1的不良行为者,代理人A2、A3、……An接收D的副本或与S1部分重叠的不同的Si。3.W将足够牢靠以满足证据标准,以便证明D’(D的第二副本或子集)是在未经C同意的情况下创建的。这意味着假阴性(在D’合法时将其标识为是非法的)或假阳性(在D’非法时将其标识为是合法的)的概率必须小。4.在为特定Ai生成D或Si时,W必须不会导致丢失来自D或Si的信息。5.如果M将W嵌在D中,则恢复W是不可行的。也就是说,当且仅当D’和D,或者分别取自D和D’的精确复制S和S’相等时,才可在不知道D的情况下从D’获得W。6.创建W的过程必须足够牢靠,以在不会生成假阴性的情况下处理D和D’之间的元组的显著差异(例如,额外的空格、数据重新排本文档来自技高网
...

【技术保护点】
1.一种用于对数据文件进行加盐和指纹识别的方法,其特征在于,所述数据文件包括多个记录,且每个这样的记录包括至少一个字段,所述方法包括以下步骤:a.从多个可用的排序技术中选择排序技术;b.根据经选择的排序技术对所述数据文件中的所述记录进行排序;c.从多个可用的加盐技术中选择加盐技术;d.在所述排序被执行之后将经选择的加盐技术应用于所述数据文件中的一个或多个记录,其中所述加盐技术至少部分地基于在所述排序步骤之后所述数据文件中的所述记录的顺序以创建经加盐的数据文件;e.在所述加盐步骤之后建立所述经加盐的数据文件的指纹,其中所述指纹包括在所述经加盐的数据文件中的所述多个记录中的至少一个所述记录的子集的至少一个字段;f.将经排序和经加盐的数据文件恢复到其原始排序顺序,就像其在用于产生经重新排序的经加盐的数据文件的所述排序步骤之前一样;g.将文件标识符与所述数据文件相关联,并在文件数据库中存储所述文件标识符以及与所述经选择的排序技术相关联的标识符、与所述经选择的加盐技术相关联的标识符、和所述指纹;以及h.将所述经重新排序的经加盐的数据文件递送给受信任的第三方(TTP)。

【技术特征摘要】
【国外来华专利技术】2016.02.18 US 62/297,0271.一种用于对数据文件进行加盐和指纹识别的方法,其特征在于,所述数据文件包括多个记录,且每个这样的记录包括至少一个字段,所述方法包括以下步骤:a.从多个可用的排序技术中选择排序技术;b.根据经选择的排序技术对所述数据文件中的所述记录进行排序;c.从多个可用的加盐技术中选择加盐技术;d.在所述排序被执行之后将经选择的加盐技术应用于所述数据文件中的一个或多个记录,其中所述加盐技术至少部分地基于在所述排序步骤之后所述数据文件中的所述记录的顺序以创建经加盐的数据文件;e.在所述加盐步骤之后建立所述经加盐的数据文件的指纹,其中所述指纹包括在所述经加盐的数据文件中的所述多个记录中的至少一个所述记录的子集的至少一个字段;f.将经排序和经加盐的数据文件恢复到其原始排序顺序,就像其在用于产生经重新排序的经加盐的数据文件的所述排序步骤之前一样;g.将文件标识符与所述数据文件相关联,并在文件数据库中存储所述文件标识符以及与所述经选择的排序技术相关联的标识符、与所述经选择的加盐技术相关联的标识符、和所述指纹;以及h.将所述经重新排序的经加盐的数据文件递送给受信任的第三方(TTP)。2.如权利要求1所述的方法,其特征在于,所述经选择的排序技术是多级排序技术。3.如权利要求1所述的方法,其特征在于,所述经选择的加盐技术是从所述多个可用的加盐技术中随机选择的。4.如权利要求1所述的方法,其特征在于,所述经选择的加盐技术符合编码准确性支持系统(CASS)。5.如权利要求1所述的方法,其特征在于,所述加盐技术不能被不良行为者检测到。6.如权利要求1所述的方法,其特征在于,所述加盐技术不会妨害所述数据文件的可用性。7.如权利要求1所述的方法,其特征在于,所述数据文件的每个记录包括多个字段,并且进一步其中所述数据文件的每个记录包括关于消费者的信息。8.一种从野生文件中的多个数据文件中的一个数据文件检测一个或多个记录的存在的方法,其中所述多个数据文件和所述野生文件各自包括多个记录,每个记录包括多个字段,所述方法包括以下步骤:a.将来自一组排序技术的多个排序技术应用于所述野生文件;b.针对所述多个排序技术中的一个排序技术向所述野生文件的每次应用,从一组加盐技术中检索多个加盐技术,并对于所述多个加盐技术中的每一个加盐技术,将对至少一个所述数据文件进行加盐的结果与所述野生文件进行比较以确定匹配是否发生;c.如果在对至少一个所述数据文件进行加盐的所述结果与所述野生文件进行比较之后匹配发生,则将所述野生文件中的至少一个记录的至少一个字段与多个指纹中的至少一个指纹进行比较;d.如果所述野生文件中的至少一个记录的至少一个字段与多个指纹中的至少一个指纹的比较导致匹配,则返回所述野生文件导出自所述数据文件的结果;以及e.如果所述多个排序技术中的一个排序技术向所述野生文件的每个应用和所述多个加盐技术中的一个加盐技术向所述野生文件的每个应用不会导致与所述指纹的匹配,则返回所述野生文件并非导出自所述数据文件的结果。9.如权利要求8所述的方法,其特征在于,所述多个排序技术中的至少一个排序技术是多级排序技术。10....

【专利技术属性】
技术研发人员:查尔斯·辛兹梅尔梁芷苓·克里斯蒂娜马特·勒巴伦马丁·罗斯雷·克劳斯亚瑟·科尔曼迈克尔·安德森
申请(专利权)人:利弗莱姆有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1