【技术实现步骤摘要】
【国外来华专利技术】确定个人信息查找结果可信度的机器学习系统和方法相关申请的交叉引用本申请主张2018年8月13日提交的题为“确定个人信息查找结果可信度的机器学习系统和方法”的第62/718,349号美国临时专利申请的优先权,其全部内容被援引加入本申请中。
技术介绍
概括地说,本专利技术涉及数据发现(discovery,也可译为查找或开示)和保护。具体地说,本专利技术涉及用于对存储在任意数量的数据源中的个人信息进行查找和分类的系统和方法。在数字经济中,维持客户的肯定和信任需要确保他们的个人身份信息不会遭受到丢失、窃取和滥用的威胁。信息技术和互联网的广泛应用,导致不法分子更加容易通过破坏互联网安全、网络安全和网络浏览器安全来窃取此类个人信息,从而使得收集和转售个人信息成为一个有利可图的市场。这些个人信息还可能被犯罪分子用来非法跟踪或窃取一个人的身份信息,或用来帮助策划犯罪行为。如今,大多数机构在数据保护时面临的主要挑战是了解个人身份信息位于机构数据中心的什么位置。虽然有许多保护遗留数据(legacydata)和预防数据丢失(“DLP”)的解决方 ...
【技术保护点】
1.一种由计算机实现的在数据源中对个人信息进行查找和分类的方法,所述方法包括:/n计算机接收身份数据源,所述身份数据源包括:/n与第一属性值相关联的第一属性字段;/n与第二属性值相关联的第二属性字段;/n所述计算机接收扫描数据源,所述扫描数据源包括与第一扫描值相关联的第一扫描字段;/n所述计算机确定多个个人信息查找结果,包括:/n通过将所述第一属性值与所述第一扫描值进行比较而确定的第一组个人信息查找结果;/n通过将所述第二属性值与所述第一扫描值进行比较而确定的第二组个人信息查找结果;/n所述计算机根据所述多个个人信息查找结果的部分或全部创建多个个人信息记录,所述多个个人信息 ...
【技术特征摘要】
【国外来华专利技术】20180813 US 62/718,3491.一种由计算机实现的在数据源中对个人信息进行查找和分类的方法,所述方法包括:
计算机接收身份数据源,所述身份数据源包括:
与第一属性值相关联的第一属性字段;
与第二属性值相关联的第二属性字段;
所述计算机接收扫描数据源,所述扫描数据源包括与第一扫描值相关联的第一扫描字段;
所述计算机确定多个个人信息查找结果,包括:
通过将所述第一属性值与所述第一扫描值进行比较而确定的第一组个人信息查找结果;
通过将所述第二属性值与所述第一扫描值进行比较而确定的第二组个人信息查找结果;
所述计算机根据所述多个个人信息查找结果的部分或全部创建多个个人信息记录,所述多个个人信息记录包括:
第一组个人信息记录,根据所述第一组个人信息查找结果的部分或全部创建;
第二组个人信息记录,根据所述第二组个人信息查找结果的部分或全部创建;
所述计算机计算所述第一扫描字段和所述第一属性字段的第一信任度,所述计算基于如下多个因素:所述第一扫描值的计数、所述第一组个人信息查找结果的计数、所述第一组个人信息记录的计数,以及所述第一组个人信息记录和所述第二组个人信息记录的计数之和;
所述计算机计算所述第一扫描字段和所述第二属性字段的第二信任度,所述计算基于如下多个因素:所述第一扫描值的计数、所述第二组个人信息查找结果的计数、所述第二组个人信息记录的计数,以及所述第一组个人信息记录与所述第二组个人信息记录的计数之和;
在确定所述第一信任度大于或等于最小信任阈值并且所述第二信任度小于所述最小信任阈值时,所述计算机在报告中将所述第一属性字段而非所述第二属性字段,与所述第一扫描字段相关联;
向用户设备提供所述报告。
2.根据权利要求1所述的由计算机实现的方法,其中:
所述扫描数据源还包括与第二扫描值相关联的第二扫描字段;
所述多个个人信息查找结果还包括:
通过将所述第一属性值与所述第二扫描值进行比较而确定的第三组个人信息查找结果;
通过将所述第二属性值与所述第二扫描值进行比较而确定的第四组个人信息查找结果;
所述多个个人信息记录还包括:
第三组个人信息记录,根据所述第三组个人信息查找结果的部分或全部创建;
第四组个人信息记录,根据所述第四组个人信息查找结果的部分或全部创建;
所述方法还包括:
所述计算机计算所述第二扫描字段和所述第一属性字段的第三信任度,所述计算基于如下多个因素:所述第二扫描值的计数、所述第三组个人信息查找结果的计数、所述第三组个人信息记录的计数,以及所述第三组个人信息记录和所述第四组个人信息记录的计数之和;
所述计算机计算所述第二扫描字段和所述第二属性字段的第四信任度,所述计算基于如下多个因素:所述第二扫描值的计数、所述第四组个人信息查找结果的计数、所述第四组个人信息记录的计数,以及所述第三组个人信息记录和第四组个人信息记录的计数之和;
在确定所述第四信任度大于或等于所述最小信任阈值并且所述第三信任度小于所述最小信任阈值时,在所述报告中将所述第二属性字段而非所述第一属性字段,与所述第二扫描字段相关联。
3.根据权利要求2所述的由计算机实现的方法,其中:
计算所述第一信任度还基于所述第一组个人信息记录和所述第三组个人信息记录的计数之和;
计算所述第二信任度还基于所述第二组个人信息记录和所述第四组个人信息记录的计数之和;
计算所述第三信任度还基于所述第一组个人信息记录和所述第三组个人信息记录的计数之和;
计算所述第四信任度还基于所述第二组个人信息记录和所述第四组个人信息记录的计数之和。
4.根据权利要求3所述的由计算机实现的方法,其中:
计算所述第一信任度具体基于与独特的第一属性值相关联的第一组个人信息查找结果的计数;
计算所述第二信任度具体基于与独特的第二属性值相关联的第二组个人信息查找结果的计数;
计算所述第三信任度具体基于与独特的第一属性值相关联的第三组个人信息查找结果的计数;
计算所述第四信任度具体基于与独特的第二属性值相关联的第四组个人信息查找结果的计数。
5.根据权利要求4所述的由计算机实现的方法,其中:
计算所述第一信任度具体基于与独特的第一属性值相关联的第一组个人信息记录的计数;
计算所述第二信任度具体基于与独特的第二属性值相关联的第二组个人信息记录的计数;
计算所述第三信任度具体基于与独特的第一属性值相关联的第三组个人信息记录的计数;
计算所述第四信任度具体基于与独特的第二属性值相关联的第四组个人信息记录的计数。
6.根据权利要求5所述的由计算机实现的方法,其中:
计算所述第一信任度还基于与所述第一属性字段相关的确定匹配的第一计数;
计算所述第二信任度还基于与所述第二属性字段相关的确定匹配的第二计数;
计算所述第三信任度还基于与所述第一属性字段相关的确定匹配的第一计数;
计算所述第四信任度还基于与所述第二属性字段相关的确定匹配的第二计数。
7.根据权利要求6所述的由计算机实现的方法,其中:
计算所述第一信任度还基于与所述第一属性字段相关的完全匹配的第一计数;
计算所述第二信任度还基于与所述第二属性字段相关的完全匹配的第二计数;
计算所述第三信任度还基于所述完全匹配的第一计数;
计算所述第四信任度还基于所述完全匹配的第二计数。
8.根据权利要求7所述的由计算机实现的方法,还包括:
计算所述第一信任度还基于与所述第一属性字段相关的确定和完全匹配的第一计数;
计算所述第二信任度还基于与所述第二属性字段相关的确定和完全匹配的第二计数;
计算所述第三信任度还基于所述确定和完全匹配的第一计数;
计算所述第四信任度还基于所述确定和完全匹配的第二计数。
9.根据权利要求8所述的由计算机实现的方法,其中:
计算所述第一信任度还基于第一名称相似值,所述第一名称相似值是针对与所述第一属性字段相关联的名称和与所述第一扫描字段相关联的名称所确定的;
计算所述第二信任度还基于第二名称相似值,所述第二名称相似值是针对与所述第二属性字段相关联的名称和与所述第一扫描字段相关联的名称所确定的。
10.根据权利要求9所述的由计算机实现的方法,其中使用编辑距离算法来确定所述第一名称相似值和所述第二名称相似值。
11.根据权利要求1所述的由计算机实现的方法,其中所述报告还包括与所述扫描数据源相关联的扫描数据源信息,所述扫描数据源信息包括:所述扫描数...
【专利技术属性】
技术研发人员:约舒华·爱努卡,宁罗德·瓦克斯,艾亚尔·萨沙洛夫,艾特玛尔·阿佩尔,
申请(专利权)人:大号公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。