用于防止对象特定图像域中的数据丢失的结构化文本和图案匹配制造技术

技术编号:22225748 阅读:66 留言:0更新日期:2019-09-30 06:18
可以执行结构化文本和图案匹配以防止对象特定图像域中的数据丢失。根据一些实施方案,一种方法可以包括:接收图像;基于所述一个或多个对象的属性识别所述图像中的一个或多个对象;以及由计算设备确定所述一个或多个对象中的第一对象的对象类型。所述方法可以包括:由所述计算设备基于所述第一对象的所述对象类型识别所述第一对象的一个或多个特定区域以进行辨识;以及辨识在所述第一对象的所述一个或多个特定区域中的文本。在一些实施方案中,所述方法然后可以包括由所述计算设备将在所述第一对象的所述一个或多个特定区域中辨识出的所述文本提供给安全引擎,其中所述安全引擎可以被配置为评估所述文本是否包括敏感信息。

Structured text and pattern matching to prevent data loss in object-specific image domains

【技术实现步骤摘要】
【国外来华专利技术】用于防止对象特定图像域中的数据丢失的结构化文本和图案匹配
本公开整体涉及计算机安全性,并且更具体地涉及自动地评估图像中的对象是否可能包含敏感信息。
技术介绍
专有和/或保密数据的泄漏对于组织机构诸如公司、政府和大学来说是一直存在的问题。组织机构的计算机的如今无所不在的远程网络访问提高了工作效率并且是方便的,但是同时也为保护数据免被未授权方(诸如竞争对手或犯罪分子)访问带来更大的挑战。企业数据的泄漏可能源于不道德的雇员的故意行为,以及没有遵循稳健安全程序的雇员的无意但疏忽的行为。组织机构缺乏对敏感文档和信息的访问和流通的可见性。管理员缺乏跟踪数据访问和使用的工具。跟踪企业数据的访问和流通并防止泄漏比以往更困难。然而,组织机构确切地想要根据企业级信息控制政策来限制保密数据的访问和使用。一些用于跟踪企业数据的访问和流通的技术将文本串与所限定的信息或信息类型的数据库进行比较。然而,这些技术不会扩展到其中信息包含在图像中的情况,诸如一张或多张银行支票、信用卡或驾驶执照的图像。常规的光学字符辨识(OCR)技术不能以足够快速、准确和/或有效的方式准确地确定图像的内容(包括图像是否包含敏感信息)来满足数据丢失防护(DLP)系统的要求。例如,一些常规的图像分析需要大量计算资源,从而导致不可接受的计算资源成本和延迟,尤其是对于企业应用程序来说。此外,常规的系统的捕获、处理和分析复杂图像的能力是有限的。这些问题需要得到解决。
技术实现思路
计算设备可以接收图像,并且可以基于一个或多个对象的属性识别图像中的一个或多个对象。可以由计算设备确定一个或多个对象中的第一对象的对象类型。还可以确定一个或多个对象的第二对象的对象类型。在一些实施方案中,属性可以包括第一对象的尺寸。在一些实施方案中,第一对象的对象类型可以包括支票,并且在一些情况下,可以基于包括MICR(磁性油墨字符辨识)字符的属性识别支票。在一些实施方案中,第一对象的对象类型可以包括照片标识卡,并且在一些情况下,可以基于包括在对象上的给定位置处的人脸的图像的属性识别照片标识卡。可以由计算设备基于第一对象的对象类型识别第一对象的一个或多个特定区域以进行辨识。还可以基于第二对象的对象类型识别第二对象的一个或多个特定区域以进行辨识。可以基于对象类型的已知布局确定一个或多个特定区域中的每个特定区域的位置。在一些实施方案中,可以使用第一对象的所确定的旋转或透视来调整一个或多个特定区域的旋转或透视,以便有利于在第一对象的一个或多个特定区域内的文本辨识。可以由计算设备辨识在第一对象的一个或多个特定区域中的文本。还可以辨识在第二对象的一个或多个特定区域中的文本。可以基于在第一对象上特定区域的位置用元数据来标记在第一对象的一个或多个特定区域中的每个特定区域中辨识出的文本。元数据可以指示在具有第一对象的对象类型的对象上的特定区域的位置处期望被发现的数据类型。在一些实施方案中,安全引擎还可以被配置为基于在文本上标记的元数据确定文本是否包括敏感信息。可以由计算设备将在第一对象的一个或多个特定区域中辨识出的文本提供给安全引擎。还可以将在第二对象的一个或多个特定区域中的文本提供给安全引擎。安全引擎可以被配置为评估文本是否包括敏感信息。在一些实施方案中,安全引擎可以通过使第一对象的一个或多个特定区域中的文本相对于所限定的敏感信息的数据库进行匹配来评估文本是否包括敏感信息。在一些实施方案中,可以基于第一对象的对象类型和第二对象的对象类型确定图像包含敏感信息。在一些实施方案中,可以响应于第一对象的对象类型是第一特定类型并且第二对象的对象类型是第二不同特定对象类型确定图像包含敏感信息。在一些实施方案中,可以响应于安全引擎确定在第一对象的一个或多个特定区域中的文本不包括敏感信息由计算设备将第一对象分类为不包括敏感信息。在一些实施方案中,可以确定在第一对象的一个或多个特定区域中是否存在文本,并且可以响应于确定在一个或多个特定区域中不存在文本将对象分类为不包括敏感信息。在一些实施方案中,可以响应于在第一对象的一个或多个特定区域中辨识出的文本被评估为包括敏感信息自动地阻止图像进行电子传输。在一些实施方案中,可以响应于在第一对象的一个或多个特定区域中辨识出的文本被评估为包括敏感信息自动地向管理员传输电子消息。本
技术实现思路
和以下具体实施方式中所述的特征和优点并不包括全部,并且特别地,相关领域的普通技术人员在考虑本文的附图、说明书和权利要求书后,许多另外的特征和优点将显而易见。此外,应该指出的是,说明书中所用的语言主要被选择用于可读性和指导目的,而不是被选择用来限定或限制本专利技术的主题,必需借助权利要求书确定此专利技术主题。附图说明图1是根据一些实施方案的可实现图像安全管理系统的示例性网络架构的框图。图2是根据一些实施方案的适合于实现图像安全管理系统的计算机系统的框图。图3是根据一些实施方案的图像安全管理系统的框图。图4是根据一些实施方案的用于在对象特定图像域中执行结构化文本和图案匹配以防止数据丢失的示例性方法的流程图。图5、图6和图7是根据一些实施方案的可分析敏感信息的示例性对象的图示。这些图仅出于举例说明的目的来示出各种实施方案。本领域技术人员根据下列讨论将易于认识到,在不脱离本文所述原理的情况下,可采用本文所述的结构和方法的替代实施方案。具体实施方式本文中描述了图像安全管理系统101,该图像安全管理系统可以执行结构化文本和图案匹配以防止对象特定图像域中的数据丢失。例如,图像安全管理系统101可以确定图像是否包含违反所限定的安全政策的敏感信息。本文所述的技术可以允许基于文本的数据丢失防护(DLP)系统(例如,图像安全管理系统101和数据访问管理系统109)中的现有规则扩展到图像。DLP系统可以包括确定文本是否包括敏感信息(例如,保密或个人可识别信息)的某些规则或安全政策。诸如本文所述的DLP系统可以在非常短的时间内扫描数千或数百万个图像,因此低延迟和成本以及低负误识率是特别重要的。本文所述的技术克服了扫描图像的当前方法的限制,诸如使用光学字符辨识(本文也被称为OCR)扫描整个图像。例如,如本文的其他地方进一步详细地描述的,在整个图像中执行光学字符辨识将是计算上昂贵的,并且导致不可接受的延迟,例如,在企业级DLP系统中。此外,当图像质量不良(例如,因旋转、透视、取向、照度、清晰度等而造成)时,光学字符辨识难以辨识文本。本文所述的技术可以使用计算机视觉技术、对象特定检测、基于文本的匹配和DLP规则来评估图像是否包含敏感信息。例如,该技术可以包括使用稳健的计算机视觉对象检测器来在可用于将对象的特定感兴趣的区域转录成文本的文本辨识之前达成对对象的理解。该技术是特别有益的,因为它在使没有敏感信息的图像通过、识别有挑战性的图像(例如,具有不良的图像质量、障碍物、多个对象等)中的敏感信息和以很小的延迟处理极大量数据方面是非常有效的。参考附图,可以使用参考标号来指代在任何附图中找到的组件,不管这些参考标号是否在所描述的附图中示出。此外,在参考标号包括指代多个类似组件(例如,组件000a、000b和000n)中的一个的字母的情况下,可以使用没有字母的参考标号来指代一个或所有类似组件。应当指出的是,本文所述的示例性对象(例如,银行支票本文档来自技高网
...

【技术保护点】
1.一种计算机实现的方法,包括:由计算设备接收图像;基于一个或多个对象的属性由所述计算设备识别所述图像中的一个或多个对象;由所述计算设备确定所述一个或多个对象中的第一对象的对象类型;基于所述第一对象的所述对象类型由所述计算设备识别所述第一对象的一个或多个特定区域以进行辨识;由所述计算设备辨识在所述第一对象的所述一个或多个特定区域中的文本;以及由所述计算设备将在所述第一对象的所述一个或多个特定区域中辨识出的所述文本提供给安全引擎,所述安全引擎被配置为评估所述文本是否包括敏感信息。

【技术特征摘要】
【国外来华专利技术】2017.01.30 US 15/4197561.一种计算机实现的方法,包括:由计算设备接收图像;基于一个或多个对象的属性由所述计算设备识别所述图像中的一个或多个对象;由所述计算设备确定所述一个或多个对象中的第一对象的对象类型;基于所述第一对象的所述对象类型由所述计算设备识别所述第一对象的一个或多个特定区域以进行辨识;由所述计算设备辨识在所述第一对象的所述一个或多个特定区域中的文本;以及由所述计算设备将在所述第一对象的所述一个或多个特定区域中辨识出的所述文本提供给安全引擎,所述安全引擎被配置为评估所述文本是否包括敏感信息。2.根据权利要求1所述的计算机实现的方法,还包括:响应于所述安全引擎确定所述第一对象的所述一个或多个特定区域中的所述文本不包括敏感信息,由所述计算设备将所述第一对象分类为不包括敏感信息。3.根据权利要求1所述的计算机实现的方法,还包括:由所述计算设备确定在所述第一对象的所述一个或多个特定区域中是否存在文本;以及响应于确定在所述一个或多个特定区域中不存在文本,将所述对象分类为不包括敏感信息。4.根据权利要求1所述的计算机实现的方法,其中基于所述对象类型的已知布局确定所述一个或多个特定区域中的每个特定区域的位置。5.根据权利要求1所述的计算机实现的方法,还包括:基于在所述第一对象上所述特定区域的位置,由所述计算设备用元数据来标记在所述第一对象的所述一个或多个特定区域中的每个特定区域中辨识出的所述文本,所述元数据指示在具有所述第一对象的所述对象类型的对象上的所述特定区域的所述位置处期望被发现的数据类型。6.根据权利要求5所述的计算机实现的方法,其中所述安全引擎还被配置为基于在所述文本上标记的所述元数据确定所述文本是否包括敏感信息。7.根据权...

【专利技术属性】
技术研发人员:R·艾比安东左锦宇
申请(专利权)人:赛门铁克公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1