训练用于确定文档类别的分类器的系统和方法技术方案

技术编号:20797718 阅读:22 留言:0更新日期:2019-04-06 11:20
本发明专利技术涉及用于训练用于确定文档类别的分类器的方法和系统。在示例性方面中,所述方法包括:获取属于第一类别的一个或多个文档作为分类器的训练样本;确定包含在所述一个或多个文档的每个文档中的对象;通过硬件处理器形成由所述对象构成的特征集;基于所述特征集,由硬件处理器通过选择分类模型并训练所述分类器来构建所述分类器;获取属于所述第一类别的另外的文档;使用所述分类器计算所述另外的文档的分类误差;以及当所述误差超过给定值时,获取属于所述第一类别或属于一个或多个新类别的第二组文档;否则,确定完成所述分类器。

Systems and methods for training classifiers for determining document categories

The present invention relates to a method and system for training classifiers for determining document categories. In an exemplary aspect, the method includes: obtaining training samples of one or more documents belonging to the first category as classifiers; determining objects contained in each document of the one or more documents; forming a feature set composed of the objects through a hardware processor; and based on the feature set, training the classification by a hardware processor by selecting a classification model. The classifier constructs the classifier; obtains additional documents belonging to the first category; calculates the classification error of the other documents using the classifier; and obtains a second group of documents belonging to the first category or to one or more new categories when the error exceeds a given value; otherwise, determines the completion of the classifier.

【技术实现步骤摘要】
训练用于确定文档类别的分类器的系统和方法
本专利技术涉及防止信息泄露的领域,并且更具体地涉及训练用于确定文档类别的分类器的系统和方法。
技术介绍
与最近的网络攻击和信息窃取量的增加有关,数据泄露防护(DLP)系统正在变得越来越需要。DLP系统的主要任务之一是防止个人以及保密文档(诸如护照、出生证明、驾驶执照、保密协议等)的电子副本的泄露。机器学习技术已被广泛用于个人和保密文档的检测,特别是诸如模式识别技术以及光学字符识别(OCR)技术的机器学习技术。对于这些技术,将一组感兴趣的类别相似的文档放入分类器中,并且基于该组文档制定特征,然后利用这些特征将新文档分配到其中一个类别。然而,现有技术通常仅对于给定的一组文档类别证明了很好的分类质量。当添加新类别的文档时,必须在大量类似文档上再次进行分类器的训练。此外,如果不能给新文档分配任何类别,它可能仍然包含机密数据。而且,在大多数分类器的构建中,分析员对分类器的调节起着主要作用,但是通常这不会产生高质量的分类。因此,出现了难以构建确保高质量分类的分类器的技术问题。已知的技术不能解决所述的技术问题,因为在很多情况下,已知的技术不能够提供高质量的分类,特别是,已知的技术不能够对包含机密数据且不属于任何已知类别的文档进行分类,并且还有必要识别包含在文档中的文本以确定前述公开技术中的特征。
技术实现思路
本文公开了用于训练用于确定文档类别的分类器的方法和系统。在一个示例性方面中,提供了一种用于训练分类器的方法,该方法以下步骤:包括获取属于第一类别的一个或多个文档作为分类器的训练样本;确定包含在所述一个或多个文档的每个文档中的对象;通过硬件处理器形成由所述对象构成的特征集;基于所述特征集,通过选择分类模型并训练所述分类器来构建所述分类器;获取属于所述第一类别的另外的文档;使用所述分类器计算所述另外的文档的分类误差;以及当所述误差超过给定值时,获取属于所述第一类别或属于一个或多个新类别的第二组文档,否则,确定完成所述分类器。在另一方面中,所述方法还包括对于每一个新类别重复前述步骤。另一方面,所述分类误差包括对所述一个或多个文档的错误分类的概率。在另一方面中,所述对象包括图形元素和/或文本元素中的一个或多个元素。在另一方面中,所述图形元素包括以下中的一者或多者:人脸的图像、脸部照片的框架、国家的印章和/或旗帜、邮票、标准字(logotype)或整个文档。在另一方面中,所述方法还包括对所述一个或多个文档进行初步处理,所述初步处理包括以下中的一者或多者:将文件分解成所述一个或多个文档中的每个文档;以及修正在所述一个或多个文档中检测到的失真。在另一方面中,所述特征集包括以下中的一者或多者:在所述一个或多个文档的每个文档中的对象的存在、对象的位置、对象的数量、在文档中的各个对象之间的关系、对象的尺寸、对象的倾斜角度、对象的失真的存在。在另一方面中,所述特征集还包括以下中的一者或多者:对象的颜色的直方图、对象的元数据、由特定特征统一的一组对象、相同对象的数量、对象的颜色的直方图与指定的图案的一致性、指定的对象的组合与彼此布置的图案的一致性、对象的颜色的直方图的傅里叶变换以及对象的图像中的失真类型。在一个示例性方面中,提供了一种用于训练用于确定文档类别的分类器的系统,该系统包括:分析模块,该分析模块被配置为获取属于第一类别的一个或多个文档作为分类器的训练样本,以及确定包含在所述一个或多个文档的每个文档中的对象;特征形成模块,该特征形成模块被配置为形成由所述对象构成的特征集;分类器构建模块,所述分类器构建模块被配置为基于所述特征集,通过选择分类模型并训练所述分类器来构建所述分类器;以及,其中,所述分析模块还被配置为:获取属于所述第一类别的另外的文档;使用所述分类器计算所述另外的文档的分类误差;以及当所述误差超过给定值时,获取属于所述第一类别或属于一个或多个新类别的第二组文档;否则,确定完成所述分类器。在一个示例性方面中,一种非暂时性计算机可读介质,所述非暂时性计算机可读介质上存储有计算机可执行指令,当执行所述计算机可执行指令时,所述计算机可执行指令执行用于训练用于确定文档类别的分类器的方法,所述方法包括:通过硬件处理器获取属于第一类别的一个或多个文档作为分类器的训练样本;通过硬件处理器确定包含在所述一个或多个文档的每个文档中的对象;通过硬件处理器形成由所述对象构成的特征集;基于所述特征集,由硬件处理器通过选择分类模型并训练所述分类器来构建所述分类器;获取属于所述第一类别的另外的文档;使用所述分类器计算所述另外的文档的分类误差;以及当所述误差超过给定值时,获取属于所述第一类别或属于一个或多个新类别的第二组文档;否则,确定完成所述分类器。以上对示例性方面的简化概述用于提供对本专利技术的基本理解。本概述不是对所有预期方面的广泛概述,并且既不旨在确定所有方面的关键或重要元素,也不描绘本专利技术的任何或全部方面的范围。其唯一目的是以简化的形式呈现一个或多个方面,作为对本专利技术的以下更详细描述的序言。为了实现前述内容,本专利技术的一个或更多个方面包括权利要求中所描述和示例性指出的特征。附图说明并入本说明书并构成本说明书的一部分的附图示出了本专利技术的一个或多个示例方面,并且与详细描述一起用于解释它们的原理和实现方式。图1示出了根据本专利技术的示例性方面的用于训练用于确定文档类别的分类器的系统。图2是根据本专利技术的示例性方面的用于训练分类器的方法的流程图。图3a至图3c示出了根据本专利技术的示例性方面的文档的示例以及确定包含在文档中的对象的各种示例。图4a和图4b示出了根据本专利技术的示例性方面的文档的另一示例以及确定包含在文档中的对象的各种示例。图5示出了根据本专利技术的示例性方面的通用计算机系统的示例。具体实施方式本文在用于训练用于确定文档类别的分类器的系统、方法和计算机程序产品的背景下描述示例性方面。本领域的普通技术人员将认识到,以下描述仅是示例性的,并不意图以任何方式进行限制。受益于本专利技术的本领域技术人员将容易地想到其它方面。现在将详细介绍如附图中所示的示例性方面的实现方式。在整个附图和以下描述中尽可能使用相同的附图标记来指代相同或相似的项目。图1示出了用于训练被设计成用于确定文档类别的分类器的系统100。电子文档(以下称为文档)可以指包含图形信息和/或文本信息的任何计算机文件。这样的文件可以具有图形数据格式(JPEG、PNG、TIFF等)或电子文档格式(PDF、DOC、DOCX等)。本专利技术描述了用于构造确定文档类别的分类器的方法和系统。在一个示例性方面中,考虑可能包含个人数据、机密数据或任何其它表示值的数据的文档。某些文档可已被预先分配类别,表征它们属于现有的纸质文件(护照、驾驶执照、出生证明等)。例如,可以由分析员、用户或计算机系统分配文档的类别。在一个示例性方面中,使用分析模块110来获取属于特定类别106的文档101。文档101被用作用于构建分类器140的训练样本。分类器140是用于确定任何给定文档的类别的分类模型。分析模块110可以获取单个文档101以构建分类器。然而,如果训练样本包含足够大量的文档101,则将显著提高分类的质量。对于接收到的每个文档101,分析模块110确定包含在文档101中的对象104,对象1本文档来自技高网...

【技术保护点】
1.一种用于训练用于确定文档类别的分类器的方法,包括以下步骤:通过硬件处理器获取属于第一类别的一个或多个文档作为分类器的训练样本;通过硬件处理器确定包含在所述一个或多个文档的每个文档中的对象;通过硬件处理器形成由所述对象构成的特征集;基于所述特征集,由硬件处理器通过选择分类模型并训练所述分类器来构建所述分类器;获取属于所述第一类别的另外的文档;使用所述分类器计算所述另外的文档的分类误差;以及当所述误差超过给定值时,获取属于所述第一类别或属于一个或多个新类别的第二组文档;否则,确定完成所述分类器。

【技术特征摘要】
2017.09.29 RU 2017133846;2017.10.18 US 62/573,807;1.一种用于训练用于确定文档类别的分类器的方法,包括以下步骤:通过硬件处理器获取属于第一类别的一个或多个文档作为分类器的训练样本;通过硬件处理器确定包含在所述一个或多个文档的每个文档中的对象;通过硬件处理器形成由所述对象构成的特征集;基于所述特征集,由硬件处理器通过选择分类模型并训练所述分类器来构建所述分类器;获取属于所述第一类别的另外的文档;使用所述分类器计算所述另外的文档的分类误差;以及当所述误差超过给定值时,获取属于所述第一类别或属于一个或多个新类别的第二组文档;否则,确定完成所述分类器。2.根据权利要求1所述的方法,还包括:对于每一个新类别重复前述步骤。3.根据权利要求1所述的方法,其中,所述分类误差包括所述一个或多个文档的错误分类的概率。4.根据权利要求1所述的方法,其中,所述对象包括图形元素和/或文本元素中的一个或多个元素。5.根据权利要求4所述的方法,其中,所述一个或多个图形元素和/或文本元素包括以下中的一者或多者:人脸的图像、脸部照片的框架、国家的印章和/或旗帜、邮票、标准字或整个文档。6.根据权利要求1所述的方法,还包括:对所述一个或多个文档进行初步处理,所述初步处理包括以下中的一者或多者:将文件分解成所述一个或多个文档中的每个文档;以及修正在所述一个或多个文档中检测到的失真。7.根据权利要求1所述的方法,其中,所述特征集包括以下中的一者或多者:在所述一个或多个文档的每个文档中的对象的存在、对象的位置、对象的数量、在文档中的各个对象之间的关系、对象的尺寸、对象的倾斜角度、对象的失真的存在。8.根据权利要求7所述的方法,其中,所述特征集还包括以下中的一者或多者:对象的颜色的直方图、对象的元数据、由特定特征统一的一组对象、相同对象的数量、对象的颜色的直方图与指定的图案的一致性、指定的对象的组合与彼此布置的图案的一致性、对象的颜色的直方图的傅里叶变换以及对象的图像中的失真类型。9.一种用于训练用于确定文档类别的分类器的系统,包括:分析模块,所述分析模块被配置为:获取属于第一类别的一个或多个文档作为分类器的训练样本;以及确定包含在所述一个或多个文档的每个文档中的对象;特征形成模块,所述特征形成模块被配置为形成由所述对象构成的特征集;分类器构建模块,所述分类器构建模块被配置为基于所述特征集,通过选择分类模型并训练所述分类器来构建所述分类器;以及其中,所述分析模块还被配置为:获取属于所述第一类别的另...

【专利技术属性】
技术研发人员:德米特里·S·多洛戈伊亚历山大·V·沙罗夫亚历山大·A·图佐夫斯基伊利亚·A·捷列先科
申请(专利权)人:卡巴斯基实验室股份制公司
类型:发明
国别省市:俄罗斯,RU

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1