The present invention relates to a method and system for training classifiers for determining document categories. In an exemplary aspect, the method includes: obtaining training samples of one or more documents belonging to the first category as classifiers; determining objects contained in each document of the one or more documents; forming a feature set composed of the objects through a hardware processor; and based on the feature set, training the classification by a hardware processor by selecting a classification model. The classifier constructs the classifier; obtains additional documents belonging to the first category; calculates the classification error of the other documents using the classifier; and obtains a second group of documents belonging to the first category or to one or more new categories when the error exceeds a given value; otherwise, determines the completion of the classifier.
【技术实现步骤摘要】
训练用于确定文档类别的分类器的系统和方法
本专利技术涉及防止信息泄露的领域,并且更具体地涉及训练用于确定文档类别的分类器的系统和方法。
技术介绍
与最近的网络攻击和信息窃取量的增加有关,数据泄露防护(DLP)系统正在变得越来越需要。DLP系统的主要任务之一是防止个人以及保密文档(诸如护照、出生证明、驾驶执照、保密协议等)的电子副本的泄露。机器学习技术已被广泛用于个人和保密文档的检测,特别是诸如模式识别技术以及光学字符识别(OCR)技术的机器学习技术。对于这些技术,将一组感兴趣的类别相似的文档放入分类器中,并且基于该组文档制定特征,然后利用这些特征将新文档分配到其中一个类别。然而,现有技术通常仅对于给定的一组文档类别证明了很好的分类质量。当添加新类别的文档时,必须在大量类似文档上再次进行分类器的训练。此外,如果不能给新文档分配任何类别,它可能仍然包含机密数据。而且,在大多数分类器的构建中,分析员对分类器的调节起着主要作用,但是通常这不会产生高质量的分类。因此,出现了难以构建确保高质量分类的分类器的技术问题。已知的技术不能解决所述的技术问题,因为在很多情况下,已知的技术不能够提供高质量的分类,特别是,已知的技术不能够对包含机密数据且不属于任何已知类别的文档进行分类,并且还有必要识别包含在文档中的文本以确定前述公开技术中的特征。
技术实现思路
本文公开了用于训练用于确定文档类别的分类器的方法和系统。在一个示例性方面中,提供了一种用于训练分类器的方法,该方法以下步骤:包括获取属于第一类别的一个或多个文档作为分类器的训练样本;确定包含在所述一个或多个文档的每个文档中的对 ...
【技术保护点】
1.一种用于训练用于确定文档类别的分类器的方法,包括以下步骤:通过硬件处理器获取属于第一类别的一个或多个文档作为分类器的训练样本;通过硬件处理器确定包含在所述一个或多个文档的每个文档中的对象;通过硬件处理器形成由所述对象构成的特征集;基于所述特征集,由硬件处理器通过选择分类模型并训练所述分类器来构建所述分类器;获取属于所述第一类别的另外的文档;使用所述分类器计算所述另外的文档的分类误差;以及当所述误差超过给定值时,获取属于所述第一类别或属于一个或多个新类别的第二组文档;否则,确定完成所述分类器。
【技术特征摘要】
2017.09.29 RU 2017133846;2017.10.18 US 62/573,807;1.一种用于训练用于确定文档类别的分类器的方法,包括以下步骤:通过硬件处理器获取属于第一类别的一个或多个文档作为分类器的训练样本;通过硬件处理器确定包含在所述一个或多个文档的每个文档中的对象;通过硬件处理器形成由所述对象构成的特征集;基于所述特征集,由硬件处理器通过选择分类模型并训练所述分类器来构建所述分类器;获取属于所述第一类别的另外的文档;使用所述分类器计算所述另外的文档的分类误差;以及当所述误差超过给定值时,获取属于所述第一类别或属于一个或多个新类别的第二组文档;否则,确定完成所述分类器。2.根据权利要求1所述的方法,还包括:对于每一个新类别重复前述步骤。3.根据权利要求1所述的方法,其中,所述分类误差包括所述一个或多个文档的错误分类的概率。4.根据权利要求1所述的方法,其中,所述对象包括图形元素和/或文本元素中的一个或多个元素。5.根据权利要求4所述的方法,其中,所述一个或多个图形元素和/或文本元素包括以下中的一者或多者:人脸的图像、脸部照片的框架、国家的印章和/或旗帜、邮票、标准字或整个文档。6.根据权利要求1所述的方法,还包括:对所述一个或多个文档进行初步处理,所述初步处理包括以下中的一者或多者:将文件分解成所述一个或多个文档中的每个文档;以及修正在所述一个或多个文档中检测到的失真。7.根据权利要求1所述的方法,其中,所述特征集包括以下中的一者或多者:在所述一个或多个文档的每个文档中的对象的存在、对象的位置、对象的数量、在文档中的各个对象之间的关系、对象的尺寸、对象的倾斜角度、对象的失真的存在。8.根据权利要求7所述的方法,其中,所述特征集还包括以下中的一者或多者:对象的颜色的直方图、对象的元数据、由特定特征统一的一组对象、相同对象的数量、对象的颜色的直方图与指定的图案的一致性、指定的对象的组合与彼此布置的图案的一致性、对象的颜色的直方图的傅里叶变换以及对象的图像中的失真类型。9.一种用于训练用于确定文档类别的分类器的系统,包括:分析模块,所述分析模块被配置为:获取属于第一类别的一个或多个文档作为分类器的训练样本;以及确定包含在所述一个或多个文档的每个文档中的对象;特征形成模块,所述特征形成模块被配置为形成由所述对象构成的特征集;分类器构建模块,所述分类器构建模块被配置为基于所述特征集,通过选择分类模型并训练所述分类器来构建所述分类器;以及其中,所述分析模块还被配置为:获取属于所述第一类别的另...
【专利技术属性】
技术研发人员:德米特里·S·多洛戈伊,亚历山大·V·沙罗夫,亚历山大·A·图佐夫斯基,伊利亚·A·捷列先科,
申请(专利权)人:卡巴斯基实验室股份制公司,
类型:发明
国别省市:俄罗斯,RU
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。