用于文档理解的数据增强的系统和方法技术方案

技术编号：31094750 阅读：35 留言：0更新日期：2021-12-01 13:03

一种系统、方法和用于执行数据增强的方法的计算设备被公开，数据增强用于允许多个文档的文档分类。该系统、方法和计算设备包括：处理器，被配置为将文档转换成图像；存储器，被配置为存储图像；处理器被配置为：获得用于被包括在文档中的每个页面的矢量表示；处理器被配置为：基于相似性从图像创建群集，其中群集中的每个群集代表不同的页面格式；处理器被配置为：从每个群集选择一个图像；处理器被配置为：编译从每个群集选择的一个图像，以创建逻辑上完整的文档；存储器被配置为存储逻辑上完整的文档；以及处理器被配置为基于完整的文档来训练分类。练分类。练分类。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于文档理解的数据增强的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求2020年3月23日提交的美国申请No.16/827,189的权益，该申请的内容通过引用并入本文。

[0003]本专利技术涉及文档理解的领域，并且更具体地涉及用于针对机器学习模型来创建训练集的数据增强(data augmentation)技术，以分类文档用于进一步处理。

技术介绍

[0004]数据增强技术使从业者能够显著地增加可用于训练模型的数据的多样性。在许多情况下，数据增强涉及从现有样本中合成较新的样本。在图像的情况下，存在众所周知的由定位(例如，诸如比例缩放、裁剪和旋转)和颜色(例如，诸如亮度、对比度和色相)来创建样本图像的方式。针对非结构化的文本，例如针对文档和电子邮件，存在数据增强技术，诸如利用用词的同义词来替换该用词、使用包括例如Word2vec、Glove和Fasttext的用词嵌入来改写句子。当样本集很大时，这些数据增强示例可以被使用。然而，在半结构化的(例如，可变结构化的形式)文档和固定结构(例如，固定...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于允许多个文档的文档分类的数据增强的方法，所述方法包括：将所述多个文档转换成图像；获得用于被包括在所述多个文档中的每个页面的矢量表示；基于相似性从所述图像创建多个群集，其中所述多个群集中的每个群集代表不同的页面格式；从所述多个群集中的每个群集选择一个图像；编译从所述多个群集中的每个群集选择的所述一个图像，以创建逻辑上完整的文档；以及基于所述完整的文档来训练所述分类。2.根据权利要求1所述的方法，其中从每个群集选择一个图像确保每个格式被用于训练所述模型。3.根据权利要求1所述的方法，其中创建多个群集从所述矢量发生，以标识不同的页面格式。4.根据权利要求1所述的方法，其中所述图像和矢量表示使用预先训练的图像模型而被获得。5.根据权利要求所述的方法，其中经训练的所述模型包括VGG和RESNET中的至少一个。6.根据权利要求1所述的方法，其中通过被称为主分量分析(PCA)的ML技术或提供页面的大量维度的基于正常VGG的群集以降低维数，所述群集被形成。7.根据权利要求6所述的方法，其中所述维度为6。8.根据权利要求6所述的方法，其中使用PCA将所述多维信息编码成较少的简洁维度。9.根据权利要求6所述的方法，其中所述维度为4
‑
10个维度。10.根据权利要求1所述的方法，其中最适合所述图像特征的群集(k)的总数目被获得。11.根据权利要求10所述的方法，其中通过执行图像的所述群集，k的值被获得，并且所述k的值从2变化到10。12.根据权利要求10所述的方法，其中k值能够使用ELBOW方法和SILHOUETTE索引以最小的误差和...

【专利技术属性】
技术研发人员：R，
申请(专利权)人：尤帕斯公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人