当前位置: 首页 > 专利查询>SAP欧洲公司专利>正文

模型独立置信度值预测机器学习模型制造技术

技术编号:35555812 阅读:27 留言:0更新日期:2022-11-12 15:37
在示例实施例中,对从文档中提取的信息的预测标签(来自第一模型)计算置信度分数。置信度分数是使用不同于第一模型的基于滑动窗口方法的机器学习模型计算的。滑动窗口方法可以基于卷积神经网络分类,使用滑动窗口。其接收(1)从独立的先前信息提取步骤提取的信息的字符串(“输入文本”)、(2)字符串的预测类别标签、(3)字符串在文档中的坐标位置,以及(4)文档的文本(用于附加上下文信息)作为输入。滑动窗口方法的任务是预测置信度分数以确定给定输入的正确性。的正确性。的正确性。

【技术实现步骤摘要】
模型独立置信度值预测机器学习模型
[0001]对相关申请的交叉引用
[0002]本申请要求2021年5月11日提交的第63/187,047号美国临时申请的权益,其全部内容通过引用被合并于此。

技术介绍

[0003]从文档中提取信息是可以由许多不同类型的模型执行的处理,从先进的深度学习机器学习模型到使用规则的更简单的模式匹配处理。这些模型输出它们认为文档中特定单词/短语是什么的预测,这表明其含义或目的。换句话说,它们为提取的数据输出预测标签。
附图说明
[0004]本公开以示例的方式说明,而不是限制在附图中的图中,附图中类似的附图标记表示相似的元件。
[0005]图1是图示使用滑动窗口机器学习模型的示例系统的框图。
[0006]图2是图示示出边界框的示例屏幕截图的示图。
[0007]图3是图示示例卷积神经网络和全连接层架构的框图。
[0008]图4是图示预期输入和滑动窗口输出的示例的示图。
[0009]图5是图示使用机器学习算法训练滑动比例机器学习模型的示例方法的流程图。
[0010]图6是图示使用滑动比例机器学习模型的示例方法的流程图。
[0011]图7是图示能够安装在上述任何一个或多个设备上的示例软件架构的框图。
[0012]图8图示了计算机系统形式的机器的图解表示,在该计算机系统中,可以执行指令集,以使机器执行本文讨论的任何一个或多个方法。
具体实施方式
[0013]下面的描述讨论了说明性系统、方法、技术、指令序列和计算机程序产品。在以下描述中,出于解释的目的,阐述了许多具体细节,以便提供对本主题的各种示例实施例的理解。然而,对于本领域的技术人员来说显而易见的是,可以在没有这些具体细节的情况下实施本主题的各种示例实施例。
[0014]许多机器学习模型无法输出指示预测可靠性的置信度分数,而输出置信度分数的模型可能不会输出可靠的置信度分数。结果是很难使用提取的信息执行任何类型的自动化。因此,人类必须继续成为工作流循环的一部分,仔细检查模型对提取字段的预测是否正确。增加这个问题的事实是,通常可以使用多个不同的模型进行提取,诸如使用不同的模型提取不同的字段。
[0015]此外,当使用多个模型进行与从文档中提取信息相关的预测时,可能难以获得可靠的单一置信度分数。解决这个问题的一种技术是利用独立的置信度评分模型,该模型使用去噪自动编码器类型的网络,例如,基于二维chargrid表示。然而,这样的置信度评分模型相对较大,需要较长的推理和训练时间。
[0016]在示例实施例中,使用更小、轻量级且快速的方法为提取的信息的预测标签计算置信度分数。此方法称为滑动窗口方法。
[0017]在示例实施例中,滑动窗口方法基于卷积神经网络分类,使用滑动窗口。它接收(1)从独立的先前信息提取步骤提取的信息的字符串(“输入文本”)、(2)字符串的预测类别标签、(3)字符串在文档中的坐标位置,以及(4)文档的文本(用于附加上下文信息)作为输入。滑动窗口方法的任务是预测置信度分数以确定给定输入的正确性。
[0018]图1是图示根据示例实施例的用于使用滑动窗口机器学习模型的系统100的框图。输入转换组件102从独立模型(无论是机器学习的还是基于规则的)获得提取的文本段104。例如,该提取的文本段可以是,例如,文档字段中的文本。然后,滑动窗口提取器106额外提取原始文档中与提取的文本段104相邻的文本的滑动窗口。该提取的滑动窗口可以被称为“相邻单词”108。应当注意,虽然在一些实施例中,滑动窗口提取器106可以从包含提取的文本段104的原始文档执行该提取,但是滑动窗口提取器106也可以仅对原始文档的一部分执行相同的技术。
[0019]在示例实施例中,滑动窗口提取器106可以通过选择在空间上与输入文本分隔至多一段距离的相邻单词或字符来执行其提取,实质上围绕提取的文本段104创建边界框。垂直方向上的距离可以不同于水平方向上的距离,使此边框成为矩形,但不必须使用此形状。在其他示例实施例中,边界框可以是正方形、圆形、椭圆形或任何其他几何形状。然后,如何指定边界框可以基于几何形状(例如,可以使用半径指定圆形,使用长度和宽度指定矩形等)。
[0020]图2是图示根据示例实施例的示出边界框200的屏幕截图的示图。能够看出,提取的文本段202被矩形边界框204包围。值得注意的是,独立模型已经预测了提取的文本段202是采购订单(PO)编号。完全出现在边界框内的单词被视为与提取的文本段202相邻的单词,而完全出现在边界框外的单词不被视为与提取的文本段202相邻的单词。如何处理部分位于边界框内、部分位于边界框外的单词(诸如图2中的“Universal”)是特定于实现的。在一些实施例中,部分单词根本不算作相邻单词(即,单词的100%必须在边界框内才能被视为相邻单词),而在其他实施例中,如果在边界框内的单词百分比达到或超过某个阈值,则部分单词将被视为相邻单词(例如,单词的50%必须在边界框内才被视为相邻单词)。
[0021]回到图1,然后输入转换组件102获取提取的文本段104、相邻单词108以及提取的文本段104和相邻单词108的预测标签,并从它们形成级联转换输入110。相邻单词的预测标签可以来自与提取的文本段104的预测标签相同的模型,或者可以来自一个或多个不同的模型。事实上,不同的相邻单词可以具有来自不同模型的预测标签。级联转换输入110是向量序列,每个向量与提取的文本段104或相邻单词中的一个的不同字符相对应。序列可以从提取的文本段104的向量开始,然后紧跟着是相邻单词的向量。每个向量可以包括字符嵌入112、坐标114和预测标签116。
[0022]字符嵌入112可以使用多种不同类型的字符嵌入处理中的一种来构造。在一个示例实施例中,利用了一个热编码处理。一个热编码是使用字符的分类将一个令牌(诸如字符)转换为唯一的整数索引,然后将该整数索引转换为大小为N(N是字符词汇表的大小)的二进制向量的处理。除了第i个条目可以为1之外,二进制向量都是零。这就是为什么它被称为“一个热(one hot)”,因为其中一个位是热的(1),而其他位是冷的(0)。也可以使用一种
称为“一个冷(one

cold)”的类似实现,其中一个位是冷的(0),而其他位是热的(1),与产生字符/分类组合的唯一向量表示的任何数量的其他处理一样。
[0023]坐标是文档中字符的(几何)坐标。这些坐标的表示方式取决于文档几何图形的表示方式。有些文档可以使用其中每个字符或字符的空格都表示为单个坐标的系统来表示,而其他文档可以由其中每个字符或字符的空格表示为可能的多个坐标的系统来表示(例如,其中文档中的每个像素被分配不同的坐标并且每个字符包括多个像素)。在后一种情况下的系统中,字符的坐标可以表示为表示字符的角的序列(例如,四个坐标,每个坐标表示包围字符的矩形的不同角),或者可以表示为表示字符的“中心”的单个坐标(即,恰好在字符的水平边缘之间并且恰好在字符的垂直本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统,包括:至少一个硬件处理器;以及计算机可读介质,存储指令,当所述指令由至少一个硬件处理器执行时,使至少一个硬件处理器执行操作,包括:访问一个或多个样本文档,以及一个或多个样本文档中的一个或多个数据段,每个数据段被分配了标签;对于一个或多个数据段中的每一个:在一个或多个样本文档中确定样本文档内的该数据段的几何位置;标识一个或多个相邻数据段,每个相邻数据段在几何上位于样本文档内的该数据段附近,一个或多个相邻数据段中的每一个具有标签;为该数据段和一个或多个相邻数据段中的每一个生成嵌入;和通过组合数据段的嵌入、数据段的几何位置、数据段的标签,以及对于每个相邻数据段,组合相邻数据段的嵌入、相邻数据段的几何位置和相邻数据段的标签,为一个或多个数据段创建样本输入序列;以及通过将一个或多个数据段中的每一个的样本输入序列输入机器学习算法,训练滑动窗口机器学习模型输出置信度分数。2.根据权利要求1所述的系统,其中,机器学习算法是卷积神经网络和全连接层架构。3.根据权利要求1所述的系统,其中,卷积神经网络具有多个不同滤波器宽度的平行一维卷积层。4.根据权利要求3所述的系统,其中,每个滤波器宽度与不同的n

gram宽度相对应。5.根据权利要求3所述的系统,其中,卷积神经网络具有最大池层。6.根据权利要求1所述的系统,其中,训练使用多标签分类任务。7.根据权利要求1所述的系统,其中,每个标签表示不同类别的数据。8.根据权利要求1所述的系统,其中,数据段和标签的每个组合构成训练样本,并且其中,一些训练样本是正训练样本,并且一些训练样本是负训练样本。9.根据权利要求8所述的系统,其中,操作还包括确定是否已达到正训练样本与负训练样本的预定比率,如果未达到,则自动生成负训练样本以达到预定比率。10.根据权利要求9所述的系统,其中,通过获取缺少标签的数据段并随机分配标签,自动生成负训练样本。11.一种方法,包括:访问一个或多个样本文档,以及一个或多个样本文档中的一个或多个数据段,每个数据段被分配了标签;对于一个或多个数据段中的每一个:在一个或多个样本文档中确定样本文档内的该数据段的几何位置;标识一个或多个相邻数据段,每个相邻数据段在几何上位于样本文档内的该数据段附近,一个或多个相邻数据段中的每一个具有标签;为该数据段...

【专利技术属性】
技术研发人员:N拉克曼柏迪瓦A斯特雷尔特索夫C赖斯威格
申请(专利权)人:SAP欧洲公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1