模型独立置信度值预测机器学习模型制造技术

技术编号：35555812 阅读：27 留言：0更新日期：2022-11-12 15:37

在示例实施例中，对从文档中提取的信息的预测标签(来自第一模型)计算置信度分数。置信度分数是使用不同于第一模型的基于滑动窗口方法的机器学习模型计算的。滑动窗口方法可以基于卷积神经网络分类，使用滑动窗口。其接收(1)从独立的先前信息提取步骤提取的信息的字符串(“输入文本”)、(2)字符串的预测类别标签、(3)字符串在文档中的坐标位置，以及(4)文档的文本(用于附加上下文信息)作为输入。滑动窗口方法的任务是预测置信度分数以确定给定输入的正确性。的正确性。的正确性。

全部详细技术资料下载

【技术实现步骤摘要】
模型独立置信度值预测机器学习模型
[0001]对相关申请的交叉引用
[0002]本申请要求2021年5月11日提交的第63/187,047号美国临时申请的权益，其全部内容通过引用被合并于此。

技术介绍

[0003]从文档中提取信息是可以由许多不同类型的模型执行的处理，从先进的深度学习机器学习模型到使用规则的更简单的模式匹配处理。这些模型输出它们认为文档中特定单词/短语是什么的预测，这表明其含义或目的。换句话说，它们为提取的数据输出预测标签。
附图说明
[0004]本公开以示例的方式说明，而不是限制在附图中的图中，附图中类似的附图标记表示相似的元件。
[0005]图1是图示使用滑动窗口机器学习模型的示例系统的框图。
[0006]图2是图示示出边界框的示例屏幕截图的示图。
[0007]图3是图示示例卷积神经网络和全连接层架构的框图。
[0008]图4是图示预期输入和滑动窗口输出的示例的示图。
[0009]图5是图示使用机器学习算法训练滑动比例机器学习模型的示例方法的流程图。
[0010]图6是图示使用滑动比例机器学习模型的示例方法的流程图。
[0011]图7是图示能够安装在上述任何一个或多个设备上的示例软件架构的框图。
[0012]图8图示了计算机系统形式的机器的图解表示，在该计算机系统中，可以执行指令集，以使机器执行本文讨论的任何一个或多个方法。
具体实施方式
[0013]下面的描述讨论了说明性系统、方法、技术、指令序列和计算机程序产...

【技术保护点】

【技术特征摘要】
1.一种系统，包括：至少一个硬件处理器；以及计算机可读介质，存储指令，当所述指令由至少一个硬件处理器执行时，使至少一个硬件处理器执行操作，包括：访问一个或多个样本文档，以及一个或多个样本文档中的一个或多个数据段，每个数据段被分配了标签；对于一个或多个数据段中的每一个：在一个或多个样本文档中确定样本文档内的该数据段的几何位置；标识一个或多个相邻数据段，每个相邻数据段在几何上位于样本文档内的该数据段附近，一个或多个相邻数据段中的每一个具有标签；为该数据段和一个或多个相邻数据段中的每一个生成嵌入；和通过组合数据段的嵌入、数据段的几何位置、数据段的标签，以及对于每个相邻数据段，组合相邻数据段的嵌入、相邻数据段的几何位置和相邻数据段的标签，为一个或多个数据段创建样本输入序列；以及通过将一个或多个数据段中的每一个的样本输入序列输入机器学习算法，训练滑动窗口机器学习模型输出置信度分数。2.根据权利要求1所述的系统，其中，机器学习算法是卷积神经网络和全连接层架构。3.根据权利要求1所述的系统，其中，卷积神经网络具有多个不同滤波器宽度的平行一维卷积层。4.根据权利要求3所述的系统，其中，每个滤波器宽度与不同的n
‑
gram宽度相对应。5.根据权利要求3所述的系统，其中，卷积神经网络具有最大池层。6.根据权利要求1所述的系统，其中，训练使用多标签分类任务。7.根据权利要求1所述的系统，其中，每个标签表示不同类别的数据。8.根据权利要求1所述的系统，其中，数据段和标签的每个组合构成训练样本，并且其中，一些训练样本是正训练样本，并且一些训练样本是负训练样本。9.根据权利要求8所述的系统，其中，操作还包括确定是否已达到正训练样本与负训练样本的预定比率，如果未达到，则自动生成负训练样本以达到预定比率。10.根据权利要求9所述的系统，其中，通过获取缺少标签的数据段并随机分配标签，自动生成负训练样本。11.一种方法，包括：访问一个或多个样本文档，以及一个或多个样本文档中的一个或多个数据段，每个数据段被分配了标签；对于一个或多个数据段中的每一个：在一个或多个样本文档中确定样本文档内的该数据段的几何位置；标识一个或多个相邻数据段，每个相邻数据段在几何上位于样本文档内的该数据段附近，一个或多个相邻数据段中的每一个具有标签；为该数据段...

【专利技术属性】
技术研发人员：N拉克曼柏迪瓦，A斯特雷尔特索夫，C赖斯威格，
申请(专利权)人：SAP欧洲公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人