当前位置: 首页 > 专利查询>雪花公司专利>正文

生成用于文档提取的机器学习模型制造技术

技术编号:43007617 阅读:18 留言:0更新日期:2024-10-18 17:14
本申请涉及生成用于文档提取的机器学习模型。用于生成用于从一个或更多个电子文档中提取信息的机器学习(ML)模型的系统和方法,其中ML模型可以用作数据对象,该数据对象可以是数据库命令的一部分或者作为连续运行的文档信息提取过程(例如,文档信息提取管道)的一部分。

【技术实现步骤摘要】

本公开的实施例总体上涉及电子文档处理,更具体地说,涉及生成用于从一个或更多个电子文档中提取信息的机器学习(ml)模型,其中ml模型可以用作数据对象,其可以是数据库命令的一部分或者作为连续运行的文档信息提取过程(例如,文档信息提取管道)的一部分。


技术介绍

0、背景

1、个人使用各种类型的电子文档(本文也称为“文档”),包括扫描的手写文档、扫描的表格、大型文档(报告)、文字处理文档(例如,docx文档)、postscript文档(例如,pdf文档)等。此外,文档有时可能是图像的形式(例如,页面的图片)。给定的用户可能想要处理这些和其他文档类型,并使用文档过程,例如基于机器学习(ml)模型的过程,来从文档中提取数据点。例如,给定用户可以设置文档处理管道,该管道被配置为摄取(ingest)(例如,连续摄取)各种类型的多个文档,并且使用一个或更多个ml模型来处理每个文档,以提取给定用户感兴趣的数据点。


技术实现思路

【技术保护点】

1.一种系统,包括:

2.一种方法,包括:

3.一种计算机存储介质,其包括指令,所述指令在由机器的一个或更多个处理器执行时将所述机器配置成执行操作,所述操作包括:

【技术特征摘要】

1.一种系统,包括:

2.一种方法,包括:

3.一种计算机存储介质,其...

【专利技术属性】
技术研发人员:米哈尔·格达克甘尼香·拉马钱德兰·耶尔托马什·马利兹米科拉吉·尼德巴拉帕维尔·波拉克绍林·沙阿扬·托马什·托宾斯基达莉亚·维特斯卡
申请(专利权)人:雪花公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1