基于机器学习的多页扫描制造技术

技术编号：39500771 阅读：12 留言：0更新日期：2023-11-24 11:31

提供了用于基于机器学习的多页扫描的系统和方法。在一个实施例中，一个或多个处理设备执行操作，该操作包括：接收视频流，该视频流包括图像帧，图像帧捕获文档的多个页面。该操作还包括：经由机器学习模型检测新页面事件，该机器学习模型经训练以从视频流检测推断事件。新页面事件的检测指示多个页面中的可用于扫描的页面已从第一页面改变为第二页面。基于对新页面事件的检测，一个或多个处理设备从视频流捕获页面的图像帧。在一些实施例中，机器学习模型基于视频数据、惯性数据、音频样本、图像深度信息、图像统计、和/或其它信息的加权使用来检测事件。用来检测事件。用来检测事件。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习的多页扫描

技术介绍

[0001]用于手持计算设备(例如智能手机和平板电脑)的文档扫描应用已经变得日益普及，并且结合了诸如自动边界检测、文档清理和光学字符识别(OCR)的先进特征。这种扫描应用允许用户使用许多用户已经可以方便地随身携带的设备，从任何位置生成高质量的文档数字副本。此外，重要文件的数字副本可以在它们丢失或损坏之前产生并迅速存储到例如云数据存储系统中。对于许多用户来说，这些扫描技术消除了对昂贵且笨重的传统扫描仪的需求。

技术实现思路

[0002]本公开部分地涉及用于使用机器学习的多页扫描的改进的系统和方法，基本上如结合至少一个附图所示和/或所述，并且如权利要求书中更完整地阐述。
[0003]本公开中呈现的实施例尤其提供了针对为手持用户设备提供多页扫描应用的问题的技术解决方案。利用本文描述的实施例，手持用户设备自动扫描多页文档的多个页面以产生多页文档文件，同时用户连续地翻转多页文档的页面。扫描应用观察实况视频流并使用经训练的机器学习模型来将从视频流捕获的图像帧分类为特定事件的集合(例如，新页面事件和页面捕获事件)中的一者。机器学习模型识别新页面事件，该新页面事件指示用户何时翻转到新文档页面或以其他方式将新页面放置在用户设备的相机的视图内。机器学习模型还识别页面捕获事件，该页面捕获事件指示来自视频流的图像帧何时具有无阻碍的清晰图像。基于来自机器学习模型的新页面事件和页面捕获事件的交替指示，当用户从一个页面转到下一页面时，多页扫描应用从视频流捕获针对多页文档的每个页面的图像帧。在一些实施例中，多页扫描应...

【技术保护点】

【技术特征摘要】
1.一种系统，包括：存储器组件；以及一个或多个处理设备，被耦合到所述存储器组件，所述一个或多个处理设备执行操作，所述操作包括：接收视频流，其中所述视频流包括图像帧，所述图像帧捕获文档的多个页面；经由被训练以从所述视频流推断事件的机器学习模型来检测新页面事件，其中所述新页面事件指示所述多个页面中的可用于扫描的页面已从第一页面改变为第二页面；以及基于对所述新页面事件的所述检测，从所述视频流捕获所述页面的图像帧。2.根据权利要求1所述的系统，还包括：经由所述机器学习模型检测页面捕获事件，其中所述页面捕获事件指示来自所述图像帧的至少一个图像包括所述页面的稳定图像；其中从所述视频流捕获所述页面的所述图像帧基于所述新页面事件和所述页面捕获事件的所述检测。3.根据权利要求1所述的系统，还包括：从用户设备的一个或多个传感器接收传感器数据，其中所述机器学习模型被训练为基于所述传感器数据和所述视频流的加权组合来检测所述新页面事件。4.根据权利要求3所述的系统，其中所述一个或多个传感器包括以下至少一项：深度传感器；音频传感器；或者惯性测量传感器。5.根据权利要求1所述的系统，其中所述新页面事件由所述机器学习模型基于所述视频流的多个帧来确定。6.根据权利要求1所述的系统，所述方法还包括：处理由所述机器学习模型从至少第一图像帧计算的浮点值向量，以从第二图像帧检测事件。7.根据权利要求1所述的系统，其中所述机器学习模型至少部分地利用从文档边界检测模型和手部检测模型中的一者或两者产生的训练数据而被训练，其中所述文档边界检测模型和所述手部检测模型从基准真值训练数据计算所述训练数据。8.根据权利要求1所述的系统，其中所述机器学习模型至少部分地利用训练数据而被训练，所述训练数据包括以下一项或多项：音频样本、页面深度数据、以及惯性测量数据。9.根据权利要求1所述的系统，其中所述机器学习模型响应于从所述视频流检测到页面从所述第一页面到所述第二页面的翻转、或者从所述视频流检测到视图从所述第一页面到所述第二页面的改变，而生成所述新页面事件的指示。10.一种存储可执行指令的非暂态计算机可读介质，所述可执行指令在由处理设备执行时使所述处理设备执行操作，所述操作包括：从用户设备的一个或多个传感器接收传感器数据；由机器学习模型基于所述传感器数据检测新页面事件，其中所述新页面事件的检测指示所述多个页面中的可用于扫描的页面已从第一页面改变为第二页面；以及基于对所述新页面...

【专利技术属性】
技术研发人员：孙彤，N，
申请(专利权)人：奥多比公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人