当前位置: 首页 > 专利查询>奥多比公司专利>正文

基于机器学习的多页扫描制造技术

技术编号:39500771 阅读:12 留言:0更新日期:2023-11-24 11:31
提供了用于基于机器学习的多页扫描的系统和方法。在一个实施例中,一个或多个处理设备执行操作,该操作包括:接收视频流,该视频流包括图像帧,图像帧捕获文档的多个页面。该操作还包括:经由机器学习模型检测新页面事件,该机器学习模型经训练以从视频流检测推断事件。新页面事件的检测指示多个页面中的可用于扫描的页面已从第一页面改变为第二页面。基于对新页面事件的检测,一个或多个处理设备从视频流捕获页面的图像帧。在一些实施例中,机器学习模型基于视频数据、惯性数据、音频样本、图像深度信息、图像统计、和/或其它信息的加权使用来检测事件。用来检测事件。用来检测事件。

【技术实现步骤摘要】
基于机器学习的多页扫描

技术介绍

[0001]用于手持计算设备(例如智能手机和平板电脑)的文档扫描应用已经变得日益普及,并且结合了诸如自动边界检测、文档清理和光学字符识别(OCR)的先进特征。这种扫描应用允许用户使用许多用户已经可以方便地随身携带的设备,从任何位置生成高质量的文档数字副本。此外,重要文件的数字副本可以在它们丢失或损坏之前产生并迅速存储到例如云数据存储系统中。对于许多用户来说,这些扫描技术消除了对昂贵且笨重的传统扫描仪的需求。

技术实现思路

[0002]本公开部分地涉及用于使用机器学习的多页扫描的改进的系统和方法,基本上如结合至少一个附图所示和/或所述,并且如权利要求书中更完整地阐述。
[0003]本公开中呈现的实施例尤其提供了针对为手持用户设备提供多页扫描应用的问题的技术解决方案。利用本文描述的实施例,手持用户设备自动扫描多页文档的多个页面以产生多页文档文件,同时用户连续地翻转多页文档的页面。扫描应用观察实况视频流并使用经训练的机器学习模型来将从视频流捕获的图像帧分类为特定事件的集合(例如,新页面事件和页面捕获事件)中的一者。机器学习模型识别新页面事件,该新页面事件指示用户何时翻转到新文档页面或以其他方式将新页面放置在用户设备的相机的视图内。机器学习模型还识别页面捕获事件,该页面捕获事件指示来自视频流的图像帧何时具有无阻碍的清晰图像。基于来自机器学习模型的新页面事件和页面捕获事件的交替指示,当用户从一个页面转到下一页面时,多页扫描应用从视频流捕获针对多页文档的每个页面的图像帧。在一些实施例中,多页扫描应用在用户设备上提供听觉或视觉反馈,当检测到页面翻转时和/或当捕获文档页时通知用户。本文所公开的机器学习模型技术比现有方法更有利,因为机器学习模型能够对多个传感器输入进行加权和平衡,以检测新页面事件并确定图像帧中的图像何时仍足够静止以进行捕获。例如,在一些实施例中,机器学习模型基于视频数据、惯性数据、音频样本、图像深度信息、图像统计和/或其它信息的加权使用将来自视频流的图像帧分类为事件。
附图说明
[0004]以下参考附图详细描述本公开中呈现的实施例,其中:
[0005]图1是示出根据本公开的实施例的操作环境的框图;
[0006]图2是示出根据本公开的实施例的示例多页扫描环境的框图;
[0007]图3是示出根据本公开的实施例的多页扫描过程的示例方面的示图;
[0008]图4A是示出根据本公开的实施例的事件检测模型操作的示例的示图;
[0009]图4B是示出根据本公开的实施例的事件检测模型操作的另一示例的示图;
[0010]图5是示出根据本公开的实施例的用于多页扫描的示例方法实施例的流程图;
[0011]图6是示出根据本公开的实施例的用于多页扫描应用的用户界面的示图;
[0012]图7是示出根据本公开的实施例的用于事件检测机器学习模型的训练的各方面的示图;
[0013]图8是示出根据本公开的实施例的用于事件检测机器学习模型的训练的各方面的示图;
[0014]图9是示出根据本公开的实施例的用于训练事件检测机器学习模型的示例方法实施例的流程图;
[0015]图10是示出根据本公开的实施例的示例计算环境的示图;以及
[0016]图11是示出根据本公开的实施例的示例基于云的计算环境的示图。
具体实施方式
[0017]在以下详细描述中,参考形成其一部分的附图,并且在附图中通过其中可实践实施例的特定说明性实施例示出。充分详细地描述这些实施例以使所属领域的技术人员能够实践所述实施例,且应了解,可利用其它实施例,且可在不脱离本专利技术的范围的情况下作出逻辑、机械和电改变。因此,下面的详细说明不是限制性的。相反,本专利技术人预期所要求保护的主题也可以以其它方式结合其它当前或未来的技术来实施,以包括与本文档中描述的步骤类似的不同步骤或步骤组合。此外,尽管术语“步骤”和“框”在本文中可用于表示所采用的方法的不同元素,但这些术语不应被解释为暗示本文所公开的各个步骤之中或之间的任何特定顺序,除非并且当明确描述各个步骤的顺序时除外。
[0018]当前用于智能电话的扫描应用需要用户和扫描应用之间耗时的交互。例如,当前的工作流可能需要用户在每次需要捕获文档页面时手动地指示应用,稳定地握住手持设备并等待应用捕获该页面,将文档转到下一页面,然后通知应用有另一页面要捕获。对用户希望扫描的文档的每个页面重复该循环。虽然一些现有的扫描应用提供自动捕获特征,该自动捕获特征在应用自动捕获文档时提示用户保持稳定,但是该特征通常在捕获页面之前花费几秒钟,并且不识别何时出现新页面。结果,使用扫描应用从多页文档捕获多页的过程可能是缓慢且冗长的,并且在利用用户设备的计算资源方面效率低下,因为等待用户输入固有地消耗了许多计算周期。
[0019]本专利技术的实施例尤其解决了与使用手持智能用户设备从多页文档中扫描多页相关联的问题。利用这些实施例,当用户设备上的扫描应用捕获视频流时,用户可以连续地翻转多页文档的页面。扫描应用观察实时视频流以决定何时页面被翻转以显示新页面,并且决定何时是从图像帧生成扫描文档页面的正确时间。扫描应用提供听觉或视觉反馈,通知用户何时可以前进到下一页。
[0020]在各实施例中,训练机器学习模型(例如,托管在便携式用户设备上)以将从视频流捕获的图像帧分类为特定事件集合中的一个事件。例如,机器学习模型识别一个或多个图像帧何时捕获新页面事件,新页面事件指示具有新内容的新页面可用于扫描。当图像帧具有足够清晰和无阻碍的图像以将该帧保存为扫描页面时,机器学习模型还标识为页面捕获事件。对于双面扫描,可以训练机器学习模型以识别不同形式的页面翻转。
[0021]有利地,本文公开的机器学习模型方法可以加权和平衡多个传感器输入以检测新页面事件和页面捕获事件。例如,在一些实施例中,除了捕获的图像帧之外,基于惯性数据、音频样本和/或图像深度信息的加权使用,机器学习模型将来自视频流的图像帧分类为事
件。在一些实施例中,机器学习模型能够完全使用设备上资源来识别和分类图像帧,并且能够被训练为仅需要最少训练数据的低参数模型。例如,结合机器学习模型使用文档边界检测和手部检测模型基本上最小化了所需的训练视频数据量。由于在等待手动用户输入时消耗了较少的计算周期,所以本文所呈现的实施例改进了计算资源利用。此外,通过将机器学习模型应用于视频流的技术创新,改善了用户设备完成扫描任务的总时间,因为将流分类为事件基本上消除了在每个页面与扫描应用的手动用户交互。
[0022]转到图1,图1描绘了其中可以采用本公开的一些实现的操作环境100的示例配置。应当理解,在此描述的这种和其它布置仅作为示例阐述。除了示出的布置和元件之外或者代替示出的布置和元件,可以使用其他布置和元件(例如,机器、接口、功能、顺序和功能分组等),并且为了清楚起见,可以完全省略一些元件。此外,本文描述的许多元件是功能实体,其可以被实现为分立的或分布式的组件或与其它组件结合,以及以任何合适的组合和位置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统,包括:存储器组件;以及一个或多个处理设备,被耦合到所述存储器组件,所述一个或多个处理设备执行操作,所述操作包括:接收视频流,其中所述视频流包括图像帧,所述图像帧捕获文档的多个页面;经由被训练以从所述视频流推断事件的机器学习模型来检测新页面事件,其中所述新页面事件指示所述多个页面中的可用于扫描的页面已从第一页面改变为第二页面;以及基于对所述新页面事件的所述检测,从所述视频流捕获所述页面的图像帧。2.根据权利要求1所述的系统,还包括:经由所述机器学习模型检测页面捕获事件,其中所述页面捕获事件指示来自所述图像帧的至少一个图像包括所述页面的稳定图像;其中从所述视频流捕获所述页面的所述图像帧基于所述新页面事件和所述页面捕获事件的所述检测。3.根据权利要求1所述的系统,还包括:从用户设备的一个或多个传感器接收传感器数据,其中所述机器学习模型被训练为基于所述传感器数据和所述视频流的加权组合来检测所述新页面事件。4.根据权利要求3所述的系统,其中所述一个或多个传感器包括以下至少一项:深度传感器;音频传感器;或者惯性测量传感器。5.根据权利要求1所述的系统,其中所述新页面事件由所述机器学习模型基于所述视频流的多个帧来确定。6.根据权利要求1所述的系统,所述方法还包括:处理由所述机器学习模型从至少第一图像帧计算的浮点值向量,以从第二图像帧检测事件。7.根据权利要求1所述的系统,其中所述机器学习模型至少部分地利用从文档边界检测模型和手部检测模型中的一者或两者产生的训练数据而被训练,其中所述文档边界检测模型和所述手部检测模型从基准真值训练数据计算所述训练数据。8.根据权利要求1所述的系统,其中所述机器学习模型至少部分地利用训练数据而被训练,所述训练数据包括以下一项或多项:音频样本、页面深度数据、以及惯性测量数据。9.根据权利要求1所述的系统,其中所述机器学习模型响应于从所述视频流检测到页面从所述第一页面到所述第二页面的翻转、或者从所述视频流检测到视图从所述第一页面到所述第二页面的改变,而生成所述新页面事件的指示。10.一种存储可执行指令的非暂态计算机可读介质,所述可执行指令在由处理设备执行时使所述处理设备执行操作,所述操作包括:从用户设备的一个或多个传感器接收传感器数据;由机器学习模型基于所述传感器数据检测新页面事件,其中所述新页面事件的检测指示所述多个页面中的可用于扫描的页面已从第一页面改变为第二页面;以及基于对所述新页面...

【专利技术属性】
技术研发人员:孙彤N
申请(专利权)人:奥多比公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1