具有集成照相机的移动通信设备被定向到文本。实时地分析视频流来检测各视频帧的指定区域中的一个或多个单词,并在显示器上指示所检测的单词。用户可以选择视频流中的单词,并且然后移动或扩展初始选择。因此,选择多个单词是可能的。视频帧的包括所检测到的单词的子区域在被发送到可以集成在诸如在线搜索服务等在线服务中的远程光学字符识别(OCR)功能之前被预处理和压缩。
【技术实现步骤摘要】
【国外来华专利技术】
本说明书一般涉及使用数字照相机来在移动通信设备上检测文本。扭旦 冃足诸如移动电话和个人数字助理(PDA)等移动通信设备因缺少良好的 文本输入界面而蒙受损害,这限制了许多应用程序在这样的设备上的可用 性。例如,考虑使用移动电话来浏览因特网;因为移动电话上通常可用的 键的数量少且尺寸小,所以用户难以手动地输入搜索串和HTTP地址。用于在这样的移动通信设备上输入文本的其它方式涉及在触摸屏上使 用指示笔。然而,这要求提供昂贵的触摸屏,并且因为指示笔的小尺寸和 移动设备上的显示屏的小尺寸,所以其通常难以使用。另外,任何基于指 示笔的用户交互都要求同时使用双手。因此,移动电话和其它手持式通信 设备通常不具有触摸屏。釆取笔的形式并通过在打印的文本上移动扫描仪的尖端来捕捉单词的 扫描仪设备也是已知的。然而,这些设备是通过电缆装置连接到固定计算 机的并且因而不适于与移动通信设备一起使用。笔扫描仪未与计算机集成, 所以可能很容易地放错地方。同样,笔扫描仪与移动电话相比不是可广泛 获得的。概述下面提供本专利技术的简化概要以便为读者提供基本的理解。本概要不是 本专利技术的详尽概观,并且既不标识本专利技术的关键/决定性要素也不描绘本发 明的范围。其唯一目的是以简化形式提供在此公开一些概念作为稍后提供 的更详细描述的序言。具有集成照相机的移动通信设备被定向到文本以检测该文本的一些或 全部。实时地分析视频流来检测各视频帧的指定区域中的一个或多个单词,用户可以选择视频流中的单词,并且然 后移动或扩展初始选择。因此,选择多个单词是可能的。视频帧的包括所 检测到的单词的子区域在被发送到可以集成在诸如在线搜索服务等在线服 务中的远程光学字符识别(OCR)功能之前被预处理和压縮。许多附带特征将随着参考下面的详细描述并结合附图进行理解而得到 更好的认识。附图说明从结合附图的下列详细描述中将更好地理解本说明书,在附图中 图1是使用照相机来在移动通信设备上检测文本的方法的流程图2a到图2c示出经由照相机提供文本检测的移动通信设备上的示例 不意显不;图3是在手持式设备上从实况视频流中选择单词组的方法的流程图4是文本检测的方法的流程图5是自适应取阈值过程的流程图6是另一自适应取阈值过程的流程图7是示出所选单词的经延迟的移动的两个显示的示意图8是延迟文本选择的移动的方法的流程图9是被安排成从文本文档中检测文本并向通信网络传递关于所检测 到的文本的信息的移动通信设备的示意图; 图IO是移动通信设备的示意图。 附图中使用相同的附图标记来指代相同的部分。详细描述下面结合附图提供的详细描述旨在作为对本专利技术的示例的描述,而不 旨在表示用于构造或利用本专利技术的示例的唯一形式。本说明书阐述该示例 的功能以及用于构造和操作该示例的步骤序列。然而,相同或等价的功能 与序列可由不同的示例来实现。虽然此处将各示例描述并示出为在集成了光学字符识别(OCR)技术的在线搜索系统中实现,但是所描述的系统只是作为示例而非限制来提供 的。本领域的技术人员将会认识到,本专利技术的示例适于在各种不同类型的 文本检测系统中应用。并非必须向在线服务发送所检测到的文本。同样, 如果提供,则任何OCR技术可以与任何在线服务或要使用的其它服务分开。图1是使用照相机来在移动通信设备上检测文本的方法的流程图。激 活移动通信设备上的照相机应用程序(框10)以使得该照相机所査看的场 景的视频流显示在该移动通信设备的显示器上。照相机还可任选地被安排 成在显示屏幕的指定位置(如显示屏幕的中心)处显示十字准线或其它标 记(框ll)。该十字准线或标记在一些示例中被用来指示定义的指定显示 区域。该定义的指定显示区域是要在其中检测文本的视频帧或图像的区域。 该十字准线或标记例如通过总是靠近或在该指定的显示区域内,以与该指 定的显示区域相关联。将照相机的视野定向到要求从中检测一个或多个单词的文本(其可以 是打印的或手写的或以任何其它形式提供的)(框12)。文本本身可以存 在于任何合适的介质上,如纸张、电子显示器、建筑物、物体、衣物、机 械显示器、投影的图像或其它介质。自动地强调指定的显示区域中的任何 单词的图像(框13)。例如,该单词在显示器上被加亮、划出轮廓、加下 划线、加阴影或以某种方式标记。所发生的检测图像的包含单词的子区域并对其进行强调的处理可以在进行中(on-the-fly—)发生。以此方式,有可 能对用户所进行的照相机的移动做出反应,以使得所检测到的文本适当地 对应于用户将照相机定向到的文本。通过实时地进行视频流的实况处理, 文本检测框能够平稳地逐字移动而非以分散注意且不愉快的方式在视频帧 之间"跳跃"。如果所强调的单词是所需要的,则用户进行输入(框14)。随后冻结 当前视频帧并作为静止图像来显示(框15)。用户随后可任选地通过进行 用户输入来在静止图像上改变或扩展文本选择16。这使得在用户处于选择 单词的过程中的同时向他们给出反馈,并改进系统的可用性。随后预处理 并压縮包括所选文本的所选图像子集并将其发送到在线服务或与该移动通 信设备通信的任何合适的处理器(框17)。例如,在线服务是基于web的搜索引擎、字典、翻译工具、数据库或其它服务。在线服务包括从图像子集中提取文本的光学字符识别(OCR)技术,并能够使用OCR过程的结果 来启动诸如在线搜索等服务(框18)。搜索结果随后可被发送回移动通信 设备并显示给用户(框19)。例如,浏览器在该移动通信设备上启动并显 示在线服务的结果(框20)。以此方式,光学字符识别可以使用独立于移动通信设备的资源来提供。 这使移动通信设备的通常十分有限的资源能够用于其它用途。同样,该方 法能够与视频流一起使用,因为文本在当前视频帧上被快速检测并强调。 随着视频帧改变,所强调的文本也可取决于照相机相对于照相机视野中的 文本的任何移动而改变。用户具有在接收到视频流时改变和/或扩展所选文 本的选项。这使用户能够以简单和易于使用的方式获得对选择哪一文本的 更大的控制。 一旦用户对选择满意,则可以在静止图像上执行该选择的预 处理和压縮。这提供了比在存在流视频的情况下更多的用于执行这些过程 的时间。预处理和压縮使得信息能够以高效和稳健的方式传递到OCR能力。通过以此方式使用移动通信设备检测文本,将显示文本的真实对象链 接到在线或其它服务是可能的。因为此处的环境中的许多对象已经显示文 本,所以这提供一种更全面地利用该信息而无需更改此处的环境中的对象 的方式。图2a-c示出经由照相机提供文本检测的移动通信设备上的示例示意显 示。在图2a中,示出了移动电话照相机的显示屏幕,其呈现示出打印的文 档的一部分的图像的视频流的帧。如上所述,十字准线20在显示器上示出。 单词"the"位于十字准线20下,并如图所示被划出轮廓21。单词"the" 被检测到但未被移动通信设备识别,因为该移动通信设备上未提供光学字 符识别设施。并非识别单词,而是确定单词的位置和轮廓。图2b示出对应 于图2a的视频帧的静止图像。在此,不存在十字准线并且这可以向用户指 示该图像是静止图像。图2c示出图2b的静止图像,但具有已被手动扩展 以包括两个单词"the function"的所选文本22。频流示出照相机所査看的场景,并且其本文档来自技高网...
【技术保护点】
一种方法,包括: (i)在与移动通信设备(91)相关联的照相机(40)处接收至少一个图像,所述图像包括文本; (ii)在所述图像中定义指定显示区域; (iii)检测所述指定显示区域中的所述图像的包括单词的子区域(70),所 述检测子区域的过程包括使用第一取阈值过程; (iv)在所述移动通信设备上显示所接收到的图像并在所述图像的显示上指示所检测到的子区域; (v)将第二取阈值过程应用于所检测到的子区域来产生经处理的子区域,所述第二取阈值过程与所述第一 取阈值过程不同; (vi)将关于所述经处理的子区域的信息发送到包括光学字符识别功能的远程实体(93)。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:F西格蒙德,
申请(专利权)人:微软公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。