用于可视文本解释的电子装置和方法制造方法及图纸

技术编号:2928019 阅读:293 留言:0更新日期:2012-04-11 18:40
一种电子装置(700)捕获包括文本信息的图像(105、725),所述文本信息具有按捕获配置组织的捕获词汇。该电子装置在部分图像中执行光学字符识别(OCR)(110,730)用于形成按捕获配置组织的识别词汇集合。所述电子装置从多个领域中选择最可能领域(115,735),每个领域具有相关联的领域配置集合,每个领域配置包括特征结构和关系规则的集合。所述电子装置根据基本匹配该捕获配置的领域配置集合形成特征结构的结构化集合(120,740)。所述电子装置根据该特征结构的结构化集合,将所述识别词汇集合组织成结构化领域信息(125,745)。所述电子装置在专用于特定领域的应用程序(750-760)中使用结构化领域信息(130)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总体上涉及语言翻译的领域,以及更具体的说,涉及可视文本解释的领域。
技术介绍
包括摄像机的便携式电子设备日益流行,并且其他常规装置也包括扫描功能。光学字符识别(OCR)功能也变得家喻户晓,可以提供上述装置所捕获图像的文本解释。然而,当文本包括词汇列表或单个词汇时,在上述装置中由诸如语言翻译器或膳食指导(dietary guidance)工具之类的应用程序使用这种经“OCR”的文本可能是有缺陷的,并且上述装置显示的结果可能是不通行的翻译、错误的翻译或以难于理解的形式表示。之所以产生错误结果,是由于用户没有输入附加的信息,一两个词汇的短语很容易被应用程序错误解释。当输出格式与输入格式之间没有多少关系时,结果是难于理解的。附图说明本专利技术通过示例的形式说明,并且不局限于相应附图,在附图中,相同的附图标记表示相同的组件,以及其中图1是根据本专利技术某些实施例的在用于可视文本解释的电子装置中采用的方法的一些步骤的流程图;图2是根据本专利技术某些实施例的提供示例菜单片段的图像;图3是根据本专利技术某些实施例的示例性领域配置的框图;图4是根据本专利技术某些实施例的示例性结构化领域信息的框图;图5是根据本专利技术某些实施例,提供在电子装置的显示器上示例性翻译菜单片段的表示;图6是根据本专利技术某些实施例,提供在电子装置的显示器上示例性捕获菜单片段的表示;图7是根据本专利技术某些实施例,执行文本解释的电子装置的框图。本领域技术人员能理解,附图中的组件用于简单清楚的表示并不一定按比例描绘。例如,附图中某些部件的尺度相比于其他组件是夸大的,以利于帮助理解本专利技术实施例。具体实施例方式本专利技术简化了用户和用于可视文本解释的电子装置之间的交互并改进可视文本解释的质量。在详细描述根据本专利技术用于可视文本解释的特定装置和方法之前,应该理解本专利技术主要存在于涉及可视文本解释的方法步骤和装置部件的组合中。因此,以合适的方式在图中用常规符号表示装置组件和方法步骤,只表示那些有助于理解本专利技术的特定细节,从而不使那些本领域普通技术人员很容易理解的细节妨碍对本说明的理解。在本文档中,诸如第一和第二、顶(部)和底(部)等的相关术语只用于区别一个实体或操作与另一个实体或操作而要求或隐含所述实体和操作之间的任何实际关系或顺序。术语“包含”、“包括”或其任何其他变化用于覆盖非排他的包括,因此包括组件列表的处理、方法、项目或设备不是只包括那些组件,而是还可包括没有明显列出的或所述处理、方法、项目或设备固有的那些组件。在“包括”之后列出的组件并不是仅限于此,并不排除包括组件的处理、方法、项目或设备中存在其他类似的组件。如本文档中使用的“集合”表示非空集合(即,包括至少一个成员)。如这里使用的另一个术语“另一个”用于表示至少第二个或更多。如这里使用的术语“包括”和/或“具有”用于表示包含。如这里使用的术语“程序”用于表示指定在计算机系统上执行的指令序列。“程序”或“计算机程序”包括子例程、函数、过程、对象方法、对象实现、可执行应用程序、applet、servlet、源代码、对象代码、共享库/动态安装库或者指定在计算机系统上执行的其他指令序列。现在参考图1,流程图表示根据本专利技术某些实施例的在用于可视文本解释的电子设备中使用的一些方法步骤。在步骤105,捕获包括文本信息的图像,文本信息中具有按捕获配置组织的捕获词汇。该图像可以通过用来帮助执行可视文本解释的电子装置来捕获。所述电子装置可以是能捕获摄可视文本的任何类型的电子装置,其中两个示例是具有摄像机或扫描功能的手机和个人数字助理。“捕获词汇(captured word)”是指由用户识别的或由电子装置调用的光学字符识别(OCR)程序识别的作为词汇的字母组合。“捕获配置(captured arrangement)”是指捕获词汇及捕获词汇的方向、格式和位置关系,并通常包括诸如MicrosoftWord之类的文字处理程序中可用的任何格式选项以及其他特性。例如,“方向”是指如词汇或词汇组合中字母的水平、垂直、或对角线对齐等方面。“格式”包括诸如字体大小、字体加粗、字体下划线、字体阴影、字体颜色、字体轮廓等的字体格式方面,并也包括诸如边框、背景色或分离或隔离词汇与另一个词汇或词汇组合或互相分离词汇组合的星号行的词汇或短语分割设备,并包括在词汇或短语中使用特殊字符或字符配置。词汇中特殊字符或字符配置的示例包括但不限制于使用货币指示符(例如,$)或字母数字组合(例如,“tspn”)。“位置关系”是指诸如词汇或词汇组参照另一词汇或词汇组的中心对齐,例如左对齐或右对齐或居中,或者词汇或词汇组参照在其上呈现的介质的对齐。介质可以是纸张、或电子装置可以从其捕获词汇和它们的配置的任何介质,例如塑性菜单页、新闻印刷品或电子显示器。参考图2,示出了根据本专利技术某些实施例提供示例菜单片断200的图像。该图表示已由电子装置拍摄的图像。如上所述,该图像包括具有按捕获配置组织的捕获词汇的文本信息。菜单片段包括菜单列表标题205;两款菜品名210、240;两款菜品价格215、245;以及两款菜品成分列表220、250。再次参考图1,在步骤110执行对部分图像的光学字符识别,以形成按照捕获配置安排的识别词汇的集合。所述部分可以是整幅图像或小于整幅图像(例如,排除艺术页边框)。OCR可以在该电子装置内执行,可替换地,把捕获图像传送(诸如无线传送)给另一装置,因此在另外某些系统或环境中执行,这样可能更实际。在一些实施例中,所识别的词汇可简单的被确定为特定字符串序列(即,空格之间、或空格与句号之间出现的字符串、或数字后的美元符号、逗号和句号等)。在其他实施例中,可使用特定语言的综合字典将字母串转换为经过验证在该综合字典中发现的识别的词汇。根据本专利技术,OCR操作不仅包括将字母组合成词汇集合的过程,而且包括确定捕获配置的过程。例如,在图2的示例中,菜单列表名称205的下划线、较大字体大小和相对位置;菜单项210、240的字体大小和相对位置;菜品价格215、245采用美圆符结合数字值以及相对位置;连接菜单项210、240至菜品价格215、245的点线以及菜品成分列表220、250的相对位置至少形成词汇捕获配置的一部分。在步骤115选择最可能领域(domain)用于分析所识别词汇集合的捕获配置。该最有可能的领域从多个所支持领域的定义集合中选择。完成上述目的有许多种方式。在一个方案中,在步骤S105之前选择最可能的领域,诸如通过与用户和电子装置环境的多模式交互,并在一些实施例中能在不使用捕获配置的情况下完成。例如,用户选择唯一确定领域的应用。示例是在与电子装置用户交互的两三步中选择的“菜单翻译”以及“英法菜单翻译”。在另一示例中,电子装置可以已经在语言翻译模式中操作并且用户可以拍摄诸如“Lou’Pizza”之类的商业符号的图像,启动电子装置的菜单翻译程序。在另一示例中,气味检测器可以确定在其中使用电子装置的最有可能的特定环境(例如,面包店)。因此,在许多这些示例中,步骤115可在步骤105或步骤110之前发生。在一些实施例中,可使用组织词汇集合的捕获配置,使用或不使用电子装置用户的附加输入,以选择最可能的领域。例如,当电子装置用于捕获部分证券行情表时,识别词汇集合的捕获配置是本文档来自技高网...

【技术保护点】
一种在电子装置中使用的用于可视文本解释的方法,包括:捕获包括文本信息的图像,所述文本信息具有按捕获配置组织的捕获词汇;在部分图像中执行光学字符识别(OCR),用于形成按所述捕获配置组织的识别词汇集合;从多个领域中选择 最可能领域,每个领域具有相关联的领域配置集合,每个领域配置包括特征结构和关系规则的集合;根据与该捕获配置基本匹配的领域配置集合形成特征结构的结构化集合;根据所述特征结构的结构化集合,将所述识别词汇集合组织成结构化领域信息;以 及在专用于该领域的应用程序中使用所述结构化领域信息。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:哈里M布里斯
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1