信息输出装置以及信息输出方法制造方法及图纸

技术编号:8683132 阅读:147 留言:0更新日期:2013-05-09 03:07
从通过对图像进行字符识别而得的文本提取能够输出与该语句相关的补充信息的语句,在与提取出的语句的前端侧或者末尾侧相邻的字符或者符号不是规定的字符或者符号的情况下,输出与上述语句相关的补充信息,在与上述提取出的语句的前端侧或者末尾侧相邻的字符或者符号是上述规定的字符或者符号的情况下,省略与上述语句相关的补充信息的输出。即使字符识别发生错误,也能够抑制输出与原文无关的补充信息的不良情况。

【技术实现步骤摘要】

本专利技术涉及用于输出通过对图像进行字符识别而得到的文本所涉及的补充信息的。
技术介绍
以往,提出了一种使用图像读取装置将记录在记录用纸或者书籍等原稿上的文本读取为图像,对读取出的图像实施字符识别处理的技术(参照日本特开平9-44604号公报,日本特开平9-44606号公报)。另外,以往还提出一种使用作为字符识别处理的结果而输出的文章,来翻译原文本(以下,称为原文)的技术(参照日本特开2011-100356号公报)。在日本特开2011-100356号公报中记载的文本图像生成装置根据表示原文的电子文本图像(以下,称为原文图像),生成在原文的行间区域,将翻译原文而得到的结果(以下,称为译文)一并标注为注释(ruby)状的电子文本图像(以下称为带译文文本图像。)以下,将原文所包含的语句称为原句,针对原句一并标注为注释状的译语称为译语注释。另外,以下,在明示字符间存在的空白字符的情况下,代替空白字符“”而使用下划线“―”。英译日的情况下,“Animation”以及“ion”等一般名词通常被翻译。然而,不定冠词以及在翻译时所使用的词典中未被记载的语句(例如“ma”)等不被翻译。在如日本特开2011-100356号公报中记载的文本图像生成装置中,例如,在原句“Animation”被准确地识别为“Animation”的情况下,识别结果“Animation”被作为一个单词“Animation”处理。此时,对原句“Animation”一并标注了正确的译语注释“ 7 二 J 一 )3 > (动画)”。
技术实现思路
然而,在原句“Animation”错误地被字符识别为“An ! -ma I;—ion”的情况下,(即、被误识别的情况下),识别结果“An ! —ma I ion”被作为三个单词“An”,“ma”,“ion”处理。此时,对原句“Animation”的末尾部分的“ion” 一并标注错误的译语注释“、才 >(离子)”。错误的译语注释往往与原句毫无关系。因此,译文的读者可能会误解原文的意思,或者不明白意思而产生混乱。本专利技术是鉴于这种情况而提出的,其主要目的在于提供一种在与通过对图像进行字符识别而得到的语句的前端侧(或者末尾侧)相邻的字符或者符号为规定的字符或者符号的情况下,不输出所得到的语句的补充信息的构成,由此即使发生误识别,也能够抑制与原文无关系的补充信息被输出的不良情况的。本专利技术的信息输出装置是输出与通过对图像进行字符识别而得到的文本相关的补充信息的信息输出装置,该信息输出装置具备:语句提取部,其从上述文本,提取能够输出与该语句相关的补充信息的语句;语句判定部,其判定与该语句提取部提取出的语句的前端侧或者末尾侧相邻的字符或者符号是否是规定的字符或者符号;补充输出部,在该语句判定部判定成否的情况下,该补充输出部输出与上述语句相关的补充信息;输出省略部,在上述语句判定部判定为是上述规定的字符或者符号的情况下,省略与上述语句相关的补充信息的输出。在本专利技术的信息输出装置中,上述语句判定部判定与上述语句的前端侧或者末尾侧相邻的N个(N为N > 2的自然数)的字符或者符号是否全部为上述规定的字符或者符号,上述补充输出部在上述语句判定部判定为上述N个字符或者符号中的、至少一个字符或者符号不是上述规定的字符或者符号的情况下,输出与上述语句相关的补充信息,上述输出省略部在上述语句判定部判定为全部是上述规定的字符或者符号的情况下,省略与上述语句相关的补充信息的输出。在本专利技术的信息输出装置中,在上述语句的前端侧或者末尾侧与空白字符相邻的情况下,上述语句判定部忽略上述空白字符。本专利技术的信息输出方法为输出与通过对图像进行字符识别而得到的文本相关的补充信息的信息输出方法,从上述文本提取能够输出与该语句相关的补充信息的语句,在与提取出的语句的前端侧或者末尾侧相邻的字符或者符号不是规定的字符或者符号的情况下,输出与上述语句相关的补充信息,在与上述提取出语句的前端侧或者末尾侧相邻的字符或者符号是上述规定的字符或者符号的情况下,省略与上述语句相关的补充信息的输出。本专利技术涉及的计算机程序是用于使计算机输出与通过对图像进行字符识别而得到的文本相关的补充信息的计算机程序,该计算机程序使计算机执行从上述文本,提取能够输出与该语句相关的补充信息的语句的提取步骤;使计算机执行判断与上述提取步骤中提取出的语句的前端侧或者末尾侧相邻的字符或者符号是否是规定的字符或者符号的语句判定步骤;在该语句判定步骤中判定为否的情况下,使计算机执行输出与上述语句相关的补充信息的输出步骤;在上述语句判定步骤中判定为是上述字符或者符号的情况下,使计算机执行省略与上述语句相关的补充信息的输出的省略步骤。根据本专利技术,信息输出装置具备语句提取部、语句判定部、补充输出部以及输出省略部。本专利技术的信息输出装置实现本专利技术的信息输出方法。另外,本专利技术的计算机程序使用计算机的硬件要素以软件方式实现本专利技术的信息输出装置所具备的各种单元。语句提取部从通过对图像进行字符识别而得到的文本中,提取能够输出与该语句相关的补充信息的语句。在此,能够输出与该语句相关的补充信息的语句是指,至少存在与该语句相关的补充信息的语句。另外,语句提取部提取出的语句是指,通过对图像进行字符识别而得到的文本中所包含的语句。以下,将语句提取部提取出的语句称为提取语句。通过对图像进行字符识别而得到的文本存在与原文本(即原文)不同的可能性。这是由于在字符识别时会发生误识别而导致的。因此,语句判定部判定与提取语句的前端侧以及末尾侧中的、至少一方相邻的字符或者符号是否是规定的字符或者符号(以下,称为特别字符)。在此,特别字符是指,由于误识别原文中所包含的字符或者符号而得的可能性高的字符或者符号(例如将字符“X”识别为符号“ X ”)。或者,特别字符是指,由于误识别图像中所包含的污染或者空白部分等而得的可能性高的字符或者符号(例如将点状的污染识别为符号“.”)。语句判定部判定为否的情况是指,与提取语句的前端侧(或者末尾侧)相邻的字符或者符号不是特别字符的情况。该情况下,能够推断为提取语句作为准确进行了字符识别的结果而得到。因此,该情况下,补充输出部输出与提取语句相关的补充信息。此时输出的补充信息是与原句相关的补充信息。另一方面,语句判定部在判定为与提取语句的前端侧(或者末尾侧)相邻的字符或者符号为特别字符的情况下,能够推断为提取语句作为误识别的结果而得到。因此,该情况下,输出省略部省略与提取语句相关的补充信息的输出。此时省略输出的补充信息(即、未被输出的补充信息)是与原句无关的补充信息。根据本专利技术,语句判定部判定与提取语句的前端侧以及末尾侧中的、至少一方相邻的N个字符或者符号是否全部是特别字符。其原因在于认为,作为原文被准确进行了字符识别的结果,存在获得特别字符的可能性,但是如果准确进行了字符识别,与提取语句的前端侧(或者末尾侧)相邻的N个字符或者符号全部为特别字符的可能性低。语句判定部判定为否的情况是指,与提取语句的前端侧(或者末尾侧)相邻的N个字符或者符号中的至少一个字符或者符号不是特别字符的情况。该情况下,能够更加可靠地推断提取语句是作为被准确进行了字符识别的结果而得到的。因此,该情况下,补充输出部输出与提取语本文档来自技高网...

【技术保护点】
一种信息输出装置,是输出与通过对图像进行字符识别而得的文本相关的补充信息的信息输出装置,其特征在于,具备:语句提取部,其从上述文本提取能够输出与该语句相关的补充信息的语句;语句判定部,其判定与该语句提取部提取出的语句的前端侧或者末尾侧相邻的字符或者符号是否是规定的字符或者符号;补充输出部,其在该语句判定部判定为否的情况下,输出与上述语句相关的补充信息;以及输出省略部,其在上述语句判定部判定为是上述规定的字符或者符号的情况下,省略与上述语句相关的补充信息的输出。

【技术特征摘要】
2011.10.28 JP 2011-2374931.一种信息输出装置,是输出与通过对图像进行字符识别而得的文本相关的补充信息的信息输出装置,其特征在于,具备: 语句提取部,其从上述文本提取能够输出与该语句相关的补充信息的语句; 语句判定部,其判定与该语句提取部提取出的语句的前端侧或者末尾侧相邻的字符或者符号是否是规定的字符或者符号; 补充输出部,其在该语句判定部判定为否的情况下,输出与上述语句相关的补充信息;以及 输出省略部,其在上述语句判定部判定为是上述规定的字符或者符号的情况下,省略与上述语句相关的补充信息的输出。2.根据权利要求1所述的信息输出装置,其中, 上述语句判定部判定与上述语句的前端侧或者末尾侧相邻的N个字符或者符号是否全部是上述规定的字符或者符号,其中,N为> 2的自然数, 在上述语句判定部判定为上述N个字符或者符号中至少一个字符或者符号不是上述规定的字符或者符号的情况下,上述补充输出部输出与上述语句相关的补充信息, 在上述语句判定部判定为全部是上述规定的字符或者符号的情况下,上述输出省略部省略与上述语句相关的补...

【专利技术属性】
技术研发人员:九津见毅
申请(专利权)人:夏普株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1