字符串检索装置制造方法及图纸

技术编号:2929314 阅读:175 留言:0更新日期:2012-04-11 18:40
字符串检索装置,在从涉及文字的文本数据中,抽出由字符串构成的关键词,具备:输入关键词的输入装置(101);将输入的关键词和文本数据进行对照,判定关键词和文本数据的一致的检索窗设定部(103);检索处理部(104);按照由构成关键词的文字数以上的所定的数的文字构成的检索字符串,判定关键词和文本数据的一致。另外,对象文字选出部(102)预先选出判定和文本数据的一致而使用的关键词的一部分文字。提供在规模比较小的、简易的结构中,即使在OCR的读取中有误识别时,也能根据抽出的文本信息,适当地检索字符串的字符串检索装置。

【技术实现步骤摘要】

本专利技术涉及字符串检索装置及使计算机执行字符串检索方法的程序,特别涉及从用扫描器等文档读取装置获得的文本信息中抽出与关键词一致的语句的字符串检索装置及使计算机执行字符串检索方法的程序。
技术介绍
现在,读取OCR(Optical Character Reader)等的印刷品、将该信息电子数据化的机器正在普及。这种电子数据,被作为图象数据生成。因此,在检索电子数据的文字时,需要进行文字识别图象数据的处理,抽出文本数据,作为透明数据或作为检索用数据嵌入图象数据中。但是,文字识别的识别率,受到读取对象的图象的质量及读取状况等的影响。关于这一点,使用图9加以讲述。图9(a)是表示有污垢A的读取对象的图象的图形。图9(b)是表示用OCR读取图9(a)所示的图象时的文档的识别状态的图形。图9(c)是为了讲述在(b)所示的识别状态中产生的问题而绘制的图形。图9(a)所示的图象,具有文档块904和文档块903,在各文档块中,有4行字符串。在这种图象中,如果在文档块904上有污垢A,OCR就往往如图9(b)所示的那样,将文档块904的1行作为别的行误识别。在图9(b)中所示的例子中,文档块904的第1行被识别为第1行和第5行,第2行被识别为第2行和第6行,第3行被识别为第4行和第7行。 发生行的误识别后,如图9(c)所示,在应该用箭头a表示的顺序识别本来的字符串的地方,有可能以用箭头b表示的顺序识别。这时,当然不能抽出正确的文本信息。因此,使用抽出的文本信息检索字符串时,就容易产生不能命中与关键词一致的字符串或者命中与关键词不同的字符串的问题。作为提高字符串检索的精度的现有技术,例如可以列举专利文献1。专利文献1公布了如下技术检索关键词包含的文字,抽出检索的结果获得的文字的位置。然后,根据该位置的信息,推定关键词位置,进而通过和文字图案对照等,进行检索。专利文献1特开2001-337993号公报 可是,专利文献1的技术,为了关键词检索而需要的计算量比较大,不适合在软件执行资源有限的简易的机器中应用。就是说,从由N文字构成的文档中,使用m个文字抽出关键词文字时,需要m×N的计算量(假设几乎都没有命中)。而且,在专利文献1的专利技术中,进而根据抽出的关键词文字,特定文字的区域,判定该区域有无关键词。因此,在文字数多的文档中,使用多个文字进行检索时,专利文献1的技术在特定文字区域的之前的处理中,用于计算的负荷已经很大。
技术实现思路
本专利技术就是针对这一点研制的,其目的在于提供在软件执行资源比较小的、简易的结构中,即使在OCR的读取中有误识别时,也能根据抽出的文本信息,适当地检索字符串,特别是没有漏检的字符串检索装置及使计算机执行字符串检索方法的程序。为了解决上述课题,本专利技术的字符串检索装置,其特征在于,是从涉及文字的文本数据中,抽出由字符串构成的关键词的字符串检索装置,具备关键词输入单元,该单元输入关键词;关键词一致判定单元,该单元对所述关键词输入单元输入的关键词和文本数据进行对照,判定关键词和文本数据一致;所述关键词一致判定单元,按照由构成关键词的文字数以上的所定的数的文字构成的检索字符串,判定关键词和文本数据的一致。采用这种专利技术后,因为按照由构成关键词的文字数以上的所定的数的文字构成的检索字符串判定关键词和文本数据的一致,所以即使在检索字符串中有不能够判读的地方,也能防止以该处为界,将检索字符串误识别为不连续的字符串,能够将检索字符串识别为连续的字符串。因此,在OCR的读取中,对字符串包含的文字有误识别时,也能根据抽出的文本信息,适当地检索字符串。另外,本专利技术的字符串检索装置,其特征在于具备文字选出单元,该单元选出构成关键词的文字中的一部分;所述关键词一致判定单元,只将所述文字选出单元选出的文字与检索字符串包含的文本数据进行对照,判定关键词和文本数据的一致。采用这种专利技术后,因为将构成关键词的文字中选出的一部分文字与检索字符串包含的文本数据进行对照,所以与例如将构成关键词的所有的文字和文本数据进行对照的结构相比,计算涉及的负荷变小,能够提供适合在软件执行资源比较小的、简易的机器中应用的字符串检索装置。另外,因为将构成关键词的文字中的一部分文字与检索字符串包含的文本数据进行对照,判定关键词和文本数据的一致,所以即使检索字符串包含的文本数据的全体和关键词不一致时,也能够判定和关键词一致。因此,能够提供防止漏检的有效的字符串检索装置。另外,本专利技术的字符串检索装置,其特征在于文本数据是读取文字图象后生成的数据时,所述文字选出单元,根据在文字图象的读取时正确地识别文字的概率,选出判定文本数据和关键词的一致而使用的所述一部分文字。采用这种专利技术后,能够从检索的对象中将正确识别的可能性低的文字除外。因此,能够减少发生关键词误检的可能性,还能减少关键词检索的计算量 另外,本专利技术的字符串检索装置,其特征在于所述关键词一致判定单元,在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串;使抽出的文字,在文本数据中,以连续的顺序各错开1个文字。采用这种专利技术后,文本数据的各文字被多次检索,能够在减少漏检的同时,提高检索的可靠性。另外,本专利技术的字符串检索装置,其特征在于所述关键词一致判定单元,在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串;使抽出的文字,在文本数据中以连续的顺序而且各错开所定的数。采用这种专利技术后,减少文本数据的各文字的检索次数,在使检索有效化的同时,还能缩短检索时间。另外,本专利技术的字符串检索装置,其特征在于所述关键词一致判定单元,使用文本数据中的文字的尺寸、描绘文本数据表示的文字的位置中的至少一个,决定为了生成检索字符串的文字的抽出范围。采用这种专利技术后,能够适当判定为了生成检索字符串的文字的抽出范围,进而能够毫无遗漏地抽出检索文字。另外,使计算机执行字符串检索方法的程序,其特征在于,是使计算机执行从涉及文字的文本数据中,抽出由字符串构成的关键词的字符串检索方法的程序,具备在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串的字符串生成步骤;抽出输入的关键词的文字中的一部分,只将抽出的文字与在所述字符串生成步骤中生成的检索字符串进行对照,判定关键词和文本数据的一致的关键词一致判定步骤。采用这种专利技术后,因为按照构成关键词的文字数以上的所定的数的文字组成的检索字符串判定关键词和文本数据的一致,所以在检索字符串中存在不能判读的部位时,也能防止以该部位为界将检索字符串误识别为不连续的字符串,能够将检索字符串识别成1串字符串。因此,在OCR的读取中出现对被字符串包含的文字的误识别时,也能根据抽出的文本信息适当检索字符串。另外,由于将关键词的一部分文字和被检索字符串包含的文本数据对照,所以与例如将构成关键词的文字都和文本数据对照的结构相比,能够减少涉及计算的负荷,能够提供使计算机执行适合于软件执行资源规模较小的简易的结构的字符串检索方法的程序。附图说明图1是为了讲述本专利技术的一种实施方式的字符串检索装置而绘制的功能方框图。图2是为了讲述图1所示的检索窗设定部生成检索字符串的情况而绘制的图形。图3是为了讲述使计算机执行本实施方式的字符串检索方法的程序而绘制的流程图。图4是为了讲述图3所示的选出检索文本文档来自技高网
...

【技术保护点】
一种字符串检索装置,其特征在于,从涉及文字的文本数据中,抽出由字符串构成的关键词,所述字符串检索装置具备:关键词输入单元,该单元输入关键词;和关键词一致判定单元,该单元对由所述关键词输入单元输入的关键词与文本数据进行对照,判定关键词与文本数据是否一致,所述关键词一致判定单元,以每个由构成关键词的文字数以上的所定的数的文字所构成的检索字符串为单位,判定关键词与文本数据是否一致。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:成泽敦
申请(专利权)人:精工爱普生株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1