文本识别制造技术

技术编号:2917472 阅读:399 留言:0更新日期:2012-04-11 18:40
一种生成代表文本段落的代码的方法,在优选的实施例中,该方法使用在该文本中选定的关键符号串的各个出现位置之间的字符间距。该串可以是固定的,或者可以包括多种不同的形式。通过将目标文本段落的已知代码和从样本文本段落生成的代码比较,能够容易地判定样本里是否使用了目标文本。该方法可以被集成在复制装置中,例如影印机,只要用户试图复制带有其中一个预定义列表的敏感的或者被控制的文本段落的文档时,其允许所述装置自动报告。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及文本识别。在优选实施例中,本专利技术提供了可以快速容易地检查文本块以确认目标文本段落在其中存在或者不存在的机制。
技术介绍
近年来,对于文本段落的作者或者版权所有人来说,一旦该文本段落被发行到公共领域,要控制在该文本上发生的事情变得越来越难。如果该文本以电子形式发行,该文本能够在很短的时间内通过因特网被重复复制和散布。即使该文本仅以硬拷贝的形式发行,对于第三方来说,复制或者扫描相关页并随后使用光学识别(OCR)技术来生成电子版是一件普通的事情。在很多情况下,需要检测文本特定段落何时已经被复制。首先,如果该文本段落是具有版权的,其版权所有人合乎情理地想知道谁在制作该段落的非法副本;可选地,该版权所有人可能有兴趣知道一个被授权的许可人已经制作了多少次副本,以便计算许可的版税。第二,需要检测剽窃,特别是在可能从因特网上复制文本段落然后作为他们自己的作业交出去的学生中间。第三,在安全领域,为了国家安全或者其他的原因,政府机构可能希望限制或者禁止某些机密文档的复制。在所有的这些情况下,不但需要检测电子复制,而且需要检测实体的印刷文档的复制,例如通过扫描或者影印。
技术实现思路
根据本专利技术,提供了一种生成代表文本段落的代码的方法,,包括识别关键符号串在段落中出现的位置,判定选定的出现位置之间的距离,并生成包括所述距离的代码。根据本专利技术的第二方面,提供了一种判定文本的目标段落是否出现在样本段落里的方法,该方法包括:-->(a)使用权利要求1到11中的任意一种方法,生成代表所述目标段落的目标代码和代表所述样本段落的样本代码;(b)将所述目标代码与所述样本代码的多个部分做比较;以及(c)如果所述目标代码与所述样本代码的一部分匹配,根据要求的匹配标准,判定所述文本的目标段落确实出现在所述样本段落里。本专利技术推广至复制装置,例如扫描仪、影印机、照相机或数字成像器,该装置包括了适当的机上处理来如上所述地生成并操作代码。特别地,本专利技术推广至用来制作带有文本的实体文档的实体或电子副本的复制装置,该装置包括:(a)用来生成所述实体文档的图像的成像器;(b)用来将所述文本转换为电子形式的样本文本的OCR引擎;(c)用来从所述样本文本生成样本代码的分析器,所述代码包括关键符号串在所述样本文本中选定的出现位置之间的距离;所述分析器接收多个代表所关注的目标文本段落的预先计算的目标代码,将所述目标代码与所述样本代码的多个部分比较,如果根据要求的匹配标准所述目标代码和所述样本代码的一部分匹配,生成表示匹配的目标文本段落的信号;以及(d)用来接收所述信号并根据所述信号采取行动的控制器。本专利技术进一步推广至如下的任一个或全部:一种形成表示文本段落的代码的方法,由此:(i)识别一个或多个关键符号串在文本中出现的位置,(ii)判定关键符号串的选定出现的位置之间的距离,以及(iii)形成包括关键符号串之间的一个或多个距离的代码。如上所述的方法,其中,每个关键串是一个选取的符号。如上所述的方法,其中,所述代码包括一个或多个表示关键符号串的符号,组合以被选定数量的其它出现分隔的一个或多个第一选定出现和一个或多个第二选定出现之间的一个或多个距离。如上所述的方法,其中,只有一个关键串。如上所述的方法,其中,所述代码包括被选定数量的其它出现分隔的一个或多个第一选定出现和一个或多个第二选定出现之间的一个或多个距离。如上所述的方法,其中,出现的分隔是固定的。-->如上所述的方法,其中,分隔根据特定预定模式变化。如上所述的方法,其中,分隔是被计算出来的。附图说明本专利技术可以多种方式实施,现在将参照附图举例说明多个特定的实施例,其中:图1示出根据本专利技术一个实施例用来从文本的段落创建代码的示例方法;以及图2示出依据本专利技术另一个实施例能够自动检测给定文本段落何时被复制的复制装置。具体实施方式图1示意性地示出创建表示或代表文本段落5的代码的优选过程。如果该段落还没有以电子形式准备好,应当首先对其进行扫描或者另外进行复制并应用光学字符识别(OCR)。首先,决定关键符号串,该关键符号串是一个或多个将要在文档里被查找的字符串。在图1的例子中,使用了单独关键符号串,也就是字母“x”。从段落的起始10开始,我们接着从头到尾依次搜索,并记录选定的关键符号串的每次出现。在示出的例子中,串“x”的第一次出现发生在起始后的第5个字符的位置,如附图标记20所示。字母“x”下一次出现在九个字符间距之后,如附图标记30所示。在图中将可以看到,在考虑中的文本块被当作一个长的连续的串,所以,一个关键符号串和下一个关键符号串之间的字符间距不受文本布置于页上的方式的影响:除了一个或两个例外(以下将会更加充分地描述),页面布局通常被忽略。继续上述的例子,下一个字母“x”出现在前一个的五个字符之后,如附图标记40所示。随后的字符间距是17,3,3,分别如附图标记50,60,70所示。一旦文本块被完全地按照这种方式解析直至结尾100,通过结合使用中的关键符号串的细节和由各个串之间的字符间距组成的列表,生成代表该文本的代码。该代码自身的详细的结构可以根据进行中的特定的应用选定,但是它可以-->例如由定义串的头部,和跟随该头部的间距列表构成。使用这种方法,图1中的文本可以由下述代码表示:X:5,9,5,17,3,3......典型地,距离的度量是关键符号串之间的字母、符号或者其他字符的个数。距离的度量也可以包括单个和/或多个字符间距,或者可选择地可以忽略间距的存在或不存在。同样设想更复杂的距离度量,如果需要可以利用文本呈现在页面上的方式,包括该文本被逐行布置的方式。设想多种不同的度量,其中例如,符号之间的距离可以不仅依赖于中间字符的个数,还依赖于这两个符号是否处于相同的行或不同的行。如果它们处于不同的行上,它们之间的行数也应当被考虑。假定图1中的文本布局,我们能够决定例如使用这样的距离度量,其中每个换行符被认为等同于十个字符间距。以这样的度量方式,我们需要向距离30增加10个字符,并向距离50增加20个字符,所有其他的距离保持不变。这给出了一个新的代码:X:5,19,5,37,3,3......在图1示出的简单的实施例中,使用了单个关键符号串,也就是字母“x”。在该方法的变体中,我们可以寻找更冗长的和/或更复杂的串的出现。如下文将详述的,这些串可以是具有固定的、预定义的形式的串,或者可选择地,可以是在形式、长度和/或其组合上具有一些内在的灵活性的串。灵活的程度可以被预定义,或者可以依赖于正在研究的文本段落的某一特性或某些特性进行计算。也可以使用多个关键符号串:例如,可以方便地将串定义为字母“x”或者字母“q”,在这两个字母之间不做任何区分。一些另外的示范性关键符号串展示如下。示例的关键符号串·任何字母、符号或者字符a,例如“x”。原则上这可以包括单个字符间距。·任何二部图a1a2,例如“st”。·任何组合a1a2a3,例如“str”。·任何更长的组合a1a2a3......an,例如“st__ng”,其中下划线代表单个字符间距。·任何具有s1?s2形式的串,其中,s1、s2是上述的字符或者字符组合,且?-->代表一个或多个字符的固定或可变的间距。·任何具有s1?s2?s3形式的串,其中,s1、s2、本文档来自技高网...

【技术保护点】
一种生成代表文本的段落的代码的方法,包括识别关键符号串在所述段落中出现的位置,判定所述关键符号串的选定的出现位置之间的距离,并生成包括所述距离的代码。

【技术特征摘要】
【国外来华专利技术】US 2006-1-13 11/332,7771、一种生成代表文本的段落的代码的方法,包括识别关键符号串在所述段落中出现的位置,判定所述关键符号串的选定的出现位置之间的距离,并生成包括所述距离的代码。2、如权利要求1中的方法,其中,所述代码包括多个与所述段落里的相邻的关键符号串之间的各自的距离对应的距离。3、如权利要求1中的方法,其中,根据所述出现位置之间的字符的个数来判定所述距离。4、如权利要求1中的方法,其中,根据所述出现位置之间的字符的个数,以及根据所述出现位置之间的文本的行数,来判定所述距离。5、如权利要求1中的方法,其中,所述关键符号串包括一个或多个字符的单个固定串。6、如权利要求1中的方法,其中,所述关键符号串是可变的,并可包括一个或多个字符的多个预先定义的固定串中的任一个。7、如权利要求1中的方法,其中,所述关键符号串包括与第二选定串间隔开的第一选定串。8、如权利要求1中的方法,其中,所述间距是固定的。9、如权利要求1中的方法,其中,所述间距是可变的或者是被计算出来的。10、如权利要求1中的方法,其中,所述关键符号串包括与第二选定串间隔开的第一选定串,并且在它们之间存在选定数目的一个或多个另外的串的出现位置。11、如权利要求1中的方法...

【专利技术属性】
技术研发人员:DM门罗
申请(专利权)人:埃塞克斯PA有限责任公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1