扫描方法技术

技术编号:5040778 阅读:204 留言:0更新日期:2012-04-11 18:40
一种扫描文档(例如报纸或书)的用计算机执行的方法,其中,可以在法律上防止对文本进行未授权的拷贝,包括以下步骤:将限于覆盖文档的界定区域的视域的至少一个记录获取至存储器;处理至少一个记录,以执行字符识别;当识别出字符时,将其记录在存储器中;并且,在移动的位置记录的同时,重复执行以上步骤,以逐渐获得字符串;并对照预定条件评测所述字符串。如果不满足条件,从存储器清除所述字符串的至少一部分和所述至少一个记录的至少一部分;如果满足条件,确定是否提供输出。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及通过包含文本的文档的光学扫描所获得的数字图像或记录的用计算 机执行的处理,上述文本例如为,印刷好的报纸页或其他显示形式的文本,其中,可以在法 律上防止对该文本进行未授权的拷贝。
技术介绍
在协调欧盟国家的版权法的基础上,欧洲议会和欧盟理事会在2001年5月22日 的指令2001/29/EC中确定了针对拷贝和扫描的规定。等效的美国法规是数字千年版权法 (DMCA)。可通过传统的扫描仪来执行扫描和拷贝,但是,由于对受版权保护的文档的传统 扫描违反版权法,所以需要有解决此问题的解决方案。欧盟版权指令第2条提供了最基本的“拷贝”权。其对表演者、录音片制造商、电 影制片人、广播组织和作者提供作品的“直接或间接、临时或永久”拷贝的复制的专有权。欧盟版权指令中的第5条确定了可能应用于第2条中提供的权利的限制和例外情 况。第5条第1款中的复制权的强制性例外情况提供“暂时的和附带的”复制(该复制是 由媒介进行的网络传输的“本质的和完整的”部分),或允许作品的没有“独立经济意义”的 合法使用。其还防止权利持有者通过数字技术控制所有对作品的访问,该技术通过其特别的 设计,当将作品从诸如DVD的媒介传递到播放器的用于处理的存储器,然后传递到显示器 或扬声器时,制作作品的临时“拷贝”。受版权保护的公开物(例如,报纸、杂志、行业杂志、科学期刊,和其他期刊)的 监控,例如由媒体监控行业中的公司来有系统地执行,这些公司通过识别有重要性的(of interest)文章或其他文本部分来服务于他们的客户。执行监测,以帮助客户公司和个人掌 握在新闻媒体中提到他们的频率和程度。传统监控以人工阅读例如报纸为基础。当例如在媒体监控公司收到报纸时,将报 纸移交至合格的阅读人,其快速通读报纸,寻找相关文章,例如,提到其客户的文章。阅读人 寻找类似公司名称的词、人名,和/或其他代表某些主题、话题或主旨的关键词,以确定哪 些文章是相关文章。当在报纸的一页上发现关键词时,阅读人标记这些关键词。当已经阅读整页并且 已经标记所有关键词时,阅读人一个关键词一个关键词地进行评测,以确定该文章对于客 户来说是不是相关的。如果发现该文章是相关的,那么阅读人或助手将关于客户的文章物 理切割下来,并将其发送给客户。该过程的耗时部分是花费在寻找关键词上的时间。在左上角开始并在右下角结束 的每页的阅读时间相对于一页上的关键词的数量是不变的。这就导致如果一份报纸中只有 几篇相关文章,那么每次切割都非常耗时。因此,大部分时间花费在阅读上是低效率的。通过使用传统的扫描仪可能在一定程度上进行自动处理,该扫描仪一页一页地扫描整份报纸,并且生成报纸页面的数字图像,以储存电子版本(例如,以JPG、TIFF或PDF 格式),进而储存在文件系统或数据库中。然后,检索每个文件,以进行光学字符识别,以便 生成这样的文件在这些文件钟,根据一定的编码方案(例如,ASCII)表达各个所识别的 字符。也将这些文件储存在文件系统或数据库中。此外,对所谓的搜索引擎装载一组关键 词,搜索引擎进而检索字符和字符顺序编码在其中的这些文件,以提供切割列表的形式的 输出。切割列表为从报纸切割文章的人提供引导其到物理报纸中的该页面的信息——其规 定待切割的文章的名称和其大致位置。此自动处理使得生产率相对于人工处理大幅增加。然而,由于数字图像代表原始材料的电子拷贝,所以认为此处理在很多法规下侵 犯了作者的版权。在某些法规下,即使在显示屏上显示所扫描的图像,也会被认为是侵犯 作者的版权的行为。对于文本而言,无法直接搜索数字图像,而是需要通过光学字符识别 (OCR)将数字图像转换成编码数字形式。然而,从此转换的输出,即,编码数字形式的输出, 也将被认为是对版权的侵犯。在一些国家中,如果电子拷贝是搜索过程或概要文字的“暂时的和附带的”以及 “本质的和整体的”部分,那么可能不会将其认为是对作者的版权的侵犯。如果通过人工阅读文本媒体来进行的传统媒体监控过程是自动的,那么将会制作 文本媒体的拷贝。这些文本媒体的拷贝的产生是一个与版权法相关的问题。因此,版权法 可能是对自动媒体监控的障碍。因此,文本媒体的自动监控和防止违反版权法是仍待解决 的问题。因此,需要有一种技术解决方案来解决文本媒体(例如,报纸、书)的自动监控的 问题和避免违反版权法的问题。US 6,904,183 B2公开了一种包括电子摄像机的电子图像捕捉设备,电子摄像机 具有检测器和镜头,该镜头具有适于限制入射在检测器上的辐射的视场(view of field)。 提供一致动器,以将摄像机及其视场在文档上移动经过,并提供一控制器,以获得与文档的 不同区域相对应的一组重叠子图像。提供处理装置,以形成被这组子图像覆盖的文档部分 的复合图像。产生一组子图像,子图像各自包括与出现在相应子图像中的字符相对应的字 符数据集。将每个子图像的内容拼合(stitch,缝合)在空白文本文档中,以产生包含了所 扫描的文档的文本内容的完整复合文本文档。在拼合之前,子图像首先经过光学字符识别 (OCR)例程,因此,拼合在字符级别执行。这种扫描仪可能具有比所谓的平台式扫描仪占据 更少的桌面空间的优点。以上应用解决了文档的文本扫描的自动化的问题。但是,关于版权法,则是以上应 用或其他应用没有提出也没有解决的问题,因为以上应用钟的文档以数字形式被复制了。由于拷贝违反版权法,所以,当在印刷的文本媒体(例如,报纸或书)上进行文档 扫描时,或当在电子显示的文本文档(例如,电子书)上进行扫描时,需要解决此问题。因此,在现有技术中没有解决在不违反版权法的情况下自动监控新闻媒体的问 题。
技术实现思路
公开了一种扫描文档的用计算机执行的方法,包括以下步骤-将限于覆盖文档的界定区域(delimited,分割区域)的视域(field)的至少一 个记录获取至存储器;-处理所述至少一个记录,以执行字符识别;-当识别出字符时,将其记录在存储器中;并且,在移动的位置进行记录的同时, 重复执行以上步骤,以逐渐获得字符串;其特征在于,-对照预定条件评测字符串;-如果不满足条件,从存储器清除字符串的至少一部分和至少一个记录的至少一 部分;-如果满足条件,确定是否提供输出。为了避免违反版权法,文本必须不能以数字形式复制或以其他方式拷贝。此问题的解决方案是,过滤文档内容以提取某人希望获得的信息,并过滤掉剩余 的信息。为了执行内容的过滤,必须定义过滤器特性。可通过预定条件定义过滤器特性。预 定条件可以是,例如,关键词的识别、字符串的最大长度等。如果关键词的识别是过滤器特 性,那么,根据这一点,仅关键词通过过滤器,而文档中剩下的信息将留在后面。通过过滤文 档的内容,不会得到文档的完整拷贝,并且仅从文档中提取期望的信息。期望的信息可以是比文档中的所有信息少的信息,使得仅提取文档内容的一部 分,因此,优选地,决不会将文档的大部分作为输出来提供。实际上,当过滤器识别关键词时,可以存储关键词及该关键词在文档中的位置。一 旦存储了关键词及其位置,便可删除包含关键词的记录,例如图像,因为所有关于该关键词 所需要的信息都被登记了。这样,不会产生文档的任何拷贝,因为扫描涉及过滤处理而不涉 及拷贝产生。可以将利用此方法的扫描表示为窥视孔扫描本文档来自技高网
...

【技术保护点】
一种扫描文档的计算机执行的方法,包括以下步骤:-将限于覆盖文档的界定区域的视域的至少一个记录获取至一存储器;-处理所述至少一个记录,以执行字符识别;-当字符被识别时,将该字符记录在一存储器中;以及,当在移动位置进行记录的同时,重复执行以上步骤,以逐渐获得字符串;其特征在于,-对照预定条件评测所述字符串;-如果不满足条件,从所述存储器清除所述字符串的至少一部分和所述至少一个记录的至少一部分;-如果满足条件,确定是否提供输出。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:拉尔斯斯蒂格尼尔森雅各布梅布姆
申请(专利权)人:JL私人控股有限公司
类型:发明
国别省市:DK[]

相关技术
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1