数字资源加工过程中的数据标引方法技术

技术编号:3842976 阅读:812 留言:0更新日期:2012-04-11 18:40
本发明专利技术数字资源加工过程中的数据标引方法,属数字资源加工的计算机信息处理技术领域。将纸质文档进行扫描或打开已有的电子文档图像,作为一个数据包,进行必要的图像处理、版面分析,及对版面框添加标引属性,通过OCR识别,利用识别结果文本和版面框的对应关系,自动完成数据标引工作,输出文字所属标引,以及标引在图像上的位置等相关信息,依据此信息,可以将图像信息正确入库,制作相关的检索信息源。本发明专利技术在进行文档资料进行处理时,用户在版面分析过程的同时进行标引添加工作,添加的标引可由用户自定义,在校对识别结果的同时直观地对文字所属标引进行检查和修改,大大提高了数字资源加工的工作效率,提高了系统的通用性。

【技术实现步骤摘要】

本专利技术属于文本处理领域,涉及一种数据标引方法,具体涉及一种数字资源加工 过程中的数据标引方法。
技术介绍
传统的纸张作为信息媒介存在着巨大的资源浪费,以图书为例,大量的有用和没用的信息都要印刷出成千上万册,经过存储、运输、批发、销售等耗资巨大的环节后送到读 者面前,最终被束之高阁。这样不仅一方面社会资源和自然资源被严重浪费,另一方面信息 无法永久保存,更谈不上信息的增殖。而随着人类社会需求的发展和信息的膨胀,为传统纸 媒介所做的信息移植的代价越来越大。因此,随着互联网的普及和信息技术的快速发展,报 纸、图书等纸质文档的电子化信息的提取对信息的共享和传播来说变得越来越重要。对于数字资源加工后得到的电子文档数据,要进行更充分的利用,通常的做法是, 在电子化后的文档数据上进行人工添加标引(比如书名,作者,摘要,出版日期等)后,导入 数据库,便于查询和检索。对于将纸质文档电子化的数字资源加工过程,工作效率直接取决于加工工具使用 方式的便捷性,现有的数字资源加工方法,通常是先将纸制文档电子化,然后在电子化数据 上添加标引,按照图像上某版面块的属性,将电子化数据的相关文字添加相应的标引属性。 这种方式既包含了分析图像上某板面块所属属性的时间,又包括在电子化数据中查找相关 信息添加标引的时间。基于OCR的纸制文档电子化过程中,扫描后的图像文档,必需经过图像处理,版面 分析,识别,校对,输出等环节。版面分析环节即将图像上需要识别的各个版面块标出。而 版面分析所需画出的版面块和添加标引时对应的版面信息块,有着内在的联系,即一个版 面块,既是识别需要的一个图像块,其内容又是有着某个标引属性的文字块。因为在加工过 程中的版面分析环节已经对图像版面进行过一次分析,而加标引的过程需要对版面上的信 息进行第二次的浏览与确认,大大降低了加工的工作效率,不利于电子资源的快速加工和 传播。
技术实现思路
根据现有数字资源加工过程中所存在的问题,为提高数字资源加工的效率,本发 明提出一种,该方法是在纸制文档电子化过程中的版 面分析环节,依据识别所需要的图像版面块和添加标引需要的文字信息块的对应关系,在 版面分析的同时,赋予版面框某种缺省标引属性,并可以方便的人工调整框的标引属性,最 后利用识别结果文本和版面框的对应关系,自动完成数据标引工作,将版面分析和添加标 引两个过程合二为一,大大提高了加工效率,并使添加标引的工作更直观易操作。,包括以下步骤步骤1 将纸质文档进行扫描或打开已有的电子文档图像,将内容相关的一批图像制作成数据包;步骤2 对制作成的数据包进行图像处理,得到待识别的图像数据包;步骤3 对待识别的图像数据包进行版面分析,将图像上的各个版面画出版面框, 并在版面框上标示出标引属性;步骤4 对图像中的各版面进行OCR识别;步骤5 对OCR识别出的结果进行校对和标引修正;步骤6 利用修正后的识别结果文本和版面框,得到识别结果和标引属性的对应 关系文件。所述步骤3中,对每个版面框会自动添加缺省的标引属性,并根据匹配情况进行调整。所述步骤3的标引属性中,种类和名称根据需要自行进行设置。所述步骤5中,进行校对和标引修正时,将识别出的文字和对应标引的属性并排 显示,并通过识别出的文字定位到原图像上对应的位置的方式来校对并修正识别出的文字 和所属标引属性信息。本专利技术,与现有技术相比,其优点在于1、本方法在版面分析的同时添加标引,在对图像上的内容进行一次分析的情况 下,完成两种操作。相对于纸质文档电子化后,在电子化数据的基础上添加标引来说,少进 行了一遍图像的内容的分析,大大提高了数字资源加工和添加标引的工作效率。2、添加的标引可以通过标引定制工具进行自定义,对于不同的资源,定制不同的 标引,扩大了数据加工的范围,提高了系统的通用性。3、在OCR识别后的校对过程中,同时对添加标引进行校对,节省了额外进行标引 检查的工作量,提高了标引的正确率和可靠性。4、在校对识别结果的同时可以直观地对文字所属标引进行检查和修改。 附图说明图1为本专利技术的方法流程图;图2为本专利技术的版面默认标引示意图;图3为本专利技术的版面修改后的标引示意图;图4为本专利技术版面的识别结果;图5为本专利技术的版面校正后的识别结果;图6为本专利技术定义的标引;图7为本专利技术的识别结果和标引属性的对 应关系文件。具体实施例方式下面将结合附图对本专利技术作进一步的详细描述本方法首先将纸质文档进行扫描或打开已有的电子文档图像,将内容相关的一批图像,作为一个数据包,再对扫描后的图像数据包进行必要的图像处理,对处理后的图像数 据包进行版面分析,及对版面框添加标引属性,通过OCR识别,利用识别结果文本和版面框的对应关系,自动完成数据标引工作,输出文字所属标引,以及标引在图像上的位置,将图 像信息正确入库,制作相关的检索信息源。如图1所示,该方法可以通过以下步骤实现步骤一扫描,对于纸质文档(书、报纸、杂志等),调用扫描仪进行扫描;对于已经 是电子文档的图像,直接打开,将内容相关的一批图像(如一本书)整理为一个数据包。此 数据包作为其他工序操作的单位。本实施例中,选用了两段文字作为扫描后得到的文本进 行说明。步骤二 图像处理,获得扫描工序完成的一个数据包,对于质量不好的图像进行必 要的图像处理,如对图像进行旋转、倾斜校正等。保证图像可以正常处理和识别。步骤三版面分析,获得图像处理工序完成的一个数据包,对图像进行自动或手工 版面分析。版面分析可以采用自动或手动的方式,将图像上的各个版面正确画出,在版面框 上以标志标示此版面框所属的标弓I属性。版面分析是指将图像划分出每一个区域块。对于各个不同的区域块不仅给出其自 身的属性,如横排的文字、竖排的文字、图形图像等,而且标明不同区域块之间的顺序,以便 系统进行识别处理。版面上有意义的文字块,比如“题目”,“作者”,“正文”等,也在图像对 应一个一个的区域块,与识别需要的区域块为一致的。版面分析有两种模式,一种是自动版面分析,一种为手动版面分析。自动版面分析 是指依靠图像版面分析算法,自动将图像上的各个版面块标示在图像上,对于特别复杂的 图像版面,自动分析后,须人工手动来辅助调整。手动版面分析是指人工画出每一个需要的 版面块。本实施例中,采用自动版面分析,采用汉王0CR6. OSDK中的版面分析算法分析出两 个版面框。版面分析的过程,不管是自动还是手动进行版面分析,都需要按照图像上需要加 标识的有意义的版面块来顺序划定。如图像上“标题”部分的文字,画为一个版面框,并添 加标引为“标题”;图像上“作者”部分的文字,画为一个版面框,并添加标引为“作者”等。版面分析时,为了减少加标引的工作量,每当画出一个版面框的时候,该版面框会 自动添加一种缺省的标引。本实施例中,如图2所示,将标引“正文”设置为缺省标引。这 样每当划定一个版面框的时候,会自动加上“正文”的标引,如果与图像上实际的文字属性 不匹配,则加以修改;如果一致,就不用修改了,节省工作量。如图2所示,图象上的文字分为两个版面框,以方框标出,版面框的左上角提示了 该版面框所处的顺序和标引内容。如“1”,“2”,表示版面框的顺序是第一个和第二个。两 个版面块的标引都是自动添加的默认标弓l“ZW”表示“正文”。第一个版面框本文档来自技高网
...

【技术保护点】
一种数字资源加工过程中的数据标引方法,包括以下步骤:步骤一:将纸质文档进行扫描或打开已有的电子文档图像,将内容相关的一批图像制作成数据包;步骤二:对制作成的数据包进行图像处理,得到待识别的图像数据包;步骤三:对待识别的图像数据包进行版面分析,将图像上的各个版面画出版面框,并在版面框上标示出标引属性;步骤四:对图像中的各版面进行OCR识别;步骤五:对OCR识别出的结果进行校对和标引修正;步骤六:利用修正后的识别结果文本和版面框,得到识别结果和标引属性的对应关系文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:丁迎王维娜
申请(专利权)人:汉王科技股份有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1