数字资源加工过程中的数据标引方法技术

技术编号：3842976 阅读：812 留言：0更新日期：2012-04-11 18:40

本发明专利技术数字资源加工过程中的数据标引方法，属数字资源加工的计算机信息处理技术领域。将纸质文档进行扫描或打开已有的电子文档图像，作为一个数据包，进行必要的图像处理、版面分析，及对版面框添加标引属性，通过ＯＣＲ识别，利用识别结果文本和版面框的对应关系，自动完成数据标引工作，输出文字所属标引，以及标引在图像上的位置等相关信息，依据此信息，可以将图像信息正确入库，制作相关的检索信息源。本发明专利技术在进行文档资料进行处理时，用户在版面分析过程的同时进行标引添加工作，添加的标引可由用户自定义，在校对识别结果的同时直观地对文字所属标引进行检查和修改，大大提高了数字资源加工的工作效率，提高了系统的通用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于文本处理领域，涉及一种数据标引方法，具体涉及一种数字资源加工过程中的数据标引方法。
技术介绍
传统的纸张作为信息媒介存在着巨大的资源浪费，以图书为例，大量的有用和没用的信息都要印刷出成千上万册，经过存储、运输、批发、销售等耗资巨大的环节后送到读者面前，最终被束之高阁。这样不仅一方面社会资源和自然资源被严重浪费，另一方面信息无法永久保存，更谈不上信息的增殖。而随着人类社会需求的发展和信息的膨胀，为传统纸媒介所做的信息移植的代价越来越大。因此，随着互联网的普及和信息技术的快速发展，报纸、图书等纸质文档的电子化信息的提取对信息的共享和传播来说变得越来越重要。对于数字资源加工后得到的电子文档数据，要进行更充分的利用，通常的做法是，在电子化后的文档数据上进行人工添加标引(比如书名，作者，摘要，出版日期等)后，导入数据库，便于查询和检索。对于将纸质文档电子化的数字资源加工过程，工作效率直接取决于加工工具使用方式的便捷性，现有的数字资源加工方法，通常是先将纸制文档电子化，然后在电子化数据上添加标引，按照图像上某版面块的属性，将电子化数据的相关文字添加相应的标引属性。这种方式既包含了分析图像上某板面块所属属性的时间，又包括在电子化数据中查找相关信息添加标引的时间。基于OCR的纸制文档电子化过程中，扫描后的图像文档，必需经过图像处理，版面分析，识别，校对，输出等环节。版面分析环节即将图像上需要识别的各个版面块标出。而版面分析所需画出的版面块和添加标引时对应的版面信息块，有着内在的联系，即一个版面块，既是识别需要的一个图像块，其内容...

【技术保护点】
一种数字资源加工过程中的数据标引方法，包括以下步骤：步骤一：将纸质文档进行扫描或打开已有的电子文档图像，将内容相关的一批图像制作成数据包；步骤二：对制作成的数据包进行图像处理，得到待识别的图像数据包；步骤三：对待识别的图像数据包进行版面分析，将图像上的各个版面画出版面框，并在版面框上标示出标引属性；步骤四：对图像中的各版面进行ＯＣＲ识别；步骤五：对ＯＣＲ识别出的结果进行校对和标引修正；步骤六：利用修正后的识别结果文本和版面框，得到识别结果和标引属性的对应关系文件。

【技术特征摘要】

【专利技术属性】
技术研发人员：丁迎，王维娜，
申请(专利权)人：汉王科技股份有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人