基于图像处理与序列标注的学术文献语义再结构化方法技术

技术编号：12730700 阅读：95 留言：0更新日期：2016-01-20 14:34

本发明专利技术公开了一种基于图像处理与序列标注的学术文献语义再结构化方法，通过将学术文献进行相关处理转化为图像形式，并对其进行版式分析；利用OCR(Optical Character Recognition 光学字符识别)技术对每个符合学术文献逻辑结构的文本区块进行识别，将图像等转换为机器可读的纯文本；利用自然语言处理中的序列标注模型，对处理后的文献内容进行标签序列转换；通过对比版式分析和序列标注的得到的文献逻辑结构结果，进行优化，得到最终的文献逻辑结构。为文献自动添加语义标签，以辅助阅读，将其在一定程度上转化为结构化的内容，提供了学术文献的利用效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息处理
，尤其涉及语义出版领域存量学术文献的语义再结构化方法。
技术介绍
信息技术不断发展前进，在很大程度上改变了社会信息生产、传播和消费的方式，进而使得传统出版向数字出版演进。作为数字出版的高级形态，语义出版不仅可以提高学术文献的语义，促进它们自动化获取，使其能够链接至语义相关的内容。但是目前语义出版所面临的是目前有大量的存量文献，如何对这么庞大的存量文献进行处理，以提高信息质量和深度是一个重要的问题。再者，随着学术文献的爆炸性增长导致了读者单位阅读时间减少，语义出版通过给文献内容添加语义标签，提供增强型文本来辅助读者阅读以及快速把握文献的核心主题，以提高阅读效率，其中突出的是学术文献的再结构化问题。而学术文献的再结构化仍是一个相当困难的研究主题，大量非结构化内容的存在是在线信息再利用效率低下的原因之一，通过对文献进行再结构化可以将文献分解成多个相互相关联的、彼此间有明确层次结构的组成部分，以便于实现文本内容的智能化分析处理和自动化获取与融合。目前存在对文献进行人工结构标注，但是效率太多低下，在学术文献存量庞大的情况下可谓是捉襟见肘。
技术实现思路
为了解决上述问题，本专利技术提出了一种从最常见的中文学术文献的存储的格式出发，通过结合图像处理技术OCR(OpticalCharacterRecognition光学字符识别)和自然语言处理的序列标注模型，进行数字出版的学术文献版式分析，实现文献逻辑结构识别的学术文献语义再结构化方法。本专利技术所采用的技术方案是：基于图像处理与序列标注的学术文...
基于图像处理与序列标注的学术文献语义再结构化方法

【技术保护点】
基于图像处理与序列标注的学术文献语义再结构化方法，其特征在于，包括以下步骤：步骤1：将学术文献转化为图像形式，并对其进行版式分析；首先进行灰度化、二值化、轮廓获取、外轮廓、建立rtree空间索引，再利用空间索引对相互覆盖的文本区块进行融合，最终获得符合学术文献逻辑结构的区块；步骤2：利用图像识别技术和OCR技术对每个符合学术文献逻辑结构的区块进行识别；其中图像识别技术将逻辑区块分类为文本、图像、表格三类，对于识别为图像和表格的区块将以JPG格式保存为图像，对于文本区块采用开源OCR工具Tesseract将图像转换为机器可读的纯文本；步骤3：利用自然语言处理中的序列标注模型，对步骤2中识别出来的区块进行标签序列转换；步骤4：对序列标注得到的文献逻辑结构结果进行优化，得到最终的文献逻辑结构。

【技术特征摘要】
1.基于图像处理与序列标注的学术文献语义再结构化方法，其特征在于，包括以下步骤：
步骤1：将学术文献转化为图像形式，并对其进行版式分析；首先进行灰度化、二值化、轮廓获取、外轮廓、建立rtree空间索引，再利用空间索引对相互覆盖的文本区块进行融合，最终获得符合学术文献逻辑结构的区块；
步骤2：利用图像识别技术和OCR技术对每个符合学术文献逻辑结构的区块进行识别；其中图像识别技术将逻辑区块分类为文本、图像、表格三类，对于识别为图像和表格的区块将以JPG格式保存为图像，对于文本区块采用开源OCR工具Tesseract将图像转换为机器可读的纯文本；
步骤3：利用自然语言处理中的序列标注模型，对步骤2中识别出来的区块进行标签序列转换；
步骤4：对序列标注得到的文献逻辑结构结果进行优化，得到最终的文献逻辑结构。
2.根据权利要求1所述的基于图像处理与序列标注的学术文献语义再结构化方法，其特征在于：步骤2的具体实现包括以下子步骤：
步骤2.1：首先对数据源进行预处理；所述源数据是已经转换为图像格式的学术文献；预处理主要是减少图像中的无用信息，包括灰度化、降噪、二值化；
步骤2.2：特征提取和降维；对于每个逻辑结构区块，提取该区块的宽度W、高度H，并利用OPENCV轮廓提取算法获取所有轮廓和轮廓对应的面积，并采用K阈值法计算轮廓面积对于K的数量C1和小于K的数量C2，利用OPENCV直线检测算法计算区块包含的长度大于区块2/3的水平直线数量C3和高度大于区块2/3的垂直直线数量C4；利用OPENCV多维直方图算法提取步骤2.1中未二值化处理的图像区块的3通道直方图向量V1、V2、V3；使用BOW算法对区块进行BOW编码获得特征向量V4，BOW编码维度为3000，对V4使用PCA进行降维处理获得500维特征向量V5；最终每个区块的特征F=（W，H，C1，C2，C3，C4，V1，V2，V3，V5）；
步骤2.3：进行分类器设计、训练和...

【专利技术属性】
技术研发人员：陆伟，丁恒，方龙，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人