当前位置: 首页 > 专利查询>武汉大学专利>正文

基于图像处理与序列标注的学术文献语义再结构化方法技术

技术编号:12730700 阅读:95 留言:0更新日期:2016-01-20 14:34
本发明专利技术公开了一种基于图像处理与序列标注的学术文献语义再结构化方法,通过将学术文献进行相关处理转化为图像形式,并对其进行版式分析;利用OCR(Optical Character Recognition 光学字符识别)技术对每个符合学术文献逻辑结构的文本区块进行识别,将图像等转换为机器可读的纯文本;利用自然语言处理中的序列标注模型,对处理后的文献内容进行标签序列转换;通过对比版式分析和序列标注的得到的文献逻辑结构结果,进行优化,得到最终的文献逻辑结构。为文献自动添加语义标签,以辅助阅读,将其在一定程度上转化为结构化的内容,提供了学术文献的利用效率。

【技术实现步骤摘要】

本专利技术属于信息处理
,尤其涉及语义出版领域存量学术文献的语义再结构化方法。
技术介绍
信息技术不断发展前进,在很大程度上改变了社会信息生产、传播和消费的方式,进而使得传统出版向数字出版演进。作为数字出版的高级形态,语义出版不仅可以提高学术文献的语义,促进它们自动化获取,使其能够链接至语义相关的内容。但是目前语义出版所面临的是目前有大量的存量文献,如何对这么庞大的存量文献进行处理,以提高信息质量和深度是一个重要的问题。再者,随着学术文献的爆炸性增长导致了读者单位阅读时间减少,语义出版通过给文献内容添加语义标签,提供增强型文本来辅助读者阅读以及快速把握文献的核心主题,以提高阅读效率,其中突出的是学术文献的再结构化问题。而学术文献的再结构化仍是一个相当困难的研究主题,大量非结构化内容的存在是在线信息再利用效率低下的原因之一,通过对文献进行再结构化可以将文献分解成多个相互相关联的、彼此间有明确层次结构的组成部分,以便于实现文本内容的智能化分析处理和自动化获取与融合。目前存在对文献进行人工结构标注,但是效率太多低下,在学术文献存量庞大的情况下可谓是捉襟见肘。
技术实现思路
为了解决上述问题,本专利技术提出了一种从最常见的中文学术文献的存储的格式出发,通过结合图像处理技术OCR(OpticalCharacterRecognition光学字符识别)和自然语言处理的序列标注模型,进行数字出版的学术文献版式分析,实现文献逻辑结构识别的学术文献语义再结构化方法。本专利技术所采用的技术方案是:基于图像处理与序列标注的学术文献语义再结构化方法,其特征在于,包括以下步骤:步骤1:将学术文献转化为图像形式,并对其进行版式分析;首先进行灰度化、二值化、轮廓获取、外轮廓、建立rtree空间索引,再利用空间索引对相互覆盖的文本区块进行融合,最终获得符合学术文献逻辑结构的区块;步骤2:利用图像识别技术和OCR技术对每个符合学术文献逻辑结构的文本区块进行识别,其中图像识别技术将文本区块分类为文本、图像、表格三类。对于识别为图像和表格的区块将以JPG格式保存为图像,对于文本区块采用开源OCR工具Tesseract将图像转换为机器可读的纯文本;步骤3:利用自然语言处理中的序列标注模型,对文献内容进行标签序列转换。作为优选,步骤2的具体实现包括以下子步骤:步骤2.1:首先对数据源进行预处理;所述源数据是已经转换为图像格式的学术文献;预处理主要是减少图像中的无用信息,包括灰度化、降噪、二值化;步骤2.2:特征提取和降维;对于每个逻辑结构区块,提取该区块的宽度W、高度H,并利用OPENCV轮廓提取算法获取所有轮廓和轮廓对应的面积,并采用K阈值法计算轮廓面积对于K的数量C1和小于K的数量C2,利用OPENCV直线检测算法计算区块包含的长度大于区块2/3的水平直线数量C3和高度大于区块2/3的垂直直线数量C4。利用OPENCV多维直方图算法提取步骤2.1中未二值化处理的图像区块3通道直方图向量V1、V2、V3。使用BOW算法对区块进行BOW编码获得特征向量V4,BOW编码维度为3000,对V4使用PCA(主成分分析法)进行降维处理获得500维特征向量V5。最终每个区块的特征F=(W,H,C1,C2,C3,C4,V1,V2,V3,V5)。步骤2.3:进行分类器设计、训练和实际识别;对分类器进行训练,使用SVM和Adaboost算法进行有监督训练,训练分类模型M,该模型用于识别逻辑区块类型(文本、图像、表格);文本是表示一篇论文中的文字部分,如标题、正文、引用等用文字描述的内容;图像是论文中的插图;表格是论文中插入的表格;步骤2.4:对识别出的图像区块和表格区块使用Tesseract进行OCR并获取置信得分S1,以S1和分类模型M的分类概率得分S2做线性插值计算,计算公式为Sum=(1-a)*S1+a*S2,其中Sum表示求和结果,a为调控参数,以最终得分作为分类依据,得分高于阈值L的区块被视作分类正确;对分类结果进行参数a调整,提高分类结果的准确性;步骤2.5:对分类正确的区块中图像和表格区块直接保存为JPG格式图片,对于其中的文本区块使用Tesseract进行OCR文字识别,将图像中包含的文字识别出来,保存为文本格式。作为优选,步骤3是利用条件随机场模型对步骤2识别(等价于分类结果是文本类型的区块)出来的文本区块进行序列标注,其具体实现包括以下子步骤:步骤3.1:预处理,主要是对文本格式的数据,进行句子切分、分词、词法分析;步骤3.2:特征抽取,抽取文本块在一篇文章里面的相对位置作为特征P,这个特征为几类:头部(例如:标题、作者、单位信息),文章主体(正文、注解等)以及文章结尾(参考文献)。将数字标题以及段落特征作为特征T,通过检测文献的数字开头行判断是否是小标题。标点符号以及特殊符号作为特征M,例如一个文本块包含email地址或者URL就很有可能是参考文献以及通信地址等。文本块的长度作为特征L,每个文本块包含的词的数量。还有文献中字体的大小作为特征F以及文本块的起始坐标作为特征C。CRF是序列标注问题,所以在特征抽取时会得到一个序列,即对于每一个文本区块标记,它的所有上下文文本块的逻辑结构顺序得到的标记结果构成了一个标记序列S=(P+T+M+L+F+C);步骤3.3:对特征抽取得到的特征文件进行处理,得到每一个序列标注的标注结果,然后对标注结果进行查全、查准评价;步骤3.4:利用序列标注的结果(标题、小标题、作者、正文、引用、机构等)对文本区块进行融合,最终获得符合学术文献逻辑结构的文本区块。本专利技术的有益效果是:提供一种适用于广泛的电子的学术文献语义再结构化的方法,特别是针对大量的存量文献,为文献自动添加语义标签,以辅助阅读,将其在一定程度上转化为结构化的内容,提供了学术文献的利用效率。附图说明图1:是本专利技术实施例的流程图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。请见图1,本专利技术提供的基于图像处理与序列标注的学术文献语义再结构化方法,包括以下步骤:步骤1:对学术文献进行相关处理转化为图像形式,并对其进行版式分析。首先进行灰度化、二值化、轮廓获取、外轮廓、建立rtree空间索引,再利用空间索引对相互覆盖的文本区块进行融合,最终获得符合学术文献逻辑结构的文本区块。步骤2,利用OCR(OpticalCharacterRecognition光学字符识别)技术对每个符合学术文献逻辑结构的文本区块进行识别,将图像等转换为机器可读的纯文本。首先对数据源进行预处理,这里的源数据是已经转换为图像形式的文献,这个过程主要是减少图像中的无用信息,以便后面的处理,通常有:灰度化、降噪、二值化、字符切分以及归一化等子步骤。经过二值化后,图像只剩下两种颜色,即黑和白,其中一个是图像背景,另一个颜色就是本文档来自技高网...
基于图像处理与序列标注的学术文献语义再结构化方法

【技术保护点】
基于图像处理与序列标注的学术文献语义再结构化方法,其特征在于,包括以下步骤:步骤1:将学术文献转化为图像形式,并对其进行版式分析;首先进行灰度化、二值化、轮廓获取、外轮廓、建立rtree空间索引,再利用空间索引对相互覆盖的文本区块进行融合,最终获得符合学术文献逻辑结构的区块;步骤2:利用图像识别技术和OCR技术对每个符合学术文献逻辑结构的区块进行识别;其中图像识别技术将逻辑区块分类为文本、图像、表格三类,对于识别为图像和表格的区块将以JPG格式保存为图像,对于文本区块采用开源OCR工具Tesseract将图像转换为机器可读的纯文本;步骤3:利用自然语言处理中的序列标注模型,对步骤2中识别出来的区块进行标签序列转换;步骤4:对序列标注得到的文献逻辑结构结果进行优化,得到最终的文献逻辑结构。

【技术特征摘要】
1.基于图像处理与序列标注的学术文献语义再结构化方法,其特征在于,包括以下步骤:
步骤1:将学术文献转化为图像形式,并对其进行版式分析;首先进行灰度化、二值化、轮廓获取、外轮廓、建立rtree空间索引,再利用空间索引对相互覆盖的文本区块进行融合,最终获得符合学术文献逻辑结构的区块;
步骤2:利用图像识别技术和OCR技术对每个符合学术文献逻辑结构的区块进行识别;其中图像识别技术将逻辑区块分类为文本、图像、表格三类,对于识别为图像和表格的区块将以JPG格式保存为图像,对于文本区块采用开源OCR工具Tesseract将图像转换为机器可读的纯文本;
步骤3:利用自然语言处理中的序列标注模型,对步骤2中识别出来的区块进行标签序列转换;
步骤4:对序列标注得到的文献逻辑结构结果进行优化,得到最终的文献逻辑结构。
2.根据权利要求1所述的基于图像处理与序列标注的学术文献语义再结构化方法,其特征在于:步骤2的具体实现包括以下子步骤:
步骤2.1:首先对数据源进行预处理;所述源数据是已经转换为图像格式的学术文献;预处理主要是减少图像中的无用信息,包括灰度化、降噪、二值化;
步骤2.2:特征提取和降维;对于每个逻辑结构区块,提取该区块的宽度W、高度H,并利用OPENCV轮廓提取算法获取所有轮廓和轮廓对应的面积,并采用K阈值法计算轮廓面积对于K的数量C1和小于K的数量C2,利用OPENCV直线检测算法计算区块包含的长度大于区块2/3的水平直线数量C3和高度大于区块2/3的垂直直线数量C4;利用OPENCV多维直方图算法提取步骤2.1中未二值化处理的图像区块的3通道直方图向量V1、V2、V3;使用BOW算法对区块进行BOW编码获得特征向量V4,BOW编码维度为3000,对V4使用PCA进行降维处理获得500维特征向量V5;最终每个区块的特征F=(W,H,C1,C2,C3,C4,V1,V2,V3,V5);
步骤2.3:进行分类器设计、训练和...

【专利技术属性】
技术研发人员:陆伟丁恒方龙
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1