【技术实现步骤摘要】
一种基于模式识别的英文论文文档多粒度内容处理方法
本专利技术涉及一种论文文档多粒度内容识别方法,尤其涉及一种基于模式识别的英文论文文档多粒度内容识别处理方法,属于信息处理
技术介绍
论文文献作为一种重要的知识载体,里面蕴含了丰富的知识内容。根据《科技日报》报道,2016年至2018年,中国研究人员平均每年发表的论文数量为305927篇,美国研究人员平均每年发表的论文数量为281487篇。面对每年新增数十万的论文信息,深入挖掘其中蕴藏的知识非常重要。论文文档富含丰富的知识内容,包含了许多的知识对象,如概念、定义等等。此外,论文除文字外,还含有大量的表格、图形以及算法等知识内容。现有的对论文文档利用方法,主要采用基于关键词搜索、引文分析、全文推荐等技术,主要针对论文摘要、引文等粒度较粗的层面,没有深入到论文内容等细粒度层面上,无法满足实际应用需求。因此,需要对论文文档进行解构,将论文内容分解为更细粒度的内容单元,同时保留其组织关系和上下文联系,从而为后续应用提供支撑。
技术实现思路
本专利技 ...
【技术保护点】
1.一种基于模式识别的英文论文文档多粒度内容处理方法,其特征在于,包括以下步骤:/n步骤1:定义数据结构,用以表示PDF格式英文论文,具体如下:/n解构PDF格式英文论文,将解构数据写入数据结构中;/n步骤1.1:定义数据结构;/n定义文本块结构block,用以存储文本块;/n定义页面文本块列表blocks,用以存储本页面所有文本块block;/n定义页面结构page,用以表示页面,对应论文中的每一页;/n定义页面列表pages,用以存储文档中的所有页面page;/n定义文本块block类型集合typeSet,包含文本块的所有类型种类;/n定义文本块索引表BlockInde ...
【技术特征摘要】 【专利技术属性】
1.一种基于模式识别的英文论文文档多粒度内容处理方法,其特征在于,包括以下步骤:
步骤1:定义数据结构,用以表示PDF格式英文论文,具体如下:
解构PDF格式英文论文,将解构数据写入数据结构中;
步骤1.1:定义数据结构;
定义文本块结构block,用以存储文本块;
定义页面文本块列表blocks,用以存储本页面所有文本块block;
定义页面结构page,用以表示页面,对应论文中的每一页;
定义页面列表pages,用以存储文档中的所有页面page;
定义文本块block类型集合typeSet,包含文本块的所有类型种类;
定义文本块索引表BlockIndex,用以记录文本块所属的类型;
步骤1.2:解构PDF格式英文论文,读取论文数据,并送至定义好的数据结构中,具体如下:
步骤1.2.1:按页读取PDF格式英文论文,根据段落之间的距离,将文档内容切分为文本块,记录其坐标信息,并将内容转为文本;
步骤1.2.2:将步骤1.2.1中的数据分别赋值给对应的block、blocks、page、pages数据结构;
步骤1.2.3:初始化typeSet、BlockIndex;
步骤2:识别出文本块中的注释信息、页眉信息、页脚信息、页码、章标题及小节标题,具体如下:
步骤2.1:循环遍历pages下的page,获取page下的blocks,遍历读取blocks中的block;
步骤2.2:判断文本块中文本内容是否为文章注释内容;
具体步骤为:
步骤2.2.1:定义特征ruleAnnotationText,用以确认文本块中文本内容block[text]的格式,特征具体包括以数字加单词开始、以特殊字符加单词开始。
步骤2.2.2:定义特征ruleAnnotationRect,用以确认文本块的位置范围,注释文本块的位置位于页面的下方位置,具体表示为:
y0<α*page.rect.y(1)
y1<β*page.rect.y(2)
其中,y0和y1为文本块的坐标信息,page.rect.y表示该页面的高度信息,α、β是比例参数;
步骤2.2.3:将block[text]匹配特征ruleAnnotationText、ruleAnnotationRect,若同时满足特征,执行步骤2.7,若不满足,则执行步骤2.3;
步骤2.3:判断文本块中文本内容是否是页码,具体如下:
步骤2.3.1:定义特征rulePage,用以确认文本块中文本内容block[text]的格式,特征具体为:文本内容只能是阿拉伯数字;
步骤2.3.2:定义特征rulePageRect,用以确认文本块坐标block[x0,y0,x1,y1]位置范围,页码文本块的位置应位于页面的下方位置,具体公式同公式1和公式2;
步骤2.3.3:将block[text]匹配特征rulePage、rulePageRect,若同时满足特征,执行步骤2.7;若不满足,则执行步骤2.4;
步骤2.4:判断文本块中文本内容是否为页眉,具体如下:
步骤2.4.1:定义特征ruleHeader,用以确认文本块中文本内容block[text]的格式,特征具体为:页眉中不能包含有标点符号;
步骤2.4.2:定义特征ruleHeaderRect,用以确认文本块坐标block[x0,y0,x1,y1]位置范围,页眉文本块的位置应位于页码的上方位置,具体公式为:
y0>m*page.rect.y(3)
y1>n*page.rect.y(4)
其中,y0和y1为文本块的坐标信息,page.rect.y是该页面的长度信息,m、n是比例参数;
步骤2.4.3:将block[text]匹配特征ruleHeader、ruleHeaderRect,若同时满足特征,执行步骤2.7;若不满足,则执行步骤2.5;
步骤2.5:判断文本块中文本内容是否为章标题,具体如下:
步骤2.5.1:定义特征ruleParagraph,用以确认文本块中文本内容block[text]的格式,特征具体包括:文本内容由数字加单词组成、由数字加标点符号加单词组成,且其中不能包含标点符号;
步骤2.5.2:将block[text]匹配特征ruleParagraph,若满足特征,执行步骤2.7;若不满足,则执行步骤2.6;
步骤2.6:判断文本块中文本内容是否为小节标题,具体如下:
步骤2.6.1:定义特征rulePassage,用以确认文本块中文本内容block[text]的格式,特征具体为文本内容由数字加点号再加数字加单词组成;
步骤2.6.2:将block[text]匹配特征rulePassage,若满足特征,执行步骤2.7;若不满足,则返回步骤2.1,继续循环下一个block;
步骤2.7:将该文本块所属页面pageNum、所属文本块位置blockNum以及文本块对应类型type,写入文档索引列表BlockIndex中;
步骤3:识别非文本内容,包括图形、表格和算法,具体如下:
步骤3.1:定义非文本内容对应的触发特征RuleNonTextList={RuleTable,RuleFigure,RuleAlgorithm,…};
其中,RuleTable对应为表格特征,具体为以Table空格加数字开始;RuleFigure对应为图形特征,具体为以Figure空格加数字开始;RuleAlgorithm对应为算法特征,具体为以Algorithm空格加数字开始;
步骤3.2:循环遍历pages下的page,获取page下的blocks,遍历读取blocks中的block,当对应的block在BlockIndex中已标记,即被标记为注释、页眉页脚、页码、章标题中任意类型时,则跳过该block;
步骤3.3:根据特征RuleNonTextList匹配文本块中文本内容block[text],若符合特征,记录该文本块在文本块列表blocks中所属的序号blockNum,记为blockNum0;
步骤3.4:寻找非文本内容的起始位置或结束位置,具体如下:
步骤3.4.1:当为算法时,沿blockNum往下在blocks列表中按特征寻找算法的结束位置;对应的特征是:block[text]为文本段落、图形、表格、算法、章标题、小节标题中的某一种类型;记录对应的blockNum,记为blockNum1;
步骤3.4.2:当为图形或者表格时,从blockNum往上在blocks列表中按特征寻找图形或表格的开始位置;对应的特征是:block[text]为文本段落、图形、表格、算法、章标题、小节标题中的某一种类型;记录对应的blockNum,记为blockNum1;
步骤3.5:确定坐标位置,将整个内容保存为图片,具体如下:
步骤3.5.1:在当前页面中,获取文本块blocks[blockNum0]至blocks[blockNum1]所有文本块的坐标信息[x0,y0,x1,y1];遍历这些位置信息列表,按公式(5)、(6)、(7)、(8)获取最终的位置坐标信息;
x00=min(x00,x0)(5)
技术研发人员:牛振东,易坤,张春霞,朱一凡,何慧,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。