【技术实现步骤摘要】
本专利技术属于文件、图片、表格及数据处理,尤其涉及一种研报文件图片或表格标题识别方法及系统。
技术介绍
1、随着专利和期刊等研报类文献内容电子化进程的推进,通过数字化手段从这些非结构化数据中深度挖掘信息价值的需求日益增长,因而从中产生了将文档进行结构化储存,并且寻找文章中结构化信息之间的紧密联系的需求。在实际的应用场景中,从基于pdf格式的研报文档中提取出图片/表格与其对应的标题的需求应允而生。
2、专利技术人发现,目前针对这一应用场景主要的处理方法是构建一定的阅读顺序从而寻找图片/表格前后的段落,或直接根据坐标位置进行判断。主流算法的限制在于两点,一是忽视水平方向上的距离与垂直方向上的距离对于文档阅读顺序判断上的影响因素不一致,二是部分算法对于元素之间垂直方向关系的约束过于紧密,导致在实际场景中无法处理一些因排版原因造成的元素偏移的情况,难以保证从研报中提取的图片/表格与其对应标题的关系的正确性。
技术实现思路
1、本专利技术为了解决上述问题,提出了一种研报文件图片或表格标题
...【技术保护点】
1.一种研报文件图片或表格标题识别方法,其特征在于,包括:
2.如权利要求1所述的一种研报文件图片或表格标题识别方法,其特征在于,将每一张图片或每一个表格与图片或表格所在页的元素分别归入列表;根据图片或表格元素的位置,确定将图片或表格元素上一页或下一页的元素并入列表;将列表内所有元素的中心点映射到归一化空间。
3.如权利要求1所述的一种研报文件图片或表格标题识别方法,其特征在于,提取文档中的图片或表格,以及图片或表格所在页上的其他元素,将图片或表格及其他元素分别归入不同的列表。
4.如权利要求3所述的一种研报文件图片或表格标题识别方
...【技术特征摘要】
1.一种研报文件图片或表格标题识别方法,其特征在于,包括:
2.如权利要求1所述的一种研报文件图片或表格标题识别方法,其特征在于,将每一张图片或每一个表格与图片或表格所在页的元素分别归入列表;根据图片或表格元素的位置,确定将图片或表格元素上一页或下一页的元素并入列表;将列表内所有元素的中心点映射到归一化空间。
3.如权利要求1所述的一种研报文件图片或表格标题识别方法,其特征在于,提取文档中的图片或表格,以及图片或表格所在页上的其他元素,将图片或表格及其他元素分别归入不同的列表。
4.如权利要求3所述的一种研报文件图片或表格标题识别方法,其特征在于,根据页面信息与图片或表格的坐标信息,确定图片或表格在页面的上半部分还是在下半部分;当图片或表格在页面的上半部分,且图片或表格所在页面不是第一页时,将前一页的所有元素也并入列表;当图片或表格在页面的后半部分,且图片或表格所在页面不是最后一页时,将后一页的所有元素也并入列表。<...
【专利技术属性】
技术研发人员:张博明,赵晓杰,孙洁,王言,颛孙学堃,刘诚,刘辉,
申请(专利权)人:山东产研先进材料研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。