一种富格式文档的图形识别方法和系统技术方案

技术编号:34113402 阅读:10 留言:0更新日期:2022-07-12 01:47
本发明专利技术公开了一种富格式文档的图形识别方法和系统,属于图形识别技术领域,所述方法包括:识别文档页面中图形的区域和类别;基于所述图形类别,获得图形区域中的对象,所述对象包括:形状对象、文本块和连线;根据文本块所在的位置,建立文本块与形状对象或连线的关联;根据连线的端点,找到连线的邻近对象;根据连线的类别,将相邻连线进行整合,获得整合连线;建立所述整合连线、邻近形状对象和文本块的关联,并获得结构化信息。图形类别不同,对象的形式和连接形式不同,基于图形类别的图形识别,可以有效提高识别的准确性;根据连线的类别,将连线的各个连线进行整合,获得整合连线,利于识别复杂图形中对象之间连接关系。利于识别复杂图形中对象之间连接关系。利于识别复杂图形中对象之间连接关系。

【技术实现步骤摘要】
一种富格式文档的图形识别方法和系统


[0001]本专利技术涉及图形识别
,具体涉及一种富格式文档的图形识别方法和系统。

技术介绍

[0002]随着数字化智能化等技术的发展,对各行各业中用到的图文并茂并茂的富格式文档(Rich

format)自动处理的需求越来越迫切,例如:金融相关的各类公告、分析报告中具有股权结构图和组织架构图;专利文档中,具有系统框架图和流程图;科学技术论文和报告具有大量框架图和流程图。
[0003]为了实现富格式文档信息的深度结构化,构建领域专业知识图谱,对文档中包含各式各样图(Figure)中识别和理解是其中重要的环节,其中的图形含有大量可以转化为知识图谱的并存储到数据库中的结构化信息。
[0004]目前,采用基于深度学习的图形识别方法进行图形识别,包括基于图形处理的传统方法和基于目标检测的方法。例如以下文献采用了基于图形处理的传统方法对流程图进行识别,专利搜索中非文本信息检索的流程图识别(Flowchart recognition for non

textual information retrieval in patent search,Information Retrieval,Universitat Aut
ò
noma de Barcelona)、专利图像中流程图的可视化结构分析(JOANNEUM RESEARCH Forschungsgesel Ischaft mbH,DIGITAL

Institute for Information and Communication Technologies,Austria)、以及CLEF

IP 2012专利图纸流程图的文本综述(Textual summarisation of flowcharts in patent drawings for CLEF

IP 2012,INRIA

Humboldt Universitat zu Berlin

Institut fur Deutsche Sprache und Linguistik)。以下文献采用基于基于目标检测的方法进行图形识别:基于Faster R

CNN的在线手写图形符号检测(Symbol detection in online handwritten graphics using Faster R

CNN,DAS

2018,University of Sao Paulo)、基于Arrow R

CNN的手写图形识别(Arrow R

CNN for handwritten diagram recognition,International Journal on Document Analysis and Recognition(IJDAR),2021/02,SAP and University of Mannheim)、Sketch2BPMN:手绘自动识别的BPMN模型(Sketch2BPMN:Automatic Recognition of Hand

drawn BPMN Models,33rd International Conference on Advanced Information Systems Engineering(CAiSE 2021),SAP and University of Mannheim)、图形网络:使用视觉箭头关系检测的手绘图形识别(DiagramNet:Hand

drawn Diagram Recognition using Visual Arrow

relation Detection,ICDAR

2021,SAP and University of Mannheim)。
[0005]但是以上的检测方法依然存在一些问题:只依赖图形视觉特征进行处理,通常聚焦在某一种特定类型图形的处理;且通常处理一些简单的图形对象之间相对简单的直接连接关系,不能处理曲线、斜线、折线、虚线等复杂连接关系。

技术实现思路

[0006]针对现有技术中存在的上述技术问题,本专利技术提供一种富格式文档的图形识别方法和系统,适应于处理复杂图形中对象之间连接关系。
[0007]本专利技术公开了一种富格式文档的图形识别方法,所述方法包括:识别文档页面中图形的区域和类别;基于所述图形类别,获得图形区域中的对象,所述对象包括:形状对象、文本块和连线;根据文本块所在的位置,建立文本块与形状对象或连线的关联;根据连线的端点,找到连线的邻近对象,所述邻近对象包括邻近连线和邻近形状对象;根据连线的类别,将相邻连线进行整合,获得整合连线;建立所述整合连线、邻近形状对象和文本块的关联,并获得结构化信息。
[0008]可以通过机器学习的方法识别图形类别:
[0009]通过CNN+FPN或SwinTransformer的方法抽取文档页面的视觉特征;
[0010]获取页面中对象在视觉特征中的候选框;
[0011]所述候选框池化后,通过神经网络获得到各种对象的边框和初步粗分类(区分Diagram和非Diagram);
[0012]将所述候选框的特征图送入掩膜预测模块,得到候选框的掩膜;
[0013]从直接上采样或将FPN多尺度特征融合之后再上采样得到的第二特征图中,获得所述边框相应的精细特征;
[0014]针对所述精细特征,在图形的相应范围内提取文本特征;
[0015]根据所述精细特征和文本特征,分别获得视觉向量和文本向量;
[0016]将所述视觉向量和文本向量拼接后,通过多层感知机进行分类,获得图形更细致的类别。
[0017]可以通过Region Proposal Network(RPN)得到上述候选框;
[0018]所述候选框通过RoIAlign池化后,通过MLP获得经过校正的边框和粗分类;
[0019]将特征图进行上采样,恢复到原图尺寸,获得更精细的第二特征图;
[0020]根据所述边框的位置和大小,从所述第二特征图中获得对应的精细特征;
[0021]进行文本检测,获得文本框的位置,并识别其中的文本;
[0022]采用简单词向量或语境相关的方法,获得文本内容每个词(token)的词向量;
[0023]对文本块中的词向量进行池化操作,得到文本块向量;
[0024]对图形中所有文本块向量进行池化操作,获得所述图形的文本向量;
[0025]将图形对应的精细特征经1x1卷积降维后,通过多层感知机转变为视觉向量。
[0026]所述图形的细致类别根据具体应用有很多不同种类,例如包括股权结构图、组织架构图、框架图、流程图、工程图、电路图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种富格式文档的图形识别方法,其特征在于,所述方法包括:识别文档页面中图形的区域和类别;基于所述图形类别,获得图形区域中的对象,所述对象包括:形状对象、文本块和连线;根据文本块所在的位置,建立文本块与形状对象或连线的关联;根据连线的端点,找到连线的邻近对象,所述邻近对象包括邻近连线和邻近形状对象;根据连线的类别,将相邻连线进行整合,获得整合连线;建立所述整合连线、邻近形状对象和文本块的关联,并获得结构化信息。2.根据权利要求1所述的图形识别方法,其特征在于,通过机器学习的方法识别图形类别:识别文档页面的视觉特征;获取页面中对象在视觉特征中的候选框;所述候选框池化后,通过神经网络获得到边框和粗分类;根据所述粗分类,获得图形的边框或对象;所述图形的视觉特征上采样或多尺度视觉特征融合后上采样,获得第二特征图;获得所述边框相应的精细特征;针对所述精细特征,在图形的相应范围内提取文本特征;根据所述精细特征和文本特征,分别获得视觉向量和文本向量;将所述视觉向量和文本向量拼接后,通过多层感知机进行分类,获得图形类别。3.根据权利要求2所述的图形识别方法,其特征在于,通过CNN+FPN或SwinTransformer的方法,提取图形的视觉特征;通过RPN从所述视觉特征中获得候选框;所述候选框通过RoIAlign池化后,通过MLP对所述候选框进行校正,获得的边框和粗分类;根据所述边框的位置和大小,从所述第二特征图中获得精细特征;对所述精细特征或边框进行文本检测,获得文本框的位置和文本特征;采用简单词向量或语境相关的方法,获得文本特征的词向量;对文本块中的词向量进行池化操作,得到文本块向量;对图形中所有文本块向量进行池化操作,获得所述页面或图形的文本向量;将精细特征经1x1卷积降维后,通过多层感知机转变为视觉向量。4.根据权利要求2所述的图形识别方法,其特征在于,所述图形类别包括股权结构图、组织架构图、框架图、流程图、工程图、电路图和分子结构图。5.根据权利要求2所述的图形识别方法,其特征在于,将所述候选框的特征图送入掩膜预测模块,得到候选框的掩膜。6.根据权利要求5所述的图形识别方法,其特征在于,所述连线或整合连线的类型包括:直线、分叉线、折线和曲线;所述分叉线包括总线部分和分线部分,所述分叉线整合的方法包括:根据所述掩膜,识别连线的端点,所述端点包括起点和终点;根据所述连线...

【专利技术属性】
技术研发人员:王俊乔美萱向俊夫侯启予
申请(专利权)人:南京吾道知信信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1