一种富格式文档的图形识别方法和系统技术方案

技术编号：34113402 阅读：10 留言：0更新日期：2022-07-12 01:47

本发明专利技术公开了一种富格式文档的图形识别方法和系统，属于图形识别技术领域，所述方法包括：识别文档页面中图形的区域和类别；基于所述图形类别，获得图形区域中的对象，所述对象包括：形状对象、文本块和连线；根据文本块所在的位置，建立文本块与形状对象或连线的关联；根据连线的端点，找到连线的邻近对象；根据连线的类别，将相邻连线进行整合，获得整合连线；建立所述整合连线、邻近形状对象和文本块的关联，并获得结构化信息。图形类别不同，对象的形式和连接形式不同，基于图形类别的图形识别，可以有效提高识别的准确性；根据连线的类别，将连线的各个连线进行整合，获得整合连线，利于识别复杂图形中对象之间连接关系。利于识别复杂图形中对象之间连接关系。利于识别复杂图形中对象之间连接关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种富格式文档的图形识别方法和系统

[0001]本专利技术涉及图形识别
，具体涉及一种富格式文档的图形识别方法和系统。

技术介绍

[0002]随着数字化智能化等技术的发展，对各行各业中用到的图文并茂并茂的富格式文档(Rich
‑
format)自动处理的需求越来越迫切，例如：金融相关的各类公告、分析报告中具有股权结构图和组织架构图；专利文档中，具有系统框架图和流程图；科学技术论文和报告具有大量框架图和流程图。
[0003]为了实现富格式文档信息的深度结构化，构建领域专业知识图谱，对文档中包含各式各样图(Figure)中识别和理解是其中重要的环节，其中的图形含有大量可以转化为知识图谱的并存储到数据库中的结构化信息。
[0004]目前，采用基于深度学习的图形识别方法进行图形识别，包括基于图形处理的传统方法和基于目标检测的方法。例如以下文献采用了基于图形处理的传统方法对流程图进行识别，专利搜索中非文本信息检索的流程图识别(Flowchart recognition for non
‑
textual information retrieval in patent search,Information Retrieval,Universitat Aut
ò
noma de Barcelona)、专利图像中流程图的可视化结构分析(JOANNEUM RESEARCH Forschungsgesel Ischaft mbH,DIGITAL
‑
I...

【技术保护点】

【技术特征摘要】
1.一种富格式文档的图形识别方法，其特征在于，所述方法包括：识别文档页面中图形的区域和类别；基于所述图形类别，获得图形区域中的对象，所述对象包括：形状对象、文本块和连线；根据文本块所在的位置，建立文本块与形状对象或连线的关联；根据连线的端点，找到连线的邻近对象，所述邻近对象包括邻近连线和邻近形状对象；根据连线的类别，将相邻连线进行整合，获得整合连线；建立所述整合连线、邻近形状对象和文本块的关联，并获得结构化信息。2.根据权利要求1所述的图形识别方法，其特征在于，通过机器学习的方法识别图形类别：识别文档页面的视觉特征；获取页面中对象在视觉特征中的候选框；所述候选框池化后，通过神经网络获得到边框和粗分类；根据所述粗分类，获得图形的边框或对象；所述图形的视觉特征上采样或多尺度视觉特征融合后上采样，获得第二特征图；获得所述边框相应的精细特征；针对所述精细特征，在图形的相应范围内提取文本特征；根据所述精细特征和文本特征，分别获得视觉向量和文本向量；将所述视觉向量和文本向量拼接后，通过多层感知机进行分类，获得图形类别。3.根据权利要求2所述的图形识别方法，其特征在于，通过CNN+FPN或SwinTransformer的方法，提取图形的视觉特征；通过RPN从所述视觉特征中获得候选框；所述候选框通过RoIAlign池化后，通过MLP对所述候选框进行校正，获得的边框和粗分类；根据所述边框的位置和大小，从所述第二特征图中获得精细特征；对所述精细特征或边框进行文本检测，获得文本框的位置和文本特征；采用简单词向量或语境相关的方法，获得文本特征的词向量；对文本块中的词向量进行池化操作，得到文本块向量；对图形中所有文本块向量进行池化操作，获得所述页面或图形的文本向量；将精细特征经1x1卷积降维后，通过多层感知机转变为视觉向量。4.根据权利要求2所述的图形识别方法，其特征在于，所述图形类别包括股权结构图、组织架构图、框架图、流程图、工程图、电路图和分子结构图。5.根据权利要求2所述的图形识别方法，其特征在于，将所述候选框的特征图送入掩膜预测模块，得到候选框的掩膜。6.根据权利要求5所述的图形识别方法，其特征在于，所述连线或整合连线的类型包括：直线、分叉线、折线和曲线；所述分叉线包括总线部分和分线部分，所述分叉线整合的方法包括：根据所述掩膜，识别连线的端点，所述端点包括起点和终点；根据所述连线...

【专利技术属性】
技术研发人员：王俊，乔美萱，向俊夫，侯启予，
申请(专利权)人：南京吾道知信信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人