用于处理图像的方法、装置、设备以及存储介质制造方法及图纸

技术编号：26792452 阅读：24 留言：0更新日期：2020-12-22 17:08

本申请公开了一种用于处理图像的方法、装置、设备以及存储介质，涉及图像处理、云计算、深度学习、自然语言处理领域。具体实现方案为：获取目标图像；识别目标图像中的文字信息；确定文字信息对应的语义特征向量和视觉特征向量；根据语义特征向量、视觉特征向量以及预训练的二分类模型，确定目标图像中的表格区域，其中，预训练的二分类模型用于根据文字信息对应的语义特征向量和视觉特征向量判断文字信息是否位于表格区域；输出表格区域的信息。本实现方式通过根据语义特征向量和视觉特征向量确定表格区域，可以使得对表格区域的检测更加精准，并且普适性更高。

全部详细技术资料下载

【技术实现步骤摘要】
用于处理图像的方法、装置、设备以及存储介质
本申请涉及图像处理领域，具体涉及图像处理、云计算、深度学习、自然语言处理领域，尤其涉及一种用于处理图像的方法、装置、设备以及存储介质。
技术介绍
随着人工智能技术的不断进步，使用人工智能来进行影像文档的智能分析越来越多。人工智能可以对影像进行方向和歪斜矫正、进行布局分析、进行内容识别等等，这些能力可以极大的方便各类涉及对影像文档进行录入、审核等的工作人员，极大的提升各类业务流程的智能化。针对含有表格的文档影像，进行表格区域的检测，是很多表格智能化应用的基础。目前针对文档影像的表格区域检测的准确性不高，检测效果不理想。
技术实现思路
本公开提供了一种用于处理图像的方法、装置、设备以及存储介质。根据本公开的一方面，提供了一种用于处理图像的方法，包括：获取目标图像；识别目标图像中的文字信息；确定文字信息对应的语义特征向量和视觉特征向量；根据语义特征向量、视觉特征向量以及预训练的二分类模型，确定目标图像中的表格区域，其中，预训练的二分类模型用于根据文字信...

【技术保护点】
1.一种用于处理图像的方法，包括：/n获取目标图像；/n识别所述目标图像中的文字信息；/n确定所述文字信息对应的语义特征向量和视觉特征向量；/n根据所述语义特征向量、所述视觉特征向量以及预训练的二分类模型，确定所述目标图像中的表格区域，其中，所述预训练的二分类模型用于根据所述文字信息对应的语义特征向量和视觉特征向量判断所述文字信息是否位于表格区域；/n输出所述表格区域的信息。/n

【技术特征摘要】
1.一种用于处理图像的方法，包括：
获取目标图像；
识别所述目标图像中的文字信息；
确定所述文字信息对应的语义特征向量和视觉特征向量；
根据所述语义特征向量、所述视觉特征向量以及预训练的二分类模型，确定所述目标图像中的表格区域，其中，所述预训练的二分类模型用于根据所述文字信息对应的语义特征向量和视觉特征向量判断所述文字信息是否位于表格区域；
输出所述表格区域的信息。

2.根据权利要求1所述的方法，其中，所述文字信息包括识别为同一行的至少一个子文字信息；以及
所述根据所述语义特征向量、所述视觉特征向量以及预训练的二分类模型，确定所述目标图像中的表格区域，包括：
对于每个子文字信息，组合该子文字信息对应的语义特征向量和视觉特征向量，得到组合特征向量；
根据各所述组合特征向量和所述预训练的二分类模型，确定各所述组合特征向量对应的标识，其中，所述预训练的二分类模型用于表征特征向量和标识之间的对应关系；
根据所述目标图像、各所述子文字信息以及各所述标识，确定所述目标图像中的表格区域。

3.根据权利要求2所述的方法，其中，所述标识包括第一标识；以及
所述根据所述目标图像、各所述子文字信息以及所述标识，确定所述目标图像中的表格区域，包括：
聚合所述第一标识对应的各子文字信息；
确定聚合后的各子文字信息对应的标注框为表格区域。

4.根据权利要求2所述的方法，其中，所述标识包括第一标识和第二标识，所述视觉特征向量包括多个与子文字信息对应的子视觉特征向量；以及
所述根据所述目标图像、各所述子文字信息以及所述标识，确定所述目标图像中的表格区域，包括：
根据所述第一标识对应的各子文字信息对应的各子视觉特征向量，确定所述第一标识对应的各子文字信息的第一位置信息；
根据所述第二标识对应的各子文字信息对应的各子视觉特征向量，确定所述第二标识对应的各子文字信息的第二位置信息；
根据所述目标图像、所述第一位置信息和所述第二位置信息，确定所述目标图像中的表格区域。

5.根据权利要求4所述的方法，其中，所述第一位置信息包括第一坐标和第二坐标，所述第二位置信息包括第三坐标和第四坐标，其中，所述第二坐标高于所述第一坐标，所述第四坐标高于所述第三坐标；以及
所述根据所述目标图像、所述第一位置信息和所述第二位置信息，确定所述目标图像中的表格区域，包括：
响应于确定所述第四坐标低于所述第一坐标或所述第三坐标高于所述第二坐标，聚合所述第一标识对应的各子文字信息；
确定聚合后的各文字信息对应的标注框为表格区域。

6.根据权利要求5所述的方法，其中，所述根据所述目标图像、所述第一位置信息和所述第二位置信息，确定所述目标图像中的表格区域，包括：
响应于确定所述第三坐标高于所述第一坐标，并且所述第四坐标低于所述第二坐标，聚合所述第一坐标和所述第三坐标之间的所述第一标识对应的各子文字信息，得到第一聚合子文字信息；以及聚合所述第四坐标和所述第二坐标之间的所述第一标识对应的各子文字信息，得到第二聚合子文字信息；
确定所述第一聚合子文字信息对应的标注框和所述第二聚合子文字信息对应的标注框为表格区域。

7.一种用于处理图像的装置，包括：
获取单元，被配置成获取目标图像；
识别单元，被配置成识别所述目标图像中的文字信息；
...

【专利技术属性】
技术研发人员：曲福，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人