基于图像的文本获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：34636610 阅读：31 留言：0更新日期：2022-08-24 15:10

本公开提供了一种基于图像的文本获取方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别(Optical Character Recognition，OCR)等场景。具体实现方案为：获取文档图像，文档图像包括：文本内容，获取文档图像的图像网格特征，根据图像网格特征，获取与文本内容对应的视觉语义特征，根据视觉语义特征，从文档图像中获取目标文本。由于文档图像的图像网格特征能够表征文档图像中所包含内容的空间维度特征和语义维度特征，实现联合文档图像的空间维度特征和语义维度特征，识别出文档图像中所包含文本内容的视觉语义特征，有效丰富了视觉语义特征的空间语义信息，有效提升目标文本获取的准确性。有效提升目标文本获取的准确性。有效提升目标文本获取的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于图像的文本获取方法、装置、电子设备及存储介质

[0001]本公开涉及人工智能
，具体涉及深度学习、图像处理、计算机视觉
，尤其涉及一种基于图像的文本获取方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术，以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]相关技术中，通常是在一维语义空间中进行特征建模，以提取对应的特征用于获取目标文本。

技术实现思路

[0004]本公开提供了一种基于图像的文本获取方法、装置、电子设备、存储介质及计算机程序产品。
[0005]根据本公开的第一方面，提供了一种基于图像的文本获取方法，包括：获取文档图像，其中，所述文档图像包括：文本内...

【技术保护点】

【技术特征摘要】
1.一种基于图像的文本获取方法，包括：获取文档图像，其中，所述文档图像包括：文本内容；获取所述文档图像的图像网格特征；根据所述图像网格特征，获取与所述文本内容对应的视觉语义特征；根据所述视觉语义特征，从所述文档图像中获取目标文本。2.根据权利要求1所述的方法，其中，所述根据所述图像网格特征，获取与所述文本内容对应的视觉语义特征，包括：生成与所述文本内容对应的文本网格特征；根据所述图像网格特征和所述文本网格特征，生成所述视觉语义特征。3.根据权利要求2所述的方法，其中，所述生成与所述文本内容对应的文本网格特征，包括：确定网格尺寸信息；根据所述网格尺寸信息，生成初始空间网格；获取所述文本内容的文本内容特征；将所述文本内容特征映射至所述初始空间网格中，得到所述文本网格特征。4.根据权利要求3所述的方法，其中，所述确定网格尺寸信息，包括：将所述图像网格特征的尺寸信息作为所述网格尺寸信息。5.根据权利要求3所述的方法，其中，所述获取所述文本内容的文本内容特征，包括：获取所述文本内容的语义特征；获取所述文本内容相对于所述文档图像的位置特征；将所述语义特征和所述位置特征共同作为所述文本内容特征。6.根据权利要求5所述的方法，其中，所述将所述文本内容特征映射至所述初始空间网格中，得到所述文本网格特征，包括：确定所述初始空间网格中与所述位置特征对应的待映射位置；将所述语义特征映射至所述初始空间网格中所述待映射位置处，得到目标空间网格；确定所述目标空间网格的空间网格特征，并将所述空间网格特征作为所述文本网格特征。7.根据权利要求5所述的方法，其中，所述获取所述文本内容的语义特征，包括：获取与所述文本内容对应的文本语言特征；根据所述文本语言特征，确定所述文本内容的语义特征。8.根据权利要求2所述的方法，其中，所述根据所述图像网格特征和所述文本网格特征，生成所述视觉语义特征，包括：融合所述图像网格特征和所述文本网格特征，得到融合网格特征；对所述融合网格特征进行编码处理，得到编码结果特征；将所述编码结果特征作为所述视觉语义特征。9.根据权利要求8所述的方法，其中，所述融合所述图像网格特征和所述文本网格特征，得到融合网格特征，包括：从所述图像网格特征中解析与多个特征位置分别对应的多个图像特征；从所述文本网格特征中解析与所述多个特征位置分别对应的多个文本特征；
对与所述特征位置对应的所述图像特征和所述文本特征进行融合处理，得到融合特征；根据所述多个特征位置和相应多个所述融合特征，生成所述融合网格特征。10.根据权利要求1所述的方法，其中，所述根据所述视觉语义特征，从所述文档图像中获取目标文本，包括：获取文本需求信息；确定与所述文本需求信息对应的需求语义特征；根据所述视觉语义特征，从所述文档图像中获取与所述需求语义特征所匹配文本作为所述目标文本。11.一种基于图像的文本获取装置，包括：第一获取模块，用于获取文档图像，其中，所述文档图像包括：文本内容；第二获取模块，用于获取所述文档图像的图像网格特征；第三获取模块，用于根据所述图像网格特征，获取与所述文本内容对应的视觉语义特征；第四获取模...

【专利技术属性】
技术研发人员：曹健健，李煜林，钦夏孟，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人