基于图像的文本获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34636610 阅读:28 留言:0更新日期:2022-08-24 15:10
本公开提供了一种基于图像的文本获取方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景。具体实现方案为:获取文档图像,文档图像包括:文本内容,获取文档图像的图像网格特征,根据图像网格特征,获取与文本内容对应的视觉语义特征,根据视觉语义特征,从文档图像中获取目标文本。由于文档图像的图像网格特征能够表征文档图像中所包含内容的空间维度特征和语义维度特征,实现联合文档图像的空间维度特征和语义维度特征,识别出文档图像中所包含文本内容的视觉语义特征,有效丰富了视觉语义特征的空间语义信息,有效提升目标文本获取的准确性。有效提升目标文本获取的准确性。有效提升目标文本获取的准确性。

【技术实现步骤摘要】
基于图像的文本获取方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,具体涉及深度学习、图像处理、计算机视觉
,尤其涉及一种基于图像的文本获取方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]相关技术中,通常是在一维语义空间中进行特征建模,以提取对应的特征用于获取目标文本。

技术实现思路

[0004]本公开提供了一种基于图像的文本获取方法、装置、电子设备、存储介质及计算机程序产品。
[0005]根据本公开的第一方面,提供了一种基于图像的文本获取方法,包括:获取文档图像,其中,所述文档图像包括:文本内容,获取所述文档图像的图像网格特征,根据所述图像网格特征,获取与所述文本内容对应的视觉语义特征,根据所述视觉语义特征,从所述文档图像中获取目标文本。
[0006]根据本公开的第二方面,提供了一种基于图像的文本获取装置,包括:第一获取模块,用于获取文档图像,其中,所述文档图像包括:文本内容;第二获取模块,用于获取所述文档图像的图像网格特征;第三获取模块,用于根据所述图像网格特征,获取与所述文本内容对应的视觉语义特征;第四获取模块,用于根据所述视觉语义特征,从所述文档图像中获取目标文本。
[0007]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一方面实施例的基于图像的文本获取方法。
[0008]根据本公开的第四方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开第一方面实施例的基于图像的文本获取方法。
[0009]根据本公开的第五方面,提出了一种计算机程序产品,包括计算机程序,当计算机程序由处理器执行时实现本公开第一方面实施例的基于图像的文本获取方法。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开第一实施例的示意图;
[0013]图2是根据本公开第二实施例的示意图;
[0014]图3是根据本公开第三实施例的示意图;
[0015]图4是本公开实施例中的语义编码器的任务形式示意图;
[0016]图5是根据本公开第四实施例的示意图;
[0017]图6本公开实施例中的目标文本获取流程示意图;
[0018]图7是根据本公开第五实施例的示意图;
[0019]图8是根据本公开第六实施例的示意图;
[0020]图9示出了可以用来实施本公开的实施例的基于图像的文本获取方法的示例电子设备的示意性框图。
具体实施方式
[0021]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0022]图1是根据本公开第一实施例的示意图。
[0023]其中,需要说明的是,本实施例的基于图像的文本获取方法的执行主体为基于图像的文本获取装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
[0024]本公开实施例涉及人工智能
,具体涉及深度学习、图像处理、计算机视觉
,可应用于光学字符识别(Optical Character Recognition,OCR)等场景。
[0025]其中,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
[0026]深度学习,是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
[0027]图像处理,是利用计算机技术对图像进行分析,以达到所需图像结果的技术,图像处理一般指数字图像处理,图像处理技术一般包括图像变换,图像压缩,图像增强和复原,图像匹配、描述和识别等。
[0028]计算机视觉,计算机视觉是用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
[0029]光学字符识别(Optical Character Recognition,OCR),是指利用电子设备(例如扫描仪或数码相机)检查图像中的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字。
[0030]如图1所示,该基于图像的文本获取方法,包括:
[0031]S101:获取文档图像,其中,文档图像包括:文本内容。
[0032]其中,文档图像,是指将文档格式的文本转换为图像格式后包含文档内容的图像,该文档内容可以包括文本、表格或者数字表单等,文档图像可以为对纸质文档进行扫描后得到的文档扫描图像,或者可以为对电子文档进行截图处理后得到的文档截图图像等,对此不做限制。
[0033]其中,文本内容,是指文档图像中文本部分对应的区域图像。
[0034]本公开实施例中,在获取文档图像时,可以利用扫描仪等扫描装置对纸质文档进行扫描处理,以获取对应的文档扫描图像,并将获取到的文档扫描图像作为文档图像,或者可以对电子文档进行截图处理,以获取对应的文档截图图像,并将获取到的文档截图图像作为文档图像,文档图像中包含文本内容,文本内容为文档中文本部分对应的区域图像。
[0035]另一些实施例中,在获取文档图像时,还可以在基于图像的文本获取装置上配置数据采集装置,利用图像采集装置采集文档文件,并将文档文件进行格式转换处理,将文档格式转换为图片格式,以获取对应的图像作为文档图像,或者也可以预先在基于图像的文本获取装置上配置数据传输接口,经由该数据传输接口接收其他电子设备传输的包含文档内容的图像作为文档图像,或者也可以采用其他任意可能的方式获取文档图像,对此不做限制本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像的文本获取方法,包括:获取文档图像,其中,所述文档图像包括:文本内容;获取所述文档图像的图像网格特征;根据所述图像网格特征,获取与所述文本内容对应的视觉语义特征;根据所述视觉语义特征,从所述文档图像中获取目标文本。2.根据权利要求1所述的方法,其中,所述根据所述图像网格特征,获取与所述文本内容对应的视觉语义特征,包括:生成与所述文本内容对应的文本网格特征;根据所述图像网格特征和所述文本网格特征,生成所述视觉语义特征。3.根据权利要求2所述的方法,其中,所述生成与所述文本内容对应的文本网格特征,包括:确定网格尺寸信息;根据所述网格尺寸信息,生成初始空间网格;获取所述文本内容的文本内容特征;将所述文本内容特征映射至所述初始空间网格中,得到所述文本网格特征。4.根据权利要求3所述的方法,其中,所述确定网格尺寸信息,包括:将所述图像网格特征的尺寸信息作为所述网格尺寸信息。5.根据权利要求3所述的方法,其中,所述获取所述文本内容的文本内容特征,包括:获取所述文本内容的语义特征;获取所述文本内容相对于所述文档图像的位置特征;将所述语义特征和所述位置特征共同作为所述文本内容特征。6.根据权利要求5所述的方法,其中,所述将所述文本内容特征映射至所述初始空间网格中,得到所述文本网格特征,包括:确定所述初始空间网格中与所述位置特征对应的待映射位置;将所述语义特征映射至所述初始空间网格中所述待映射位置处,得到目标空间网格;确定所述目标空间网格的空间网格特征,并将所述空间网格特征作为所述文本网格特征。7.根据权利要求5所述的方法,其中,所述获取所述文本内容的语义特征,包括:获取与所述文本内容对应的文本语言特征;根据所述文本语言特征,确定所述文本内容的语义特征。8.根据权利要求2所述的方法,其中,所述根据所述图像网格特征和所述文本网格特征,生成所述视觉语义特征,包括:融合所述图像网格特征和所述文本网格特征,得到融合网格特征;对所述融合网格特征进行编码处理,得到编码结果特征;将所述编码结果特征作为所述视觉语义特征。9.根据权利要求8所述的方法,其中,所述融合所述图像网格特征和所述文本网格特征,得到融合网格特征,包括:从所述图像网格特征中解析与多个特征位置分别对应的多个图像特征;从所述文本网格特征中解析与所述多个特征位置分别对应的多个文本特征;
对与所述特征位置对应的所述图像特征和所述文本特征进行融合处理,得到融合特征;根据所述多个特征位置和相应多个所述融合特征,生成所述融合网格特征。10.根据权利要求1所述的方法,其中,所述根据所述视觉语义特征,从所述文档图像中获取目标文本,包括:获取文本需求信息;确定与所述文本需求信息对应的需求语义特征;根据所述视觉语义特征,从所述文档图像中获取与所述需求语义特征所匹配文本作为所述目标文本。11.一种基于图像的文本获取装置,包括:第一获取模块,用于获取文档图像,其中,所述文档图像包括:文本内容;第二获取模块,用于获取所述文档图像的图像网格特征;第三获取模块,用于根据所述图像网格特征,获取与所述文本内容对应的视觉语义特征;第四获取模...

【专利技术属性】
技术研发人员:曹健健李煜林钦夏孟姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1