图片中文本的提取方法、装置、设备及可读存储介质制造方法及图纸

技术编号:36846561 阅读:15 留言:0更新日期:2023-03-15 16:33
本申请公开了一种图片中文本的提取方法、装置、设备及可读存储介质。在获取待进行文本提取的图片之后,先将图片的存储格式转换为目标存储格式,目标存储格式中包括图片的字符串编码结果和图片的文本识别结果,图片的文本识别结果包括文本内容信息;再对预设存储格式进行解析,生成显示内容,显示内容包括图片以及处于可编辑状态的文本内容信息。该方案中,由于在显示图片的同时也可以显示处于可编辑状态的文本内容信息,因此,用户可以在浏览图片的同时对文本内容信息进行选择和复制操作,实现在浏览图片的同时对图片中文本进行直接提取。取。取。

【技术实现步骤摘要】
图片中文本的提取方法、装置、设备及可读存储介质


[0001]本申请涉及图片处理
,更具体的说,是涉及一种图片中文本的提取方法、装置、设备及可读存储介质。

技术介绍

[0002]在一些场景(比如,政法行业中,司法机关办案人员在办理案件过程,将纸质卷宗转化为电子卷宗的时候)中,往往需要提取图片中的文本。
[0003]现有技术中,图片只能以文件或二进制流的形式进行存储,如果要提取图片中的文本,需要利用诸如OCR(Optical Character Recognition,光学字符识别)之类的图片文本识别方法对图片中的文本进行识别提取,无法在图片浏览的时候,通过直接对图片中文本进行选择和复制操作实现图片中文本的提取。
[0004]因此,如何提供一种能够在浏览图片的同时对图片中文本进行直接提取的图片中文本的提取方法,成为本领域技术人员亟待解决的问题。

技术实现思路

[0005]鉴于上述问题,本申请提出了一种图片中文本的提取方法、装置、设备及可读存储介质。具体方案如下:
[0006]一种图片中文本的提取方法,所述方法包括:
[0007]获取待进行文本提取的图片;
[0008]将所述图片的存储格式转换为目标存储格式,所述目标存储格式中包括所述图片的字符串编码结果和所述图片的文本识别结果,所述图片的文本识别结果包括文本内容信息;
[0009]对所述预设存储格式进行解析,生成显示内容,所述显示内容包括所述图片以及所述文本内容信息,所述文本内容信息处于可编辑状态。r/>[0010]可选地,所述将所述图片的存储格式转换为目标存储格式,包括:
[0011]对所述图片进行字符串编码,得到所述图片的字符串编码结果;
[0012]对所述图片进行文本识别,得到所述图片的文本识别结果;
[0013]将所述图片的字符串编码结果和所述图片的文本识别结果进行封装,得到所述图片的目标存储格式。
[0014]可选地,所述对所述图片进行字符串编码,得到所述图片的字符串编码结果,包括:
[0015]采用Base64编码方式对所述图片进行字符串编码,得到所述图片的字符串编码结果。
[0016]可选地,所述对所述图片进行文本识别,得到所述图片的文本识别结果,包括:
[0017]采用光学字符识别OCR技术,对所述图片进行文本识别,得到所述图片的文本识别结果。
[0018]可选地,所述将所述图片的字符串编码结果和所述图片的文本识别结果进行封装,得到所述图片的目标存储格式,包括:
[0019]将所述图片的字符串编码结果和所述图片的文本识别结果进行加密,得到加密后的图片的字符串编码结果和加密后的图片的文本识别结果;
[0020]对所述加密后的图片的字符串编码结果和所述加密后的图片的文本识别结果进行封装,得到所述图片的目标存储格式。
[0021]可选地,所述图片的文本识别结果还包括文本内容信息的位置信息,则所述对所述预设存储格式进行解析,生成显示内容,包括:
[0022]对所述预设存储格式进行解析,生成显示内容,所述显示内容包括所述图片以及所述文本内容信息,所述显示内容中的文本内容信息是在所述图片中与所述文本内容信息的位置信息对应的位置处显示的,所述文本内容信息处于可编辑状态。
[0023]可选地,所述对所述目标存储格式进行解析,生成显示内容,包括:
[0024]调用预设的浏览器插件,对所述目标存储格式进行解析,生成显示内容;
[0025]或者,调用预设的桌面端工具,对所述目标存储格式进行解析,生成显示内容。
[0026]一种图片中文本的提取装置,所述装置包括:
[0027]获取单元,用于获取待进行文本提取的图片;
[0028]转换单元,用于将所述图片的存储格式转换为目标存储格式,所述目标存储格式中包括所述图片的字符串编码结果和所述图片的文本识别结果,所述图片的文本识别结果包括文本内容信息;
[0029]解析单元,用于对所述预设存储格式进行解析,生成显示内容,所述显示内容包括所述图片以及所述文本内容信息,所述文本内容信息处于可编辑状态。
[0030]可选地,所述转换单元,包括:
[0031]字符串编码单元,用于对所述图片进行字符串编码,得到所述图片的字符串编码结果;
[0032]文本识别单元,用于对所述图片进行文本识别,得到所述图片的文本识别结果;
[0033]封装单元,用于将所述图片的字符串编码结果和所述图片的文本识别结果进行封装,得到所述图片的目标存储格式。
[0034]可选地,所述字符串编码单元,具体用于:
[0035]采用Base64编码方式对所述图片进行字符串编码,得到所述图片的字符串编码结果。
[0036]可选地,所述文本识别单元,具体用于:
[0037]采用光学字符识别OCR技术,对所述图片进行文本识别,得到所述图片的文本识别结果。
[0038]可选地,所述封装单元,包括:
[0039]加密单元,用于将所述图片的字符串编码结果和所述图片的文本识别结果进行加密,得到加密后的图片的字符串编码结果和加密后的图片的文本识别结果;
[0040]封装子单元,用于对所述加密后的图片的字符串编码结果和所述加密后的图片的文本识别结果进行封装,得到所述图片的目标存储格式。
[0041]可选地,所述图片的文本识别结果还包括文本内容信息的位置信息,则所述解析
单元,具体用于:
[0042]对所述预设存储格式进行解析,生成显示内容,所述显示内容包括所述图片以及所述文本内容信息,所述显示内容中的文本内容信息是在所述图片中与所述文本内容信息的位置信息对应的位置处显示的,所述文本内容信息处于可编辑状态。
[0043]可选地,所述解析单元,包括:
[0044]第一解析子单元,用于调用预设的浏览器插件,对所述目标存储格式进行解析,生成显示内容;
[0045]或者,第二解析子单元,用于调用预设的桌面端工具,对所述目标存储格式进行解析,生成显示内容。
[0046]一种图片中文本的提取设备,包括存储器和处理器;
[0047]所述存储器,用于存储程序;
[0048]所述处理器,用于执行所述程序,实现如上所述的图片中文本的提取方法的各个步骤。
[0049]一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的图片中文本的提取方法的各个步骤。
[0050]借由上述技术方案,本申请公开了一种图片中文本的提取方法、装置、设备及可读存储介质。在获取待进行文本提取的图片之后,先将图片的存储格式转换为目标存储格式,目标存储格式中包括图片的字符串编码结果和图片的文本识别结果,图片的文本识别结果包括文本内容信息;再对预设存储格式进行解析,生成显示内容,显示内容包括图片以及处于可编辑状态的文本内容信息。该方案中,由于在显示图片的同时也本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图片中文本的提取方法,其特征在于,所述方法包括:获取待进行文本提取的图片;将所述图片的存储格式转换为目标存储格式,所述目标存储格式中包括所述图片的字符串编码结果和所述图片的文本识别结果,所述图片的文本识别结果包括文本内容信息;对所述预设存储格式进行解析,生成显示内容,所述显示内容包括所述图片以及所述文本内容信息,所述文本内容信息处于可编辑状态。2.根据权利要求1所述的方法,其特征在于,所述将所述图片的存储格式转换为目标存储格式,包括:对所述图片进行字符串编码,得到所述图片的字符串编码结果;对所述图片进行文本识别,得到所述图片的文本识别结果;将所述图片的字符串编码结果和所述图片的文本识别结果进行封装,得到所述图片的目标存储格式。3.根据权利要求2所述的方法,其特征在于,所述对所述图片进行字符串编码,得到所述图片的字符串编码结果,包括:采用Base64编码方式对所述图片进行字符串编码,得到所述图片的字符串编码结果。4.根据权利要求2所述的方法,其特征在于,所述对所述图片进行文本识别,得到所述图片的文本识别结果,包括:采用光学字符识别OCR技术,对所述图片进行文本识别,得到所述图片的文本识别结果。5.根据权利要求2所述的方法,其特征在于,所述将所述图片的字符串编码结果和所述图片的文本识别结果进行封装,得到所述图片的目标存储格式,包括:将所述图片的字符串编码结果和所述图片的文本识别结果进行加密,得到加密后的图片的字符串编码结果和加密后的图片的文本识别结果;对所述加密后的图片的字符串编码结果和所述加密后的图片的文本识别结果进行封装,得到所述图片的目标...

【专利技术属性】
技术研发人员:胡国彪洪响斌刘江昕宇胡运强李磊
申请(专利权)人:讯飞智元信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1