【技术实现步骤摘要】
基于深度学习的文本信息抽取方法、装置、设备及介质
[0001]本公开涉及人工智能
,具体涉及一种基于深度学习的文本信息抽取方法
、
装置
、
设备及介质
。
技术介绍
[0002]随着数字化时代的到来,可以对纸质文件进行拍照
、
上传,实现纸质文件的数字化存储
。
在上述数字化存储过程中,还可以对以图形形式存储的文件进行文本识别
。
[0003]现有技术中,可以通过
OCR
技术实现全文本图像的识别
。
但是,全本图像识别过程中存在下述问题:在全文本图像中出现其他图形标识时,影响文本识别的准确性
。
技术实现思路
[0004]鉴于上述问题,本公开提供了的一种基于深度学习的文本信息抽取方法
、
装置
、
设备
、
介质和程序产品
。
[0005]根据本公开的第一个方面,提供了一种基于深度学习的文本信息抽取方法,包括:利用图像方向分类模型,确定已获取的待处理图像的倾斜方向,其中,待处理图像包括用于表征身份信息的特定图形标记和文本信息,图像方向分类,模型是基于深度学习算法训练的;
[0006]基于倾斜方向对待处理图像进行方向矫正,得到第一处理图像;
[0007]根据第一处理图像的色彩信息,从第一处理图像中清除特定图形标记,得到第二处理图像;
[0008]提取第二处理图像中的文本信息;以及< ...
【技术保护点】
【技术特征摘要】
1.
一种基于深度学习的文本信息抽取方法,包括:利用图像方向分类模型,确定已获取的待处理图像的倾斜方向,其中,所述待处理图像包括用于表征身份信息的特定图形标记和文本信息,所述图像方向分类模型是基于深度学习算法训练的;基于所述倾斜方向对所述待处理图像进行方向矫正,得到第一处理图像;根据所述第一处理图像的色彩信息,从所述第一处理图像中清除所述特定图形标记,得到第二处理图像;提取所述第二处理图像中的文本信息;以及按照预定格式处理所述文本信息,以便通过交互界面向用户展示所述文本信息
。2.
根据权利要求1所述的方法,其中,所述根据所述第一处理图像的色彩信息,从所述第一处理图像中清除所述特定图形标记,得到第二处理图像,包括:根据所述第一处理图像的色彩信息,确定所述第一处理图像的红色通道参数矩阵
、
绿色通道参数矩阵和蓝色通道参数矩阵;根据所述绿色通道参数矩阵和
/
或所述蓝色通道参数矩阵,更新所述红色通道参数矩阵,其中,更新后的红色通道参数矩阵中不包括与所述特定图形标记相关的红色通道参数;利用更新后的红色通道参数矩阵
、
所述绿色通道参数矩阵和所述蓝色通道参数矩阵,形成所述第二处理图像
。3.
根据权利要求2所述的方法,其中,所述根据所述绿色通道参数矩阵和
/
或所述蓝色通道参数矩阵,更新所述红色通道参数矩阵包括:利用所述绿色通道参数矩阵或所述蓝色通道参数矩阵替换所述红色通道参数矩阵;或者利用所述绿色通道参数矩阵和所述蓝色通道参数矩阵的融合矩阵替换所述红色通道参数矩阵
。4.
根据权利要求1所述的方法,其中,所述利用图像方向分类模型,确定已获取的待处理图像的倾斜方向,包括:将所述待处理图像输入图像方向分类模型,输出倾斜方向概率序列,其中,所述倾斜方向概率序列包括
M
个倾斜方向类各自的概率信息,
M
为正整数,所述图像方向分类模型包括卷积神经网络;以及基于所述倾斜方向概率序列,确定所述待处理图像的倾斜方向
。5.
根据权利要求1所述的方法,其中,所述提取所述...
【专利技术属性】
技术研发人员:郭子瑜,胡怀迪,马玉辉,李学伟,邵礼旭,梅广旭,李泽强,王菁华,
申请(专利权)人:齐鲁空天信息研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。