字段结构化输出方法、装置及计算机可读存储介质制造方法及图纸

技术编号:23213213 阅读:32 留言:0更新日期:2020-01-31 22:01
本发明专利技术涉及一种人工智能技术,揭露了一种字段结构化输出方法,包括:获取包含待识别字段的图片组成产生的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集;利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集;对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框;利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段;对所述字段进行正则匹配,完成所述字段的结构化输出。本发明专利技术还提出一种字段结构化输出装置以及一种计算机可读存储介质。本发明专利技术实现了字段结构化的精准输出。

Field structured output method, device and computer readable storage medium

【技术实现步骤摘要】
字段结构化输出方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种基于正则匹配和位置检测的字段结构化输出方法、装置及计算机可读存储介质。
技术介绍
光学字符识别(OpticalCharacterRecognition,OCR)是指通过图像处理和模式识别技术对图片中的光学字符进行识别,并将光学字符翻译成计算机文字的过程,其主要过程为输入图像并进行预处理、二值化处理、去噪、字符切割和字符识别。图像识别OCR,广泛应用于各种证件、卡类甚至发票和单据,快速把图片内容转化为文字;主要用于解决快速卡证的信息输入,以及卡证的接口调用查询。目前通过图像识别OCR对场景文本位置检测和内容识别,在数据质量较好的情况下可以达到较高精度,但是输出的文本框位置和对应的内容具有一定程度的不确定性,并且识别的文本位置和内容识别的准确性不能得到保证。
技术实现思路
本专利技术提供一种字段结构化输出方法、装置及计算机可读存储介质,其主要目的在于当用户进行字段结构化输出时,给用户呈现出精准的输出结果。为实现上述目的,本专利技术提本文档来自技高网...

【技术保护点】
1.一种字段结构化输出方法,其特征在于,所述方法包括:/n获取包含待识别字段的图片组成的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集;/n利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集;/n对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框;/n利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段;/n对所述字段进行正则匹配,完成所述字段的结构化输出。/n

【技术特征摘要】
1.一种字段结构化输出方法,其特征在于,所述方法包括:
获取包含待识别字段的图片组成的图像数据集,对所述图像数据集进行预处理操作,得到目标图像数据集;
利用残差块神经网络对所述目标图像数据集进行特征提取,得到图像特征谱集;
对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,并根据所述文本的位置信息确定对应的文本框;
利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框中的字段;
对所述字段进行正则匹配,完成所述字段的结构化输出。


2.如权利要求1所述的字段结构化输出方法,其特征在于,所述对所述图像数据集进行预处理操作,得到目标图像数据集,包括:
通过各比例法将所述图像数据集中的图像转换为灰度图像,通过高斯滤波对所述灰度图像进行降噪;
对降噪后的所述灰度图像进行对比度增强,根据OTSU算法将对比度增强后的所述灰度图像进行阈值化操作,得到二值化图像;
利用主成分分析法对所述二值化图像进行降维,得到目标图像数据,产生所述目标图像数据集。


3.如权利要求1所述的字段结构化输出方法,其特征在于,所述对所述图像特征谱集进行文本检测,得到所述图像特征谱集中文本的位置信息,包括:
在所述图像特征谱集的图像文本区域生成一个几何图,并对所述几何图按照预设的比例进行缩放;
将缩放后的所述几何图作为训练集,通过预先构建的卷积神经网对所述训练集进行训练并得到所述几何图的损失;
利用类平衡交叉熵计算缩放后的所述几何图中的文本信息图损失;
将缩放后的所述几何图和文本信息图的损失输入至预设的损失函数中计算损失函数值,当所述损失函数值小于预设的阈值时,确定所述几何图的形状以及所述几何图中的文本信息,从而得到所述图像特征谱集中文本的位置信息。


4.如权利要求1所述的字段结构化输出方法,其特征在于,所述利用预先构建的文字识别神经网络对所述文本框进行文字识别,得到所述文本框的字段,包括:
通过所述文字识别神经网络的卷积层对所述文本框进行卷积操作,得到所述文本框的特征映射;
利用所述文字识别神经网络的Bi-LSTM层将所述特征映射转化为特征向量,并将所述特征向量输入至所述文字识别神经网络的全连接层中;
通过所述全连接层的分支对所述特征向量的横坐标、纵坐标以及文本进行预测,完成所述文本框的文字识别,得到所述文本框的字段。


5.如权利要求1至4中任意一项所述的字段结构化输出方法,其特征在于,所述正则匹配包含正则表达式和自动机;及
所述对所述字段进行正则匹配,完成所述字段的结构化输出,包括:
根据所述正则表达式对所述字段赋予规则字符串,并将赋予规则字符串后的所述字段中字符输入至所述自动机中;
记录所述自动机接收所述字段中字段时的活动状态;
根据所述活动...

【专利技术属性】
技术研发人员:陈少琼
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1