数据结构化输出方法、装置、电子设备、存储介质制造方法及图纸

技术编号:23984903 阅读:29 留言:0更新日期:2020-04-29 13:03
本发明专利技术提供一种基于表格检测的数据结构化输出方法、装置、电子设备、存储介质,基于表格检测的数据结构化输出方法包括:获取待识别票据图像;定位所述票据图像中的票据区域;对所述票据图像中的票据区域进行文字检测,检测文字位置以形成文本行;对所述票据区域进行表格检测获得所述票据区域中各矩形框的位置;根据所述矩形框的位置对所述文本行进行修正;以及根据经修正的文本行进行文字识别。本发明专利技术提高票据图像的文字识别中数据结构化输出的准确率,且算法简单,计算量小。

Data structured output method, device, electronic equipment, storage medium

【技术实现步骤摘要】
数据结构化输出方法、装置、电子设备、存储介质
本专利技术涉及计算机应用
,尤其涉及一种基于表格检测的数据结构化输出方法、装置、电子设备、存储介质。
技术介绍
在文字识别领域,尤其是对医疗保险结算单的识别,由于医疗保险结算单的大部分单据都是表格的形式,需要将表格中每个单元格中的文字内容进行检测识别,并根据业务的需求将关键属性项例如被保人信息、医疗费用、赔偿金额等等结构化输出,这对于识别的准确性具有极高的要求。但是在实际操作时,由于单元格大小的限制,有时一项属性在一个单元格中会分几行打印,或者打印满整个单元格导致和相邻单元格紧贴,这就会对后续的文字识别和数据结构化输出造成干扰,导致最终输出的结果错误。例如,如表一所示,在现有的文字检测识别中,第三行数据中的“地址”和“诊断”两个属性项都对应了“沙子坡镇炉塘村上宁组陈旧性股骨骨折”一个值,这显然是错误的,语义上发生了冲突地址诊断沙子坡镇炉塘村上宁组股骨骨折沙子坡镇炉塘村上宁组>陈旧性股骨骨折...

【技术保护点】
1.一种基于表格检测的数据结构化输出方法,其特征在于,包括:/n获取待识别票据图像;/n定位所述票据图像中的票据区域;/n对所述票据图像中的票据区域进行文字检测,检测文字位置以形成文本行;/n对所述票据区域进行表格检测获得所述票据区域中各矩形框的位置;/n根据所述矩形框的位置对所述文本行进行修正;以及/n根据经修正的文本行进行文字识别。/n

【技术特征摘要】
1.一种基于表格检测的数据结构化输出方法,其特征在于,包括:
获取待识别票据图像;
定位所述票据图像中的票据区域;
对所述票据图像中的票据区域进行文字检测,检测文字位置以形成文本行;
对所述票据区域进行表格检测获得所述票据区域中各矩形框的位置;
根据所述矩形框的位置对所述文本行进行修正;以及
根据经修正的文本行进行文字识别。


2.如权利要求1所述的基于表格检测的数据结构化输出方法,其特征在于,所述对所述票据区域进行表格检测获得所述票据区域中各矩形框的位置包括:
至少对所述票据区域进行倾斜矫正;
于倾斜矫正后的票据区域中检测出沿第一方向延伸的多条横线及沿第二方向延伸的多条纵线,所述第一方向垂直于所述第二方向;
获取各所述横线与各所述纵线的交点;以及
依据所述交点获得所述票据区域中各矩形框的位置。


3.如权利要求2所述的基于表格检测的数据结构化输出方法,其特征在于,所述至少对所述票据区域进行倾斜矫正包括:
采用霍夫直线检测算法于所述票据区域中检测出多条第一类直线,各所述第一类直线与第一方向之间的夹角小于预设角度阈值,且各所述第一类直线的长度大于预设长度阈值;
计算各所述第一类直线与所述第一方向或所述第二方向之间的夹角均值;
基于所述夹角均值相对于计算所述夹角均值的第一方向或所述第二方向矫正所述票据区域。


4.如权利要求2所述的基于表格检测的数据结构化输出方法,其特征在于,利用opencv的腐蚀及膨胀于倾斜矫正后的票据区域中检测出沿第一方向延伸的多条横线及沿第二方向延伸的多条纵线。


5.如权利要求2所述的基于表格检测的数据结构化输出方法,其特征在于,所述依据所述交点获得所述票据区域中各矩形框的...

【专利技术属性】
技术研发人员:沈程秀刘设伟马文伟
申请(专利权)人:泰康保险集团股份有限公司泰康在线财产保险股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1