一种基于OCR识别技术的营业执照企业信息提取方法技术

技术编号:37086910 阅读:16 留言:0更新日期:2023-03-29 20:02
本发明专利技术公开了一种基于OCR识别技术的营业执照企业信息提取方法,包括以下步骤:S1图像数据准备、S2图像数据预处理、S3营业执照信息版面划分、S4数据计算、S5划分综合概率和S6划分最终概率。步骤S1图像数据准备包括以下步骤,S11:选取准备;S12:数据储存;步骤S2图像数据预处理包括以下步骤,S21:图像过滤;S22:图像修正;S23:统一格式;步骤S3营业执照信息版面划分包括以下步骤,S31:版面划分,S32:等距划分,S33:水平划分,S34:文本识别,步骤S4数据计算包括以下步骤,S41:判定分布;S42:面积计算;S43:计算概率;该基于OCR识别技术的营业执照企业信息提取方法,简单快捷,本方法实现简单,可以广泛的应用于各类办公场景。可以广泛的应用于各类办公场景。可以广泛的应用于各类办公场景。

【技术实现步骤摘要】
一种基于OCR识别技术的营业执照企业信息提取方法


[0001]本专利技术涉及图像处理
,具体为一种基于OCR识别技术的营业执照企业信息提取方法。

技术介绍

[0002]OCR(optical character recognition)技术可以对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息,营业执照企业信息录入时,很多在需要存储企业信息时候,很多情况都是每个企业只有一张营业执照的图片文件,需要录入企业名称、统一社会信用代码等企业信息;
[0003]但是现有技术中的营业执照企业信息提取方法,还存在许多不足之处,比如,针对营业执照企业信息提取,仅仅利用OCR识别技术提取文字缺乏针对性。OCR技术通常会直接提取目标的全部文字信息,需要再进一步利用人工筛选,也需要大量的人力成本,因此需要,一种基于OCR识别技术的营业执照企业信息提取方法,来解决上述问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于OCR识别技术的营业执照企业信息提取方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于OCR识别技术的营业执照企业信息提取方法,包括以下步骤:S1图像数据准备、S2图像数据预处理、S3营业执照信息版面划分、S4数据计算、S5划分综合概率和S6划分最终概率;
[0006]步骤S1图像数据准备包括以下步骤:
[0007]S11:选取准备,可以利用高拍仪、手机或者其他摄像社保采集营业执照图像数据;
[0008]S12:数据储存,将采集的营业执照图像保存,并传输至OCR识别设备内;
[0009]步骤S2图像数据预处理包括以下步骤:
[0010]S21:图像过滤,进行识别的营业执照图像应当清晰,无噪点或少噪点,关键信息无遮挡;
[0011]S22:图像修正,对营业执照图像数据进行图像噪声过滤、图像校正等;
[0012]S23:统一格式,经过修正后的图像,进行统一图像尺寸格式;
[0013]步骤S3营业执照信息版面划分包括以下步骤:
[0014]S31:版面划分,将营业执照信息版面分为标题、所需字段、其他字段等三大部分;
[0015]S32:等距划分,原始大小状态下将营业执照图像进行3
×
3等距划分,获取9个子区域的位置坐标范围,以该9个子区域为营业执照图像版面区域划分;
[0016]S33:水平划分,将等距划分后的图像以3列进行划分,垂直方向从10

30行进行随机筛选进行划分;
[0017]S34:文本识别,利用OCR识别技术提取营业执照图像全部文本内容,并获取文本内容坐标信息;
[0018]步骤S4数据计算包括以下步骤:
[0019]S41:判定分布,针对步骤S33得到结果,判定步骤S34获取所有文本内容落入网格子区域的分布情况,计算每个文本内容落入每个网格子区域的面积比;
[0020]S42:面积计算,假定文本分布为等概率情况,以面积比作为文本内容属于相应网格子区域的概率值;
[0021]S43:计算概率,经步骤S42得到所有文本内容属于所有网格子区域的概率值;
[0022]步骤S5划分综合概率包括以下步骤:
[0023]S51:随机筛选,针对步骤S33,从10

30行进行再随机筛选进行划分,重复步骤5

8,得到新的一组所有文本内容属于营业执照图像版面区域划分9个子区域的概率值;
[0024]S52:区域概率,到5

10组所有文本属于营业执照图像版面区域划分9个子区域的概率值;
[0025]S53:综合概率,利用熵权系数法综合确定所有文本属于营业执照图像版面区域划分9个子区域的综合概率值;
[0026]步骤S6划分最终概率包括以下步骤:
[0027]S61:区域划分,从重复实验结果中,筛选出检测出现频率超过85%的文本内容,并将其多次得到属于营业执照图像版面区域划分9个子区域的综合概率值;
[0028]S62:版面数据确定,对区域版面进行综合计算,得到该文本内容属于营业执照图像版面区域划分9个子区域的最终概率值。
[0029]优选的,还包括步骤S7信息确定,确定经过步骤S62后计算的版面数据。
[0030]优选的,步骤S7信息确定具体操作为:
[0031]S71:划分匹配,将筛选出的文本内容和步骤S3的进行版面划分进行匹配。
[0032]优选的,以步骤S5的结果,结合步骤S3的结果,计算一组所有文本内容属于营业执照图像版面区域划分9个子区域的概率值。
[0033]优选的,步骤S33,水平方向划分为3列,垂直方向从10

30数值随机筛选:17,将图像分别以17
×
3进行网格划分,得到51个网格子区域。
[0034]优选的,步骤S33,划分后,获取对应划分网格子区域的位置范围,以及对应划分网格子区域落入营业执照图像版面区域划分9个子区域的分布情况,计算每个网格子区域落入营业执照图像版面区域划分9个子区域的面积比,如果网格子区域没有落入到某个营业执照图像版面子区域,则判定其网格子区域在该营业执照图像版面子区域的面积比为0。
[0035]优选的,步骤53中还包括:
[0036]S531:检测文本,在1

5直接随机筛选值,例如2.5,将图像放大2.5倍,从步骤S3开始到步骤S5,得到新一组检测文本属于营业执照图像版面区域划分9个子区域的综合概率值。
[0037]优选的,步骤S42中,利用熵权系数法进行综合计算,得到该文本内容属于营业执照图像版面区域划分9个子区域的最终概率值。
[0038]优选的,步骤S42中,利用熵值系数法进行综合计算,得到该文本内容属于营业执照图像版面区域划分9个子区域的最终概率值。
[0039]优选的,经过步骤S7后,匹配后,最终确定相应营业执照的信息,并进行归类,得到所需的企业信息,保存提取的企业信息结果。
[0040]与现有技术相比,本方案设计了一种基于OCR识别技术的营业执照企业信息提取方法,具有下述有益效果:
[0041](1)该提取方法,降低人力成本,提高企业信息录入效率;
[0042](2)该提取方法,针对企业营业执照信息提取这一场景,为企业信息录入工作提供一种快速准确信息化录入方法;
[0043](3)该提取方法,完全智能化,中间过程不需要人工进行干预,自动提取所需的企业信息;
[0044](4)该提取方法,简单快捷,本方法实现简单,可以广泛的应用于各类办公场景。
附图说明
[0045]图1为本专利技术的技术流程图。
具体实施方式
[0046]下面对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR识别技术的营业执照企业信息提取方法,其特征在于:包括以下步骤:S1图像数据准备、S2图像数据预处理、S3营业执照信息版面划分、S4数据计算、S5划分综合概率和S6划分最终概率;步骤S1图像数据准备包括以下步骤:S11:选取准备,可以利用高拍仪、手机或者其他摄像社保采集营业执照图像数据;S12:数据储存,将采集的营业执照图像保存,并传输至OCR识别设备内;步骤S2图像数据预处理包括以下步骤:S21:图像过滤,进行识别的营业执照图像应当清晰,无噪点或少噪点,关键信息无遮挡;S22:图像修正,对营业执照图像数据进行图像噪声过滤、图像校正等;S23:统一格式,经过修正后的图像,进行统一图像尺寸格式;步骤S3营业执照信息版面划分包括以下步骤:S31:版面划分,将营业执照信息版面分为标题、所需字段、其他字段等三大部分;S32:等距划分,原始大小状态下将营业执照图像进行3
×
3等距划分,获取9个子区域的位置坐标范围,以该9个子区域为营业执照图像版面区域划分;S33:水平划分,将等距划分后的图像以3列进行划分,垂直方向从10

30行进行随机筛选进行划分;S34:文本识别,利用OCR识别技术提取营业执照图像全部文本内容,并获取文本内容坐标信息;步骤S4数据计算包括以下步骤:S41:判定分布,针对步骤S33得到结果,判定步骤S34获取所有文本内容落入网格子区域的分布情况,计算每个文本内容落入每个网格子区域的面积比;S42:面积计算,假定文本分布为等概率情况,以面积比作为文本内容属于相应网格子区域的概率值;S43:计算概率,经步骤S42得到所有文本内容属于所有网格子区域的概率值;步骤S5划分综合概率包括以下步骤:S51:随机筛选,针对步骤S33,从10

30行进行再随机筛选进行划分,重复步骤5

8,得到新的一组所有文本内容属于营业执照图像版面区域划分9个子区域的概率值;S52:区域概率,到5

10组所有文本属于营业执照图像版面区域划分9个子区域的概率值;S53:综合概率,利用熵权系数法综合确定所有文本属于营业执照图像版面区域划分9个子区域的综合概率值;步骤S6划分最终概率包括以下步骤:S61:区域划分,从重复实验结果中,筛选出检测出现频率超过85%的文本内容,并将其多次得到属于营业执照图像版面区域划分9个子区域的综合概率值;S62:版面数据确定,对区域版面进行综合计算,得到该文本内...

【专利技术属性】
技术研发人员:李爽杨玉东刘占柱韩锋赵爽桂东旭苏恒强
申请(专利权)人:长春市万易科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1