图像中文本检测方法、装置、电子设备以及计算机介质制造方法及图纸

技术编号:26764524 阅读:37 留言:0更新日期:2020-12-18 23:40
本申请公开了一种图像中文本检测方法和装置,涉及图像处理技术领域。该方法的一具体实施方式包括:确定标注图像中的标注模板以及标注模板中的文本行;基于标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行中的文字,得到文字标注样本;基于文字标注样本,对文本检测模型训练,得到训练完成的文本检测模型,训练完成的文本检测模型输入为图像,输出为图像中文本行的位置;采用训练完成的文本检测模型对待测图像中的文本行进行预测,得到训练完成的文本检测模型输出的文本行的位置。该实施方式提升了文本检测的效率。

【技术实现步骤摘要】
图像中文本检测方法、装置、电子设备以及计算机介质
本申请涉及图像处理
,具体涉及计算机视觉
,尤其涉及一种图像中文本检测方法、装置、电子设备以及计算机可读介质。
技术介绍
日常生活中增值税发票、医疗收费票据等票据均需盖有印章,才能用于报销流程。印章中一般刻有企业名称、印章类型以及印章编号等信息,一般包含两类文字行:弯曲文字行、直线型文字行。现有的图像检测技术,通常是对图像中水平或垂直等常规中文文字进行检测,对于票据图像中混合了弯曲和非弯曲的复杂文字行位置的检测手段较少。
技术实现思路
提供了一种图像中文本检测方法、装置、电子设备以及计算机可读介质。根据第一方面,提供了一种图像中文本检测方法,上述方法包括:确定标注图像中的标注模板以及标注模板中的文本行;基于标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行中的文字,得到文字标注样本;基于文字标注样本,对文本检测模型训练,得到训练完成的文本检测模型,训练完成的文本检测模型输入为图像,输出为图像中文本行的位置信息;采用训练完成的文本检测模型对待测图像中的文本行进行预测,得到训练完成的文本检测模型输出的待测图像中的文本行的位置信息。根据第二方面,提供了一种图像中文本检测装置,该装置包括:确定单元,被配置成确定标注图像中的标注模板以及标注模板中的文本行;得到单元,被配置成基于标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行中的文字,得到文字标注样本;训练单元,被配置成基于文字标注样本,对文本检测模型训练,得到训练完成的文本检测模型,训练完成的文本检测模型输入为图像,输出为图像中文本行的位置信息;预测单元,被配置成采用训练完成的文本检测模型对待测图像中的文本行进行预测,得到训练完成的文本检测模型输出的待测图像中的文本行的位置信息。根据第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。本申请的实施例提供的图像中文本检测方法和装置,首先确定标注图像中的标注模板以及标注模板中的文本行;其次,基于标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行中的文字,得到文字标注样本;然后,基于文字标注样本,对文本检测模型训练,得到训练完成的文本检测模型,训练完成的文本检测模型输入为图像,输出为图像中文本行的位置信息;最后,采用训练完成的文本检测模型对待测图像中的文本行进行预测,得到训练完成的文本检测模型输出的待测图像中的文本行的位置信息。由此,基于图像中的标注模板的位置以及形状,采用多边形标注框标注标注模板中所有文本行中的文字,得到的文字标注样本的位置更加准确,实现了标注模板中文本行的标注的同时,还可以使训练完成的文本检测模型准确度更高,提升了文本检测的效率。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请图像中文本检测方法的一个实施例的流程图;图2是本申请采用至少一个多边形标注框标注所有文本行中的文字的方法的一种流程图;图3是本申请中对印章中所有文本行中的文字进行标注的一种示意图;图4是本申请得到训练完成的文本检测模型的方法的一种流程图;图5是根据本申请图像中文本检测装置的实施例的结构示意图;图6是用来实现本申请实施例的图像中文本检测方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1示出了根据本申请图像中文本检测方法的一个实施例的流程100。上述图像中文本检测方法包括以下步骤:步骤101,确定标注图像中的标注模板以及标注模板中的文本行。本实施例中,标注图像可以是预先设置的用于实现标注的图像,该标注图像可以是生活中具有增值税发票、医疗收费票据的图像,当然,标注图像也可以是用户输入的图像,用户决定对什么图像进行检测,确定什么文本的位置,并准备好需要标注的标注图像,以对标注图像进行数据标注。可选地,可以在确定标注图像中的标注模板前,对标注图像进行数据增强处理,数据增强处理包括:高斯噪声图像解析(在标注图像中增加高斯噪声),对图像进行旋转或翻转等。本实施例中,标注模板是标注图像中的图形,比如,在增值税发票或医疗收费票据的图像中,标注模板可以是印章,该印章可以是财务专用章、发票专用章等,进一步地,标注模型的形状可以是圆形、方形、菱形等不同形状,针对不同形状的标注模板,可以采用计算机视觉库软件确定标注模板的位置,比如采用OpenCV(OpenSourceComputerVisionLibrary)确定标注模板,OpenCV是一个种跨平台计算机视觉库,它轻量级而且高效——由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等多种语言接口,实现了图像处理和计算机视觉方面的很多通用算法。本实施例中,标注模板中的文本行可以是弯曲的文本行,也可以是非弯曲的文本行,针对不同的形状的文本行,可以采用计算机视觉库软件对标注模板中的文本的弯曲度进行分析,以确定文本行是否为弯曲的文本行。步骤102,基于标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行中的文字,得到文字标注样本。本实施例中,文本行可以是弯曲文本行,或者文本行是弯曲文本行和非弯曲文本行,其中非弯曲文本行进一步还可以是直线文本行。多边形标注框是指具有三个边以上的标注框,其可以是规则的等边N边形(N>3),也可以是非规则的N边形。本实施例中,针对弯曲文本行和非弯曲文本行,均可以采用多边形标注框进行标注,当采用至少一个多边形标注框标注完标注模板中的所有文本行之后,即可以得到文字标注样本,将文字标注样本输入与该文字标注样本对应的模型即可以对模型进行训练。可选地,还可以在得到文字标注样本后,对原标注图像和文字标注样本进行数据增强处理。在本实施例的一些可选实现方式中,文本行包括:弯曲文本行。标注模板轮廓的形状为圆形或椭圆;在实际应用中,标注模板可以是图像中的印章。上述基于标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行中的文字,包括:对弯曲文本行进行分段,得到两段以上文字行;基于两段以上文字行,确定每段文字行对应的多本文档来自技高网...

【技术保护点】
1.一种图像中文本检测方法,包括:/n确定标注图像中的标注模板以及所述标注模板中的文本行;/n基于所述标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行中的文字,得到文字标注样本;/n基于所述文字标注样本,对文本检测模型训练,得到训练完成的文本检测模型,所述训练完成的文本检测模型输入为图像,输出为图像中文本行的位置信息;/n采用所述训练完成的文本检测模型对待测图像中的文本行进行预测,得到所述训练完成的文本检测模型输出的所述待测图像中的文本行的位置信息。/n

【技术特征摘要】
1.一种图像中文本检测方法,包括:
确定标注图像中的标注模板以及所述标注模板中的文本行;
基于所述标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行中的文字,得到文字标注样本;
基于所述文字标注样本,对文本检测模型训练,得到训练完成的文本检测模型,所述训练完成的文本检测模型输入为图像,输出为图像中文本行的位置信息;
采用所述训练完成的文本检测模型对待测图像中的文本行进行预测,得到所述训练完成的文本检测模型输出的所述待测图像中的文本行的位置信息。


2.根据权利要求1所述的方法,其中,所述文本行包括:弯曲文本行;所述标注模板轮廓的形状为圆形或椭圆;
所述基于所述标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行中的文字,包括:
对所述弯曲文本行进行分段,得到两段以上文字行;
基于所述两段以上文字行,确定每段文字行对应的多边形标注框,以使一个多边形标注框框选一个文字行,其中,相邻两个多边形标注框互不交叉,且每个多边形标注框与所述标注模板轮廓具有至少两个交点。


3.根据权利要求2所述的方法,其中,所述文本行还包括:直线文本行;所述基于所述标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行中的文字,还包括:
在所述直线文本行位于所述标注模板轮廓中心时,确定所述直线文本行对应的最小外接矩形标注框,以使所述最小外接矩形标注框框选所述直线文本行。


4.根据权利要求1所述的方法,其中,所述基于所述文字标注样本,对文本检测模型训练,得到训练完成的文本检测模型,包括:
设置多组训练参数;
针对每组训练参数,将所述文字标注样本输入文本检测模型,以使所述文本检测模型按该组训练参数进行训练;
在各组训练参数对应的文本检测模型均训练完成之后,获取各组训练参数对应的文本检测模型的评价指标;
将所有文本检测模型的评价指标进行由高至低排名;
将评价指标排名最高的文本检测模型,作为训练完成的文本检测模型。


5.根据权利要求4所述的方法,其中,所述基于所述文字标注样本,对文本检测模型训练,得到训练完成的文本检测模型,还包括:
在所述文本检测模型按该组训练参数进行训练时,采用网格搜索算法和/或贝叶斯优化算法优化所述文本检测模型。


6.一种图像中文本检测装置,包括:
确定单元,被配置成确定标注图像中的标注模板以及所述标注模板中的文本行;
得到单元,被配置成基于所述标注模板轮廓的形状,采用至少一个多边形标注框标注所有文本行...

【专利技术属性】
技术研发人员:杜泓江庞敏辉谢国斌
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1