文本检测的方法、装置、设备和计算机可读介质制造方法及图纸

技术编号:26223291 阅读:41 留言:0更新日期:2020-11-04 10:55
本发明专利技术公开了文本检测的方法、装置、设备和计算机可读介质,涉及计算机技术领域。该方法的一具体实施方式包括:通过卷积神经网络提取输入图像多个尺寸的特征,并融合所述多个尺寸的特征得到特征图像;在所述特征图像中定位文字待选区域,以及所述文字待选区域的起点和所述文字待选区域的终点;依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,以在所述文本框内检测文本。该实施方式能够提高文本检测的准确率。

【技术实现步骤摘要】
文本检测的方法、装置、设备和计算机可读介质
本专利技术涉及计算机
,尤其涉及一种文本检测的方法、装置、设备和计算机可读介质。
技术介绍
随着计算机视觉与深度神经网络的发展,文本检测技术得到了极大的发展。文本检测技术不仅可用于身份证等证件类的检测,在金融票据和保险单据的检测中也具有广泛的应用前景。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:在实际应用中,由于图像的采集、处理和传输等环节存在图像失真问题,光学字符识别技术对图像质量要求较高,因此导致文本检测的准确率较低。
技术实现思路
有鉴于此,本专利技术实施例提供一种文本检测的方法、装置、设备和计算机可读介质,能够提高文本检测的准确率。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种文本检测的方法,包括:通过卷积神经网络提取输入图像多个尺寸的特征,并融合所述多个尺寸的特征得到特征图像;在所述特征图像中定位文字待选区域,以及所述文字待选区域的起点和所述文字待选区域的终点;依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,以在所述文本框内检测文本。所述在所述特征图像中定位文字待选区域,以及所述文字待选区域的起点和所述文字待选区域的终点,包括:按照所述特征图像中每个像素点属于文字的概率,定位文字待选区域;将所述文字待选区域的左上角区域内的像素点作为起点,以及将所述文字待选区域的右下角区域内的像素点作为终点。所述依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,包括:依据所述文字待选区域中相邻像素点的聚类结果,将所述文字待选区域划分为一个或多个文字区域;依据所述文字区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框。所述依据所述文字区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,包括:所述文字区域包括一对所述文字待选区域的起点和所述文字待选区域的终点,则将所述文字待选区域的起点作为文本框的起点,并将所述文字待选区域的终点作为文本框的终点,以确定所述文本框。所述依据所述文字区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,包括:所述文字区域包括多对所述文字待选区域的起点和所述文字待选区域的终点,则将最短距离对应的所述文字待选区域的起点作为文本框的起点,以及将所述最短距离对应的所述文字待选区域的终点作为文本框的终点,以确定所述文本框,所述最短距离是所述起点与所述终点之间的最短距离;所述文字区域包括多对所述文字待选区域的起点和所述文字待选区域的终点,则将所述最短距离、且连线平行于所述文字区域对角线的所述文字待选区域的起点作为文本框的起点,以及将所述最短距离、且所述连线平行于所述文字区域对角线的所述文字待选区域的终点作为文本框的终点,以确定所述文本框,所述连线包括所述起点与所述终点之间的连线。所述通过卷积神经网络提取输入图像多个尺寸的特征,包括:通过卷积神经网络中的多个子卷积神经网络,提取输入图像多个尺寸的特征。所述融合所述多个尺寸的特征得到特征图像,包括:在所述子卷积神经网络的池化层做上采样操作后,将所述输入图像在所述池化层对应尺寸的特征,依次与前一个或多个子卷积神经网络采集的特征融合,得到所述特征图像。根据本专利技术实施例的第二方面,提供了一种文本检测的装置,包括:特征模块,用于通过卷积神经网络提取输入图像多个尺寸的特征,并融合所述多个尺寸的特征得到特征图像;定位模块,用于在所述特征图像中定位文字待选区域,以及所述文字待选区域的起点和所述文字待选区域的终点;检测模块,用于依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,以在所述文本框内检测文本。根据本专利技术实施例的第三方面,提供了一种文本检测的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的方法。根据本专利技术实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述的方法。上述专利技术中的一个实施例具有如下优点或有益效果:通过卷积神经网络提取输入图像多个尺寸的特征,并融合多个尺寸的特征得到特征图像;在特征图像中定位文字待选区域,以及文字待选区域的起点和文字待选区域的终点;依据文字待选区域、文字待选区域的起点和文字待选区域的终点,确定文本框,以在文本框内检测文本。利用卷积神经网络得到的特征图像包括输入图像多个尺寸的特征,在特征图像的基础上定位文字待选区域的精准性有所提高,进一步提高文本框的准确性,因此能够提高文本检测的准确率。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的文本检测的方法的主要流程的示意图;图2是根据本专利技术实施例的卷积神经网络的结构示意图;图3是根据本专利技术实施例的定位文字待选区域,以及文字待选区域的起点和文字待选区域的终点的流程示意图;图4是根据本专利技术实施例的确定文本框的流程示意图;图5是根据本专利技术实施例的文本检测的装置的主要结构的示意图;图6是本专利技术实施例可以应用于其中的示例性系统架构图;图7是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。近年来,随着深度学习算法尤其是卷积神经网络的发展,图像分割与识别技术已广泛应用于各类文本的识别。如:光学字符识别(OpticalCharacterRecognition,OCR)技术,但OCR技术对于图像质量要求较高。文本检测的前提是文本定位,文本定位主要分为传统图像算法与机器学习神经网络等方法,其中,传统图像算法,如:阈值分割和直线检测等,可以在内容格式相对固定,图像清晰的条件下,得到比较好的分割效果,但对于格式复杂或模糊的图像无能为力。而机器学习神经网络,采用大量文本图像进行训练,可以适用于格式复杂环境背景中的文本检测,但检测效果严重依赖于训练样本数据。基于卷积神经网络的图像文字检测方法,是采用以锚点(Anchor)为基础的目标检测模型,即通过生成大量先验框,然后拟合出文本框的形状。由于需要依赖先验信息,因此定位的准确率不稳定。综上,由于图像的采集、处理和传输等环节存在图像失真问题,本文档来自技高网...

【技术保护点】
1.一种文本检测的方法,其特征在于,包括:/n通过卷积神经网络提取输入图像多个尺寸的特征,并融合所述多个尺寸的特征得到特征图像;/n在所述特征图像中定位文字待选区域,以及所述文字待选区域的起点和所述文字待选区域的终点;/n依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,以在所述文本框内检测文本。/n

【技术特征摘要】
1.一种文本检测的方法,其特征在于,包括:
通过卷积神经网络提取输入图像多个尺寸的特征,并融合所述多个尺寸的特征得到特征图像;
在所述特征图像中定位文字待选区域,以及所述文字待选区域的起点和所述文字待选区域的终点;
依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,以在所述文本框内检测文本。


2.根据权利要求1所述文本检测的方法,其特征在于,所述在所述特征图像中定位文字待选区域,以及所述文字待选区域的起点和所述文字待选区域的终点,包括:
按照所述特征图像中每个像素点属于文字的概率,定位文字待选区域;
将所述文字待选区域的左上角区域内的像素点作为起点,以及将所述文字待选区域的右下角区域内的像素点作为终点。


3.根据权利要求1或2所述文本检测的方法,其特征在于,所述依据所述文字待选区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,包括:
依据所述文字待选区域中相邻像素点的聚类结果,将所述文字待选区域划分为一个或多个文字区域;
依据所述文字区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框。


4.根据权利要求3所述文本检测的方法,其特征在于,所述依据所述文字区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,包括:
所述文字区域包括一对所述文字待选区域的起点和所述文字待选区域的终点,则将所述文字待选区域的起点作为文本框的起点,并将所述文字待选区域的终点作为文本框的终点,以确定所述文本框。


5.根据权利要求3所述文本检测的方法,其特征在于,所述依据所述文字区域、所述文字待选区域的起点和所述文字待选区域的终点,确定文本框,包括:
所述文字区域包括多对所述文字待选区域的起点和所述文字待选区域的终点,则将最短距离对应的所述文字待选区域的起点作为文本框的起点,以及将所述最短距离对应的所述文...

【专利技术属性】
技术研发人员:张秋晖刘岩
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1