【技术实现步骤摘要】
一种字符版面确定方法及装置
本申请涉及目标检测
,更具体地说,涉及一种字符版面确定方法及装置。
技术介绍
随着计算机技术和多媒体的飞速发展,越来越多的信息以图像的形式传播,图像中通常存在大量包含重要信息的描述性文字。为了获取图像中的重要信息,需要对图像中的文字进行识别及语义分析。而对图像中的文字进行识别及语义分析的前提是对图像中文字版面进行分析。目前,文字版面分析方法往往仅分析具有一定文档结构的文档图像(如扫描文档图像、表单图像、信件图像、名片图像、报刊杂志等)的文本行区域,来确定文字版面。但对于文字版面结构本身复杂且由于拍摄时存在光照不均、背景复杂、视角畸变等问题,造成的文档结构不清楚的自然场景图像,采用现有方法进行文字版面分析的准确性低。
技术实现思路
有鉴于此,本申请提供了一种字符版面确定方法及装置,用于解决现有文字版面分析准确性低的问题。为了实现上述目的,现提出的方案如下:一种字符版面确定方法,包括:将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素 ...
【技术保护点】
1.一种字符版面确定方法,其特征在于,包括:将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域;所述深度全卷积神经网络模型为预先利用标注有字符行及其中轴的真实区域的训练图像进行训练得到;对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置;根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴;同一字符行区域中对应于同一中轴的各目标字符, ...
【技术特征摘要】
1.一种字符版面确定方法,其特征在于,包括:将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域;所述深度全卷积神经网络模型为预先利用标注有字符行及其中轴的真实区域的训练图像进行训练得到;对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置;根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴;同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。2.根据权利要求1所述的方法,其特征在于,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤之前还包括:采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线。3.根据权利要求1或2所述的方法,其特征在于,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤包括:针对各目标字符,确定目标字符所属的字符行区域中包含的中轴的条数;若仅有一条,则将该唯一一条中轴作为所述目标字符对应的中轴;若至少包含两条,则计算所述目标字符与包含的每一条中轴的最短距离值;确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。4.根据权利要求1或2所述的方法,其特征在于,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤包括:针对各目标字符,计算所述目标字符与各中轴的最短距离值;确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。5.根据权利要求2所述的方法,其特征在于,在所述采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线之后,该方法还包括:以中轴中任意一像素点开始迭代,直至查找到8方向邻域内同属于该中轴的像素点的数量小于2的目标像素点为止,将目标像素点确定为所述中轴的端点;对于所述中轴的各端点,计算端点与设定原点间的距离,并选取距离最短的一个端点,作为所述中轴的首端点。6.根据权利要求5所述的方法,其特征在于,所述同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,包括:同一字符行区域中对应于同一中轴的各目标字符,计算目标字符的位置与中轴的首端点的距离;按照距离从小到大的顺序,确定各目标字符的先后排序顺序。7.根据权利要求1或2所述的方法,其特征在于,所述训练图像中字符行的真实区域为,采用多边形标注的字符行的真实区域。8.根据权利要求1或2所述的方法,其特征在于,所述深度全卷积神经网络模型为多通道深度全卷积神经网络模型,多通道深度全卷积神经网络模型的预训练过程,包括:利用训练图像中人工标注的字符行的真实区域为正样本,其余未标注为字符行的区域为负样本,输入多通道深度全卷积神经网络模型的第一通道,对所述第一通道进行训练;利用训练图像中人工标注的字符行的中轴的真实区域为正样本,其余未标注为字符行的中轴的区域为负样本,输入多通道深度全卷积神经网络模型的第二通道,对所述第二通道进行训练。9.一种字符版面确定装置,其特征在于,包括:输入模块,用...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。