【技术实现步骤摘要】
字符合并方法、装置、电子设备及存储介质
本专利技术涉及数据处理
,特别是涉及一种字符合并方法、装置、电子设备及存储介质。
技术介绍
在图像处理过程中,经常会出现对图像中的文本区域进行提取的场景。比如,在页面开发过程中,为了丰富页面的展示效果,往往会在页面中设置大量的图像。对于这些图像,需要将其转换成代码文件,以便终端能够通过运行这些代码文件,在页面中渲染出相应图像。如果这些图像中存在文本区域,则在将图像转换成代码文件时,需要将这些文本区域提取出来,单独进行转换。现有技术中,一般通过文本检测模型从图像中提取出文本区域。但是,文本检测模型提取出的文本区域准确度较低。比如,提取出的文本区域的边缘包含较多不是文本的图像区域,或者处于边缘位置的文本未被提取至文本区域,等等。
技术实现思路
本专利技术实施例的目的在于提供一种字符合并方法、装置、电子设备及存储介质,以实现提高文本区域的准确度。具体技术方案如下:在本专利技术实施的第一方面,首先提供了一种字符合并方法,包括:从待处理图像中提取 ...
【技术保护点】
1.一种字符合并方法,其特征在于,包括:/n从待处理图像中提取出单字符区域;/n针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;/n依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。/n
【技术特征摘要】
1.一种字符合并方法,其特征在于,包括:
从待处理图像中提取出单字符区域;
针对每个单字符区域,分别获取所述单字符区域的图像属性特征和坐标位置;
依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并。
2.根据权利要求1所述的方法,其特征在于,所述依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并,包括:
将一个单字符区域作为一个待合并区域;
重复执行如下步骤:针对每两个待合并区域,依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域;在第一次判断出所述两个待合并区域属于同一文本区域时,将所述两个待合并区域合并为一个待合并区域,获取合并得到的待合并区域的图像属性特征和坐标位置;
当不再继续合并时,将当前的一个待合并区域作为一个文本区域。
3.根据权利要求2所述的方法,其特征在于,所述图像属性特征包括颜色值;所述依据所述两个待合并区域的图像属性特征和坐标位置,判断所述两个待合并区域是否属于同一文本区域,包括:
基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否存在重叠;
在存在重叠时,判断出所述两个待合并区域属于同一文本区域;
在不存在重叠时,基于所述两个待合并区域的坐标位置,判断所述两个待合并区域是否位于同一行或同一列;
在位于同一行或同一列时,基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域。
4.根据权利要求3所述的方法,其特征在于,
在依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,还包括:针对每个单字符区域,分别识别所述单字符区域是否为第一类标点符号区域;
所述基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域,包括:
判断所述两个待合并区域中是否存在至少一个第一类标点符号区域;
若否,则基于所述两个待合并区域的颜色值,判断所述两个待合并区域的颜色是否相近,以及基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述颜色和所述距离均相近时,判断出所述两个待合并区域属于同一文本区域;
若是,则基于所述两个待合并区域的坐标位置,判断所述两个待合并区域的距离是否相近;在所述距离相近时,判断出所述两个待合并区域属于同一文本区域。
5.根据权利要求4所述的方法,其特征在于,所述图像属性特征还包括宽度和高度;针对任意一个单字符区域,识别所述任意一个单字符区域是否为第一类标点符号区域,包括:
从所述待处理图像中提取出对照文本区域,并获取所述对照文本区域的坐标位置和高度;
基于所述任意一个单字符区域的坐标位置和所述对照文本区域的坐标位置,选取与所述任意一个单字符区域存在重叠的对照文本区域,并获取选取的对照文本区域的最大高度;
如果所述任意一个单字符区域的宽度和高度均小于所述最大高度的第一预设百分比,则确定所述任意一个单字符区域为第一类标点符号区域。
6.根据权利要求3所述的方法,其特征在于,
在依据所述单字符区域的图像属性特征和坐标位置,将属于同一文本区域的单字符区域进行合并之前,还包括:针对每个单字符区域,分别识别所述单字符区域是否为第二类标点符号区域;
...
【专利技术属性】
技术研发人员:罗熹之,
申请(专利权)人:北京爱奇艺科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。