【技术实现步骤摘要】
一种文本排序方法、装置、电子设备和存储介质
[0001]本申请涉及字符检测
,特别是涉及一种文本排序方法、一种文本排序装置、一种电子设备和一种存储介质。
技术介绍
[0002]光学字符检测(OCR,Optical Character Recognition)的研究方向属于计算机视觉人工智能的范畴。近年来,随着多模态认知的快速发展,多种模态协同推理成为当前AI(Artificial Intelligence,人工智能)发展的主流方向之一,OCR作为一种可以将图像扩展为图像+文本的技术被广为广泛的应用。最近,诸如文本VQA(对图像中的文字进行问答)等领域越发热门,作为图像提取文本的技术再度成为研究热点。当前OCR主要分为两个研究方向,第一是文本检测,旨在将图像中的所有文本(即字符串)框定出来;第二是字符识别,旨在将框定出的区域中存在的字符识别出来。但是,对于识别出的文字的排序算法却鲜有人研究。然而,对于文本丰富的图像来说,只有正确排列所识别文本的顺序,才能有效识别出文本的内容。
[0003]当前,对于文本排序任务, ...
【技术保护点】
【技术特征摘要】
1.一种文本排序方法,其特征在于,包括:当检测到文本图像输入时,识别所述文本图像,得到文本框集,所述文本框集包括多个文本框;对所述多个文本框聚类,生成文本块集,所述文本块集包括多个文本块;依据所述文本块集确定文本块顺序;针对任一所述文本块,确定块内阅读顺序;依据所述文本块顺序和所述块内阅读顺序进行文本排序。2.根据权利要求1所述的方法,其特征在于,所述对所述多个文本框聚类,生成文本块集,包括:针对任一所述文本框,生成文本框掩膜;对所述文本框掩膜进行膨胀;对膨胀后的文本框掩膜划分为多个连通域;计算所述文本框与所述连通域的重合度;依据所述重合度确定所述文本块;结合所述文本块,生成所述文本块集。3.根据权利要求2所述的方法,其特征在于,所述针对任一所述文本框,生成文本框掩膜,包括:针对任一所述文本框,生成对应的二值图;确定所述二值图为所述文本框掩膜。4.根据权利要求2所述的方法,其特征在于,所述对所述文本框掩膜进行膨胀,包括:基于预设卷积核对所述文本框掩膜进行膨胀运算。5.根据权利要求2所述的方法,其特征在于,所述依据所述重合度确定所述文本块,包括:依据所述重合度对所述连通域进行逆序排序,生成连通域序列;确定所述连通域序列的第一位连通域为所述文本块。6.根据权利要求1所述的方法,其特征在于,在所述对所述多个文本框聚类,生成文本块集之前,所述方法还包括:计算所述多个文本框对应的偏移角度;基于所述偏移角度,旋转所述文本图像。7.根据权利要求6所述的方法,其特征在于,所述基于所述偏移角度,旋转所述文本图像,包括:集合所述偏移角度,生成第一偏移数组;确定所述第一偏移数组中的离散值,并从所述第一偏移数组中删除离散值,生成第二偏移数组;计算所述第二偏移数组中元素平均值;采用所述元素平均值旋转所述文本图像。8.根据权利要求1所述的方法,其特征在于,所述依据所述文本块集确定文本块顺序,包括:从所述文本块集中确定目标文本块;
确定所述目标文本块的文本方向;依据所述文本方向和所述目标文本块确定阅读顺序;结合所述文本方向和所述阅读顺序,确定文本块顺序。9.根据权利要求8所述的方法,其特征在于,所述从所述文本块集中确定目标文本块,包括:针对任一所述文本块,确定文本框数量;基于所述文本框数量对所述文本块集中的所述文本块进行逆序重排序;确定逆序重排序后的文本块集的第一位文本块为目标文本块。10.根据权利要求8所述的方法,其特征在于,所述确定所述目标文本块的文本方向,包括:计算所述目标文本块中所述文本框的宽度和高度;当所述宽度大于所述高度时,确定所述文本方向为横向;当所述宽度不大于所述高度时,确定所述文本方向为纵向。11.根据权利要求10所述的方法,其特征在于,当所述文本方向为所述横向时,所述依据所述文本方向和所述目标文本块确定阅读顺序,包括:确定所述目标文本块的横向目标字符串,所述横向目标字符串为所述目标文本块的横向第一行字符串;按照从左到右的顺序将所述横向目标字符串输入至预设通顺性打分网络,所述预设通顺性打分网络用于依据所述横向目标字符串确定文本通顺概率;读取所述文本通顺概率;当所述文本通顺概率大于预设通顺阈值时,确定所述阅读顺序为左右...
【专利技术属性】
技术研发人员:李晓川,郭振华,李仁刚,赵雅倩,范宝余,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。