一种弯曲文本的字符选择方法、装置和终端设备制造方法及图纸

技术编号:33545504 阅读:10 留言:0更新日期:2022-05-26 22:39
本申请实施例适用于人工智能技术领域,提供了一种弯曲文本的字符选择方法和装置。包括:显示并检测原始图片,生成包含直线文本的待识别图片;然后获取与文本内容相对应的连接时序分类序列,并计算连接时序分类序列中每个字符在该待识别图片中的第一坐标;确定第一坐标在待识别图片中所处的分段区域;将每个字符的第一坐标与原始图片与待识别图片之间的分段透视变换矩阵相乘,得到该每个字符在该原始图片中的第二坐标;检测到用户在所述原始图片上的第一操作,根据所述第二坐标突出显示被选中的字符。采用上述方法,可以在用户对弯曲文本中的字符进行手动选择时,提高字符位置的定位精准度以及提高手动选择字符的效率和准确率。率。率。

【技术实现步骤摘要】
一种弯曲文本的字符选择方法、装置和终端设备


[0001]本申请属于人工智能
,尤其涉及一种弯曲文本的字符选择方法、装置和终端设备。

技术介绍

[0002]光学字符识别(Optical Character Recognition,OCR)是一种通过手机、扫描仪或数码相机等电子设备检查纸上的字符,并基于字符的暗、亮模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR是计算机视觉(Computer Vision,CV)领域的一个重要应用场景,也为增强现实(Augmented Reality,AR)技术在翻译、图像语义理解等众多领域的应用提供了基础能力。通常,OCR可以包括两个步骤,即文本区域检测和文字内容识别,前一步骤可以检测图像中何处是文本区域,后一步骤则可以识别出文本区域中的文本具体是什么内容。而在自然场景的文本中,文本的形状在很多情况下往往不是水平的,其形状可能是圆弧形的弯曲文本,也可能是波浪形的弯曲文本。而弯曲文本的场景对OCR的检测和识别都带来了很大的挑战。
[0003]在手机智能镜头识物场景中,智能镜头可以完成多物体检测和文本检测识别任务,并且会提供物体和文本框位置,用户可以点击手机屏幕中的文本行,此时屏幕会定帧,用户可以点选检测和识别到的文字内容,其效果类似于文本文档里的用鼠标对文本内容逐字符拖选的功能。针对点选到的内容,用户可以选择复制、翻译或搜索等后续操作。
[0004]文字点选场景分为直线文本场景和弯曲文本场景。直线文本场景中,文本行都为带角度的矩形框、平行四边形框或者四边形框,文本行一般由四个顶点描述。在弯曲文本场景中,为了描述弯曲的走向,文本框一般是由一个多边形组成,该多边形又可以分解为诸多四边形,由这些四边形拼接成该多边形。在直线文本场景中,由于原图和待识别图之间只是简单的透视变换映射关系,如果获取了待识别图上各个文字的坐标,可以很容易获取在原图上直线文本中每个文本的坐标。然而,在弯曲文本场景中,由于较强的不连续性,以及弯曲文本本身较为复杂的描述方式,获取各个文字的坐标要比直线场景中要困难得多。

技术实现思路

[0005]本申请实施例提供了一种弯曲文本的字符选择方法、装置和终端设备,用于实现准确获取弯曲文本中各个文字的坐标,从而实现字符选择更精确。
[0006]第一方面,本申请实施例提供了一种弯曲文本的字符选择方法,应用于终端设备,所述方法包括:
[0007]终端设备的显示界面中显示原始图片,所述原始图片中包含弯曲文本;然后该终端设备检测该原始图片,生成包含有直线文本的待识别图片,其中该直线文本的文本内容与该弯曲文本的文本内容一一对应;然后终端设备根据所述待识别图片,识别得到与所述直线文本的所述文本内容相对应的连接时序分类(connectionist temporal classification,CTC)序列,其中,所述连接时序分类序列包括了多个字符;然后该终端设
备再计算CTC序列中该多个字符中每个字符在该待识别图片中的第一坐标;然后终端设备确定该多个字符中每个字符的第一坐标在待识别图片中所处的分段区域;然后终端设备根据该原始图片和该待识别图片,确定将该原始图处理变换为该待识别图片时的各个分段区域对应的透视变换矩阵;再将该多个字符中每个字符的第一坐标与所述透视变换矩阵相乘,得到该多个字符中每个字符在该原始图片中的第二坐标;最后终端设备检测到用户在所述原始图片上的第一操作,根据所述多个字符中每个字符在所述原始图片中的第二坐标突出显示被选中的字符,所述第一操作用于对所述原始图片上的弯曲文本中的字符进行选择。
[0008]本申请实施例提供的弯曲文本的字符选择方法通过计算文本内容中每个字符在与该文本内容相对应的CTC序列中的坐标,然后根据CTC序列索引与待识别图片的文本坐标之间的对应关系得到每个字符在待识别图片中的第一坐标,然后根据该待识别图片与原始图片之间的分段透视变换关系,对于第一坐标进行一一对应计算得到每个字符在原始图片中的第二坐标,提高了第二坐标计算的准确度,同时也提高了根据第二坐标绘制得到的字符选择控件的精准度,使得用户在对原始图片中的字符进行点选时,终端设备能够准确地对字符进行定位,输出已选中的字符,提高字符选择以及识别的效率和准确率。同时,配置于终端设备的OCR检测模型可以对原始图片进行检测,生成包含有原始图片中弯曲文本的文本内容的待识别图片,上述待识别图片可以作为OCR识别模型的输入数据,通过OCR识别模型对上述文本内容进行识别,可以得到与该文本内容相对应的CTC序列。本申请实施例提供的弯曲文本的字符选择方法可以直接采用终端设备中已配置的具备弯曲文本检测能力的OCR检测模型和OCR识别模型,有助于扩大本方法的应用范围,降低终端设备采用本方法的技术难度。
[0009]可选的,该终端设备在得到该多个字符中每个字符的第二坐标之后,检测该第一操作之前,该终端设备还可以根据所述多个字符中每个字符对应的所述第二坐标,在所述原始图片中生成第一提示信息,所述第一提示信息用于指示用户可对所述原始图片中的字符进行选择。这样可以更方便用户进行字符点选。
[0010]可选的,与文本内容相对应的CTC序列可以是指对于OCR识别模型输出的初始CTC序列进行处理后的序列,对初始CTC序列进行处理可以通过本申请实施例提供的字符选择模型实现。通过OCR识别模型对上述文本内容进行识别,可以输出初始CTC序列。然后,字符选择模型可以确定初始CTC序列的长度以及待识别图片的图片宽度,判断初始CTC序列的长度与字符选择模型的下采样倍数之间的乘积是否大于待识别图片的图片宽度。如果上述乘积大于待识别图片的图片宽度,则需要对初始CTC序列进行一定的裁剪,使得裁剪后的CTC序列的长度与模型的下采样倍数之间的乘积小于或等于待识别图片的图片宽度。
[0011]可选的,对CTC序列进行裁剪可以按照依次裁剪初始CTC序列的头部元素或尾部元素来进行。对于需要裁剪的初始CTC序列,可以首先裁剪该序列的一个头部元素,然后再裁剪一个尾部元素。在每裁剪一个头部元素或一个尾部元素后,可以再次计算裁剪后的序列的长度与预设的下采样倍数的乘积是否已经小于或等于待识别图片的图片宽度。如果在某一次的裁剪后,得到的序列的长度与预设的下采样倍数的乘积已经小于或等于待识别图片的图片宽度,则可以停止剪裁,将当前获得的CTC序列进行输出,即为与文本内容相对应的CTC序列。如果某一次裁剪后得到的序列的长度与预设的下采样倍数的乘积仍然大于待识
别图片的图片宽度,则需要按照上述顺序继续进行裁剪,直到序列长度与下采样倍数的乘积小于或等于待识别图片的图片宽度。
[0012]本申请实施例通过对CTC序列进行部分裁剪,可以减少后续处理的数据量,提高处理效率。
[0013]可选的,在完成对CTC序列的裁剪后,可以对参数进行初始化。需要初始化的参数可以包括左边界、有边界、当前状态、之前状态、坐标数组、内容数组等等。
[0014]可选的,计算CTC序列中每个字符的第一坐标在该待识别图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种弯曲文本的字符选择方法,其特征在于,包括:在终端设备的显示界面中显示原始图片,所述原始图片中包含弯曲文本;检测所述原始图片,生成包含有直线文本的待识别图片,所述直线文本的文本内容与所述弯曲文本的文本内容一一对应;根据所述待识别图片,识别所述直线文本的所述文本内容,获得与所述直线文本的所述文本内容相对应的连接时序分类序列,所述连接时序分类序列包括了多个字符;计算所述多个字符中每个字符在所述待识别图片中的第一坐标;确定所述多个字符中每个字符对应的所述第一坐标所处的分段区域;根据所述原始图片和所述待识别图片,确定将所述原始图片变换为所述待识别图片时各个分段区域对应的透视变换矩阵;将所述多个字符中每个字符的第一坐标与所述透视变换矩阵相乘,得到所述多个字符中每个字符在所述原始图片中的第二坐标;检测到用户在所述原始图片上的第一操作,根据所述多个字符中每个字符在所述原始图片中的第二坐标突出显示被选中的字符,所述第一操作用于对所述原始图片上的弯曲文本中的字符进行选择。2.根据权利要求1所述的方法,其特征在于,在所述将所述多个字符中每个字符的第一坐标与所述透视变换矩阵相乘,得到所述多个字符中每个字符在所述原始图片中的第二坐标之后,检测到用户在所述原始图片上的第一操作之前,所述方法还包括:根据所述多个字符中每个字符对应的所述第二坐标,在所述原始图片中生成第一提示信息,所述第一提示信息用于指示用户可对所述原始图片中的字符进行选择。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述待识别图片,识别所述直线文本的所述文本内容,获得与所述直线文本的所述文本内容相对应的连接时序分类序列包括:根据所述待识别图片,识别所述直线文本的所述文本内容,获得初始连接时序分类序列;确定所述初始连接时序分类序列的长度,以及确定所述待识别图片的图片宽度;若所述初始连接时序分类序列的长度与预设的下采样倍数的乘积大于所述待识别图片的图片宽度,则对所述初始连接时序分类序列进行裁剪,获得与所述直线文本的所述文本内容相对应的连接时序分类序列;其中,裁剪后获得的所述连接时序分类序列的长度与预设的下采样倍数的乘积小于或等于所述待识别图片的图片宽度。4.根据权利要求3所述的方法,其特征在于,所述对所述初始连接时序分类序列进行裁剪,获得与所述直线文本的所述文本内容相对应的连接时序分类序列,包括:依次裁剪所述初始连接时序分类序列的头部元素或尾部元素;当裁剪任一头部元素或尾部元素后,计算裁剪后的初始连接时序分类序列的长度与预设的下采样倍数的乘积是否小于或等于所述待识别图片的图片宽度;若裁剪后的初始连接时序分类序列的长度与预设的下采样倍数的乘积小于或等于所述待识别图片的图片宽度,则停止剪裁,输出与所述直线文本的所述文本内容相对应的连接时序分类序列。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述计算所述多个字符中每个字符在所述待识别图片中的第一坐标包括:确定所述连接时序分类序列中所述多个字符中每个字符的字符边界坐标,所述字符边界坐标包括左边界坐标和右边界坐标;根据所述多个字符中每个字符的字符边界坐标,计算所述多个字符中每个字符在所述待识别图片中的第一坐标。6.根据权利要求5所述的方法,其特征在于,所述确定所述连接时序分类序列中所述多个字符中每个字符的字符边界坐标包括:针对所述连接时序分类序列中任一字符,获取所述字符的原始右边界坐标,以及下一字符的原始左边界坐标;计算所述原始右边界坐标与所述原始左边界坐标的平均值;基于所述平均值,确定所述字符的右边界坐标,以及下一字符的左边界坐标。7.根据权利要求6所述的方法,其特征在于,所述基于所述平均值,确定所述字符的右边界坐标,以及下一字符的左边界坐标,包括:分别确定所述字符的第一字符类型和所述下一字符的第二字符类型,所述第一字符类型和所述第二...

【专利技术属性】
技术研发人员:滕益华洪芳宇施烈航
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1