一种弯曲文本的字符选择方法、装置和终端设备制造方法及图纸

技术编号：33545504 阅读：10 留言：0更新日期：2022-05-26 22:39

本申请实施例适用于人工智能技术领域，提供了一种弯曲文本的字符选择方法和装置。包括：显示并检测原始图片，生成包含直线文本的待识别图片；然后获取与文本内容相对应的连接时序分类序列，并计算连接时序分类序列中每个字符在该待识别图片中的第一坐标；确定第一坐标在待识别图片中所处的分段区域；将每个字符的第一坐标与原始图片与待识别图片之间的分段透视变换矩阵相乘，得到该每个字符在该原始图片中的第二坐标；检测到用户在所述原始图片上的第一操作，根据所述第二坐标突出显示被选中的字符。采用上述方法，可以在用户对弯曲文本中的字符进行手动选择时，提高字符位置的定位精准度以及提高手动选择字符的效率和准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种弯曲文本的字符选择方法、装置和终端设备

[0001]本申请属于人工智能
，尤其涉及一种弯曲文本的字符选择方法、装置和终端设备。

技术介绍

[0002]光学字符识别(Optical Character Recognition，OCR)是一种通过手机、扫描仪或数码相机等电子设备检查纸上的字符，并基于字符的暗、亮模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。OCR是计算机视觉(Computer Vision，CV)领域的一个重要应用场景，也为增强现实(Augmented Reality，AR)技术在翻译、图像语义理解等众多领域的应用提供了基础能力。通常，OCR可以包括两个步骤，即文本区域检测和文字内容识别，前一步骤可以检测图像中何处是文本区域，后一步骤则可以识别出文本区域中的文本具体是什么内容。而在自然场景的文本中，文本的形状在很多情况下往往不是水平的，其形状可能是圆弧形的弯曲文本，也可能是波浪形的弯曲文本。而弯曲文本的场景对OCR的检测和识别都带来了很大的挑战。
[0003]在手机智能镜头识物场景中，智能镜头可以完成多物体检测和文本检测识别任务，并且会提供物体和文本框位置，用户可以点击手机屏幕中的文本行，此时屏幕会定帧，用户可以点选检测和识别到的文字内容，其效果类似于文本文档里的用鼠标对文本内容逐字符拖选的功能。针对点选到的内容，用户可以选择复制、翻译或搜索等后续操作。
[0004]文字点选场景分为直线文本场景和弯曲文本场景。直线文本场景中，文本行都为带角度的矩形框、平行四边形...

【技术保护点】

【技术特征摘要】
1.一种弯曲文本的字符选择方法，其特征在于，包括：在终端设备的显示界面中显示原始图片，所述原始图片中包含弯曲文本；检测所述原始图片，生成包含有直线文本的待识别图片，所述直线文本的文本内容与所述弯曲文本的文本内容一一对应；根据所述待识别图片，识别所述直线文本的所述文本内容，获得与所述直线文本的所述文本内容相对应的连接时序分类序列，所述连接时序分类序列包括了多个字符；计算所述多个字符中每个字符在所述待识别图片中的第一坐标；确定所述多个字符中每个字符对应的所述第一坐标所处的分段区域；根据所述原始图片和所述待识别图片，确定将所述原始图片变换为所述待识别图片时各个分段区域对应的透视变换矩阵；将所述多个字符中每个字符的第一坐标与所述透视变换矩阵相乘，得到所述多个字符中每个字符在所述原始图片中的第二坐标；检测到用户在所述原始图片上的第一操作，根据所述多个字符中每个字符在所述原始图片中的第二坐标突出显示被选中的字符，所述第一操作用于对所述原始图片上的弯曲文本中的字符进行选择。2.根据权利要求1所述的方法，其特征在于，在所述将所述多个字符中每个字符的第一坐标与所述透视变换矩阵相乘，得到所述多个字符中每个字符在所述原始图片中的第二坐标之后，检测到用户在所述原始图片上的第一操作之前，所述方法还包括：根据所述多个字符中每个字符对应的所述第二坐标，在所述原始图片中生成第一提示信息，所述第一提示信息用于指示用户可对所述原始图片中的字符进行选择。3.根据权利要求1或2所述的方法，其特征在于，所述根据所述待识别图片，识别所述直线文本的所述文本内容，获得与所述直线文本的所述文本内容相对应的连接时序分类序列包括：根据所述待识别图片，识别所述直线文本的所述文本内容，获得初始连接时序分类序列；确定所述初始连接时序分类序列的长度，以及确定所述待识别图片的图片宽度；若所述初始连接时序分类序列的长度与预设的下采样倍数的乘积大于所述待识别图片的图片宽度，则对所述初始连接时序分类序列进行裁剪，获得与所述直线文本的所述文本内容相对应的连接时序分类序列；其中，裁剪后获得的所述连接时序分类序列的长度与预设的下采样倍数的乘积小于或等于所述待识别图片的图片宽度。4.根据权利要求3所述的方法，其特征在于，所述对所述初始连接时序分类序列进行裁剪，获得与所述直线文本的所述文本内容相对应的连接时序分类序列，包括：依次裁剪所述初始连接时序分类序列的头部元素或尾部元素；当裁剪任一头部元素或尾部元素后，计算裁剪后的初始连接时序分类序列的长度与预设的下采样倍数的乘积是否小于或等于所述待识别图片的图片宽度；若裁剪后的初始连接时序分类序列的长度与预设的下采样倍数的乘积小于或等于所述待识别图片的图片宽度，则停止剪裁，输出与所述直线文本的所述文本内容相对应的连接时序分类序列。
5.根据权利要求1至4中任一项所述的方法，其特征在于，所述计算所述多个字符中每个字符在所述待识别图片中的第一坐标包括：确定所述连接时序分类序列中所述多个字符中每个字符的字符边界坐标，所述字符边界坐标包括左边界坐标和右边界坐标；根据所述多个字符中每个字符的字符边界坐标，计算所述多个字符中每个字符在所述待识别图片中的第一坐标。6.根据权利要求5所述的方法，其特征在于，所述确定所述连接时序分类序列中所述多个字符中每个字符的字符边界坐标包括：针对所述连接时序分类序列中任一字符，获取所述字符的原始右边界坐标，以及下一字符的原始左边界坐标；计算所述原始右边界坐标与所述原始左边界坐标的平均值；基于所述平均值，确定所述字符的右边界坐标，以及下一字符的左边界坐标。7.根据权利要求6所述的方法，其特征在于，所述基于所述平均值，确定所述字符的右边界坐标，以及下一字符的左边界坐标，包括：分别确定所述字符的第一字符类型和所述下一字符的第二字符类型，所述第一字符类型和所述第二...

【专利技术属性】
技术研发人员：滕益华，洪芳宇，施烈航，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人