指定区域识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37455691 阅读:14 留言:0更新日期:2023-05-06 09:27
本申请的实施方式提供了一种指定区域识别方法、装置、电子设备及存储介质。该方法包括:获取待识别图像,待识别图像包含若干元素区域以及用户指定物图像,若干元素区域包含文本区域和图案区域;对待识别图像中的每一元素区域进行定位分割,得到每一元素区域对应的区域位置信息以及区域类别信息;根据区域位置信息以及用户指定物图像确定指定区域;根据指定区域的区域类别信息识别指定区域中的元素内容。本申请技术方案,能够实现对用户指定的区域之中所涵盖的内容进行识别,能够将用户指定内容准确反馈给用户,提升用户使用体验感。提升用户使用体验感。提升用户使用体验感。

【技术实现步骤摘要】
指定区域识别方法、装置、电子设备及存储介质


[0001]本申请的实施方式涉及视觉识别领域,更具体地,本申请的实施方式涉及指定区域识别方法、装置、电子设备及存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]目前,在一些智能设备上能够实现用户通过用于指示的物体例如手指或者笔尖等指点书本任意位置就能够听到智能设备朗读对应位置内容的功能,此功能一般通过指尖触发模块、段落识别模块和语音合成(TTS)模块进行实现。但这些智能设备对于所朗读的段落仅通过简单的规则进行区分,例如利用指点位置前后的标识,如标点、缩进空格、箭头和下划线等来确定所需朗读段落,但这种处理方式只适用于部分场景,无法处理非句子段落或者无缩进段落等;又例如利用预存的模板进而根据指点位置直接播放对应位置的模板内容,但需要预先逐页录入文本内容,操作繁琐复杂;还例如利用额外的输入信息,如语音信息或者多次点击信号来确定所需朗读段落,但需要增加一个接收额外信息的模块,增加设备系统复杂度。而在实际应用场景中,所需朗读的段落在不同场景下的定义是不一致的,因此容易造成这些智能设备不能够准确朗读所需的段落,导致用户体验感不佳。
[0004]有鉴于此,亟需提供一种能够准确识别用户指定内容的指定区域识别方法,以能够将用户指定内容准确反馈给用户,以提升用户使用体验感。

技术实现思路

[0005]为克服相关技术中存在的问题,本申请的实施方式期望提供一种指定区域识别方法、装置、电子设备及存储介质,该指定区域识别方法,能够实现对用户指定的区域之中所涵盖的内容进行识别,能够将用户指定内容准确反馈给用户,提升用户使用体验感。
[0006]在本申请实施方式的第一方面中,提供了一种指定区域识别方法,包括:
[0007]获取待识别图像,待识别图像包含若干元素区域以及用户指定物图像,若干元素区域包含文本区域和图案区域;
[0008]对待识别图像中的每一元素区域进行定位分割,得到每一元素区域对应的区域位置信息以及区域类别信息;
[0009]根据区域位置信息以及用户指定物图像确定指定区域;
[0010]根据指定区域的区域类别信息识别指定区域中的元素内容。
[0011]在一个实施例中,对待识别图像中的每一元素区域进行定位分割,包括:
[0012]通过实例分割模型对待识别图像中的每一元素区域进行定位分割;实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。
[0013]在一个实施例中,通过实例分割模型对待识别图像中的每一元素区域进行定位分割,包括:
[0014]将待识别图像输入实例分割模型,至少得到分割特征图、元素区域置信度、区域类别向量、元素区域范围位置以及分割参数;
[0015]基于分割特征图、元素区域置信度、区域类别向量、元素区域范围位置以及分割参数对待识别图像中的每一元素区域进行定位分割。
[0016]在一个实施例中,基于分割特征图、元素区域置信度、区域类别向量、元素区域范围位置以及分割参数对待识别图像中的每一元素区域进行定位分割,包括:
[0017]基于元素区域置信度以及预设置信度阈值确定有效元素区域;
[0018]基于分割特征图以及分割参数形成元素区域分割图;
[0019]基于元素区域分割图以及元素区域范围位置确定区域位置信息;
[0020]基于区域类别向量确定区域类别信息,区域类别向量为N维向量,每一维度向量代表一个类别信息。
[0021]在一个实施例中,根据区域位置信息以及用户指定物图像确定指定区域,包括:
[0022]根据用户指定物图像确定指定物位置和指定物指向;
[0023]根据指定物位置、指定物指向以及区域位置信息确定指定区域。
[0024]在一个实施例中,根据指定区域的区域类别信息识别指定区域中的元素内容,包括:
[0025]若指定区域为文本区域,则通过文字识别技术检测文本区域中的每一文本行;
[0026]分别根据每一文本行重叠面积与对应的文本行面积的面积比例确定文本区域的有效文本行;文本行重叠面积为文本行与文本区域的重叠面积;
[0027]基于有效文本行、指定物位置和指定物指向确定文字识别结束位置;
[0028]根据区域类别信息确定识别补偿策略;识别补偿策略包括预设字符补偿策略、书写字体补偿策略、古诗词补偿策略以及断句补偿策略;
[0029]基于文字识别结束位置以及识别补偿策略确定元素内容。
[0030]在一个实施例中,根据区域类别信息确定识别补偿策略,包括:
[0031]若区域类别信息为文本段落类别,则确定识别补偿策略为预设字符补偿策略,预设字符补偿策略为去除预设字符后进行识别的策略,预设字符包含拼音字符、小语种字符以及英语末尾连字符;
[0032]若区域类别信息为非手写类别,则确定识别补偿策略为书写字体补偿策略,书写字体补偿策略为若手写字体和印刷体字体同时存在则去除手写字体对应的内容后进行识别的策略;
[0033]若区域类别信息为古诗词类别,则确定识别补偿策略为古诗词补偿策略,古诗词补偿策略为在古诗标题和古诗作者后添加断句符的策略;
[0034]若区域类别信息为文本段落类别,则确定识别补偿策略为断句补偿策略,断句补偿策略为根据标点符号进行断句的策略。
[0035]在一个实施例中,基于文字识别结束位置以及识别补偿策略确定元素内容之后,还包括:
[0036]根据元素内容进行语音合成转换,得到语音朗读音频;
[0037]播放语音朗读音频。
[0038]在一个实施例中,获取待识别图像之后,还包括:
[0039]对待识别图像进行图像旋转矫正。
[0040]在本申请实施方式的第二方面中,提供了一种指定区域识别装置,用于执行如第一方面中任一项的指定区域识别方法,包括:
[0041]图像获取模块,用于获取待识别图像,待识别图像包含若干元素区域以及用户指定物图像,若干元素区域包含文本区域和图案区域;
[0042]定位分割模块,用于对待识别图像中的每一元素区域进行定位分割,得到每一元素区域对应的区域位置信息以及区域类别信息;
[0043]指定区域确定模块,用于根据区域位置信息以及用户指定物图像确定指定区域;
[0044]识别模块,用于根据指定区域的区域类别信息识别指定区域中的元素内容。
[0045]在一个实施例中,定位分割模块用于:
[0046]通过实例分割模型对待识别图像中的每一元素区域进行定位分割;实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。
[0047]在一个实施例中,定位分割本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种指定区域识别方法,其特征在于,包括:获取待识别图像,所述待识别图像包含若干元素区域以及用户指定物图像,所述若干元素区域包含文本区域和图案区域;对所述待识别图像中的每一元素区域进行定位分割,得到每一元素区域对应的区域位置信息以及区域类别信息;根据所述区域位置信息以及所述用户指定物图像确定指定区域;根据所述指定区域的区域类别信息识别所述指定区域中的元素内容。2.根据权利要求1所述的指定区域识别方法,其特征在于,所述对所述待识别图像中的每一元素区域进行定位分割,包括:通过实例分割模型对所述待识别图像中的每一元素区域进行定位分割;所述实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。3.根据权利要求2所述的指定区域识别方法,其特征在于,所述通过实例分割模型对所述待识别图像中的每一元素区域进行定位分割,包括:将所述待识别图像输入所述实例分割模型,至少得到分割特征图、元素区域置信度、区域类别向量、元素区域范围位置以及分割参数;基于所述分割特征图、所述元素区域置信度、所述区域类别向量、所述元素区域范围位置以及所述分割参数对所述待识别图像中的每一元素区域进行定位分割。4.根据权利要求3所述的指定区域识别方法,其特征在于,所述基于所述分割特征图、所述元素区域置信度、所述区域类别向量、所述元素区域范围位置以及所述分割参数对所述待识别图像中的每一元素区域进行定位分割,包括:基于所述元素区域置信度以及预设置信度阈值确定有效元素区域;基于所述分割特征图以及所述分割参数形成元素区域分割图;基于所述元素区域分割图以及所述元素区域范围位置确定所述区域位置信息;基于所述区域类别向量确定所述区域类别信息,所述区域类别向量为N维向量,每一维度向量代表一个类别信息。5.根据权利要求1所述的指定区域识别方法,其特征在于,所述根据所述区域位置信息以及所述用户指定物图像确定指定区域,包括:根据所述用户指定物图像确定指定物位置和指定物指向;根据所述指定物位置、所述指定物指向以及所述区域位置信息确定所述指定区域。6.根据权利要求5所述的指定区域识别方法,其特征在于,所述根据所述指定区域的区域类别信息识别所述指定区域中的元素内容,包括:若所述指定区域为所述文本区域,则通过文字识别技术检测所述文本区域中的每一文本行;分别根据每一文本行重叠面积与对应的文本行面积的面积比例确定所...

【专利技术属性】
技术研发人员:李翌昕董士琪黄佳玉林辉段亦涛
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1