指定区域识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37455691 阅读：14 留言：0更新日期：2023-05-06 09:27

本申请的实施方式提供了一种指定区域识别方法、装置、电子设备及存储介质。该方法包括：获取待识别图像，待识别图像包含若干元素区域以及用户指定物图像，若干元素区域包含文本区域和图案区域；对待识别图像中的每一元素区域进行定位分割，得到每一元素区域对应的区域位置信息以及区域类别信息；根据区域位置信息以及用户指定物图像确定指定区域；根据指定区域的区域类别信息识别指定区域中的元素内容。本申请技术方案，能够实现对用户指定的区域之中所涵盖的内容进行识别，能够将用户指定内容准确反馈给用户，提升用户使用体验感。提升用户使用体验感。提升用户使用体验感。

全部详细技术资料下载

【技术实现步骤摘要】
指定区域识别方法、装置、电子设备及存储介质

[0001]本申请的实施方式涉及视觉识别领域，更具体地，本申请的实施方式涉及指定区域识别方法、装置、电子设备及存储介质。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。
[0003]目前，在一些智能设备上能够实现用户通过用于指示的物体例如手指或者笔尖等指点书本任意位置就能够听到智能设备朗读对应位置内容的功能，此功能一般通过指尖触发模块、段落识别模块和语音合成(TTS)模块进行实现。但这些智能设备对于所朗读的段落仅通过简单的规则进行区分，例如利用指点位置前后的标识，如标点、缩进空格、箭头和下划线等来确定所需朗读段落，但这种处理方式只适用于部分场景，无法处理非句子段落或者无缩进段落等；又例如利用预存的模板进而根据指点位置直接播放对应位置的模板内容，但需要预先逐页录入文本内容，操作繁琐复杂；还例如利用额外的输入信息，如语音信息或者多次点击信号来确定所需朗读段落，但需要增加一个接收额外信息的模块，增加设备系统复杂度。而在实际应用场景中，所需朗读的段落在不同场景下的定义是不一致的，因此容易造成这些智能设备不能够准确朗读所需的段落，导致用户体验感不佳。
[0004]有鉴于此，亟需提供一种能够准确识别用户指定内容的指定区域识别...

【技术保护点】

【技术特征摘要】
1.一种指定区域识别方法，其特征在于，包括：获取待识别图像，所述待识别图像包含若干元素区域以及用户指定物图像，所述若干元素区域包含文本区域和图案区域；对所述待识别图像中的每一元素区域进行定位分割，得到每一元素区域对应的区域位置信息以及区域类别信息；根据所述区域位置信息以及所述用户指定物图像确定指定区域；根据所述指定区域的区域类别信息识别所述指定区域中的元素内容。2.根据权利要求1所述的指定区域识别方法，其特征在于，所述对所述待识别图像中的每一元素区域进行定位分割，包括：通过实例分割模型对所述待识别图像中的每一元素区域进行定位分割；所述实例分割模型为基于对象检测模型和实例分割卷积网络构建的模型。3.根据权利要求2所述的指定区域识别方法，其特征在于，所述通过实例分割模型对所述待识别图像中的每一元素区域进行定位分割，包括：将所述待识别图像输入所述实例分割模型，至少得到分割特征图、元素区域置信度、区域类别向量、元素区域范围位置以及分割参数；基于所述分割特征图、所述元素区域置信度、所述区域类别向量、所述元素区域范围位置以及所述分割参数对所述待识别图像中的每一元素区域进行定位分割。4.根据权利要求3所述的指定区域识别方法，其特征在于，所述基于所述分割特征图、所述元素区域置信度、所述区域类别向量、所述元素区域范围位置以及所述分割参数对所述待识别图像中的每一元素区域进行定位分割，包括：基于所述元素区域置信度以及预设置信度阈值确定有效元素区域；基于所述分割特征图以及所述分割参数形成元素区域分割图；基于所述元素区域分割图以及所述元素区域范围位置确定所述区域位置信息；基于所述区域类别向量确定所述区域类别信息，所述区域类别向量为N维向量，每一维度向量代表一个类别信息。5.根据权利要求1所述的指定区域识别方法，其特征在于，所述根据所述区域位置信息以及所述用户指定物图像确定指定区域，包括：根据所述用户指定物图像确定指定物位置和指定物指向；根据所述指定物位置、所述指定物指向以及所述区域位置信息确定所述指定区域。6.根据权利要求5所述的指定区域识别方法，其特征在于，所述根据所述指定区域的区域类别信息识别所述指定区域中的元素内容，包括：若所述指定区域为所述文本区域，则通过文字识别技术检测所述文本区域中的每一文本行；分别根据每一文本行重叠面积与对应的文本行面积的面积比例确定所...

【专利技术属性】
技术研发人员：李翌昕，董士琪，黄佳玉，林辉，段亦涛，
申请(专利权)人：网易有道信息技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人