学习对象识别方法、装置、设备及存储介质制造方法及图纸

技术编号:38259447 阅读:11 留言:0更新日期:2023-07-27 10:20
本公开涉及一种学习对象识别方法、装置、设备及存储介质。该方法包括:获取包含学习对象的目标书页图像;利用预先训练的对象识别模型,对目标书页图像进行对象识别处理,确定学习对象的第一类型;利用预先训练的特征向量提取模型,对目标书页图像进行特征提取处理,得到目标特征向量和学习对象的第二类型;基于第一类型、目标特征向量以及第二类型,确定目标书页图像中学习对象的目标类型。由此,对于包含学习对象的书页图像,提高了学习对象的识别精度,尤其是质量较差的书页图像,和/或,包含差异较小的多个不同学习对象的书页图像,也能够准确的识别出学习对象的类型,进而加载出与学习对象匹配的讲解视频,从而提升学生的学习兴趣。兴趣。兴趣。

【技术实现步骤摘要】
学习对象识别方法、装置、设备及存储介质


[0001]本公开涉及计算机
,尤其涉及一种学习对象识别方法、装置、设备及存储介质。

技术介绍

[0002]当学生在课堂或者利用业余时间学习新知识时,为了提高学生的学习兴趣,学生可以利用学习机拍摄包含学习对象的书页,并利用学习机从拍摄得到的书页图像中识别学习对象,进而加载学习对象的讲解视频以对学生进行讲解。
[0003]为了从书页图像中识别学习对象,相关技术采用多模型融合方法从书页图像中识别出学习对象。然而,在很多情况下,采用多模型融合方法无法准确的识别学习对象的类型,尤其当学习机拍摄的书页图像质量较差,和/或,当书页图像中包含的不同学习对象之间差异较小时,采用多模型融合方法很难准确的识别学习对象的类型,导致出现加载的讲解视频与学习对象不匹配的问题。由此,有必要提供一种准确性较高的学习对象识别方法。

技术实现思路

[0004]为了解决上述技术问题,本公开提供了一种学习对象识别方法、装置、设备及存储介质。
[0005]第一方面,本公开提供了一种学习对象识别方法,该方法包括:
[0006]获取包含学习对象的目标书页图像;
[0007]利用预先训练的对象识别模型,对所述目标书页图像进行对象识别处理,确定所述学习对象的第一类型;
[0008]利用预先训练的特征向量提取模型,对所述目标书页图像进行特征提取处理,得到目标特征向量和所述学习对象的第二类型;
[0009]基于所述第一类型、所述目标特征向量以及所述第二类型,确定所述目标书页图像中学习对象的目标类型。
[0010]第二方面,本公开提供了一种学习对象识别装置,该装置包括:
[0011]图像获取模块,用于获取包含学习对象的目标书页图像;
[0012]对象识别模块,用于利用预先训练的对象识别模型,对所述目标书页图像进行对象识别处理,确定所述学习对象的第一类型;
[0013]特征提取模块,用于利用预先训练的特征向量提取模型,对所述目标书页图像进行特征提取处理,得到目标特征向量和所述学习对象的第二类型;
[0014]类型确定模块,用于基于所述第一类型、所述目标特征向量以及所述第二类型,确定所述目标书页图像中学习对象的目标类型。
[0015]第三方面,本公开实施例还提供了一种电子设备,该设备包括:
[0016]处理器;
[0017]存储器,用于存储可执行指令;
是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0033]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0034]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0035]为了提高了学习对象的识别精度,下面结合图1至图4对本公开实施例提供的学习对象识别方法进行说明。在本公开实施例中,该学习对象识别方法可以由电子设备或服务器执行。其中,电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑等具有通信功能的设备。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。需要说明的是,以下实施例以电子设备作为执行主体进行示例性的解释。
[0036]图1示出了本公开实施例提供的一种学习对象识别方法的流程示意图。
[0037]如图1所示,该学习对象识别方法可以包括如下步骤。
[0038]S110、获取包含学习对象的目标书页图像。
[0039]在本实施例中,当学生利用电子设备(如学习机)拍摄包含学习对象的书页图像时,将该书页图像作为目标书页图像,或者将该书页图像进行预处理以及书页检测后,生成目标书页图像,以从目标书页图像中识别出学习对象的类型。
[0040]在一些实施例中,目标书页图像对应的分辨率大于或等于预设的分辨率阈值,即目标书页图像是高分辨率图像,对于此类图像,学习对象类别的识别难度较低,可以采用诸如多模型融合方法或者本实施例下面描述的识别方法进行类型识别。
[0041]在另一些实施例中,目标书页图像对应的分辨率小于预设的分辨率阈值,即目标书页图像是分辨率较低的图像,对于此类图像,学习对象类别的识别难度较高,采用多模型融合方法很难从目标书页图像中准确的识别出学习对象的类型,需要采用本实施例下面描述的识别方法进行类型识别。
[0042]在又一些实施例中,目标书页图像包含的学习对象的数量为多个,并且,任意两个学习对象之间的相似度小于或等于预设的相似度阈值,即目标书页图像中包含的多个学习对象差异较大,对于此类图像,学习对象类别的识别难度较低,可以采用诸如多模型融合方法或者本实施例下面描述的识别方法进行类型识别。
[0043]在再一些实施例中,目标书页图像包含的学习对象的数量为多个,并且,任意两个学习对象之间的相似度大于预设的相似度阈值,即目标书页图像中包含的多个学习对象差异较小,对于此类图像,学习对象类别的识别难度较大,需要采用本实施例下面描述的识别方法进行类型识别。
[0044]在其他实施例中,目标书页图像还可以是低分辨率图像,并且,包含相似度大于预设的相似度阈值的多个学习对象,此类图像的识别难度进一步提升,则需要采用本实施例下面描述的识别方法进行类型识别。
[0045]可选的,目标书页图像中的学习对象可以包括但不限于天体、花卉、树木、还可以
是其他对象,在此不做限制。
[0046]在本实施例中,可选的,S110具体包括:获取初始书页图像;利用预先训练的书页检测模型,对初始书页图像进行四点框检测处理,得到初始书页图像的书页位置信息;根据书页位置信息从初始书页图像中裁剪出候选书页图像;将候选书页图像中书页的初始形状校正为目标形状,得到目标书页图像。
[0047]具体的,对初始书页图像缩放至固定大小以及进行图像数据标准化处理,得到预处理后的初始书页图像,然后利用书页检测模型从预处理后的初始书页图像中检测出书页内容在图像中的位置坐标信息,得到书页位置信息,进一步基于书页位置信息从预处理后的初始书页图像中裁剪出包含书页内容的图像作为候选书页图像,最终将候选书页图像中的书页形状校正为正常的形状,得到目标书页图像。
[0048]其中,初始书页图像可以是利用诸如学习机等电子设备拍摄得到的书页图像。书页检测模型可以包括但不限于Mask R

CNN网络等模型。书页位置信息是指书页内容在图像中的位置坐标信息。一般情况下,书页的正常形状是矩形,由于拍摄的原因导致书页变成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种学习对象识别方法,其特征在于,包括:获取包含学习对象的目标书页图像;利用预先训练的对象识别模型,对所述目标书页图像进行对象识别处理,确定所述学习对象的第一类型;利用预先训练的特征向量提取模型,对所述目标书页图像进行特征提取处理,得到目标特征向量和所述学习对象的第二类型;基于所述第一类型、所述目标特征向量以及所述第二类型,确定所述目标书页图像中学习对象的目标类型。2.根据权利要求1所述的方法,其特征在于,所述利用预先训练的对象识别模型,对所述目标书页图像进行对象识别处理,确定所述学习对象的第一类型,包括:基于所述对象识别模型中的自注意力网络,按照目标系数对所述目标书页图像进行自注意力处理,得到第一自注意力特征;基于所述对象识别模型中的分类网络对所述第一自注意力特征进行分类处理,得到所述第一类型。3.根据权利要求1所述的方法,其特征在于,所述利用预先训练的特征向量提取模型,对所述目标书页图像进行特征提取处理,得到目标特征向量和所述学习对象的第二类型,包括:基于所述特征向量提取模型中的自注意力网络,按照目标系数对所述目标书页图像进行自注意力处理,得到第二自注意力特征;基于所述特征向量提取模型中的分类网络对所述第二自注意力特征进行分类处理,得到所述目标特征向量和所述第二类型。4.根据权利要求2或3所述的方法,其特征在于,所述目标系数为Y=f(W/(max(SUM(W)

W,W))*X+b),Y是所述自注意力网络的神经元的输出值,f(*)是激活函数,W是所述自注意力网络的神经元与所述分类网络的神经元连接的权值,X是所述自注意力网络的神经元的输入值,b是偏置值。5.根据权利要求1所述的方法,其特征在于,所述基于所述第一类型、所述目标特征向量以及所述第二类型,确定所述目标书页图像中学习对象的目标类型,包括:从预先构建的特征向量搜索库中搜索出与所述目标特征向量之间的相似度满足第一相似度条件的多个待遍历向量;基于所述多个待遍历向量分别携带的标签类型、所述第一类型以及所述第二类型,确定所述目标类型。6.根据权利要求5所述的方法,其特征在于,所述基于所述多个待遍历向量分别携带的标签类型、所述第一类型以及所述第二类型,确定所述目标类型,包括:判断所述第一类型与所述第二类型是否一致;若所述第一类型与所述第二类型一致,则将所述第一类型作为所述目标类型;若所述第一类型与所述第二类型不一致,则从所述多个待遍历向量中选择相似度最高的向量,作为所述目标特征向量的目标相似变量;判断所述第一类型与所述目标相似向量携带的标签类型是否一致;若所述第一类型与所述目标相似向量携带的标签类型一致,则将所述第一类型作为所
述目标类型。7.根据权利要求6所述的方法,其特征在于,还包括:若所述第一类型与所述目标相似向量携带的标签类型不一致,则判断所述目标相似变量携带的标签类型与所述第二类型是否一致;若所述目标相似变量携带的标签类型与所述第二类型一致,则将所述目标相似变量携带的标签类型作为所述目标类型。8.根据权利要求7所述的方法,其特征在于,还包括:若所述目标相似变量携带的标签类型与所述第二类型不一致,从所述多个待遍历向量中搜索出与所述目标特征向量携带的标签类型一致的多个第一候选特征向量,以及,从所述多个待遍历向量中搜索出与所述第一类型一致的多个第二候选特征向量;将每个所述第一候选特...

【专利技术属性】
技术研发人员:兴百桥
申请(专利权)人:深圳市星桐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1