一种基于深度学习的互联网教育视频图像筛选提取法制造技术

技术编号:31089412 阅读:12 留言:0更新日期:2021-12-01 12:49
本发明专利技术公开了一种基于深度学习的互联网教育视频图像筛选提取法,属于多媒体数据检索技术领域,该筛选提取方法的具体步骤如下:步骤一、待检测多媒体数据输入;步骤二、特征提取;步骤三、特征融合;步骤四、筛选提取;本发明专利技术采用深度学习技术对多模态数据进行特征提取和特征融合,并将其投射到同一公共空间,通过相似度计算实现了多模态数据的跨模态检索,其相较于现有单一模态检索方法而言,其有利于提高多媒体素材筛选精度和提取效率,进而有利于辅助教师进行多媒体教案制作,提高教师在制作多媒体教案时的工作效率。多媒体教案时的工作效率。多媒体教案时的工作效率。

【技术实现步骤摘要】
一种基于深度学习的互联网教育视频图像筛选提取法


[0001]本专利技术涉及多媒体数据检索
,尤其涉及一种基于深度学习的互联网教育视频图像筛选提取法。

技术介绍

[0002]经检索,中国专利号CN111723111A公开了一种基于视频制作资料提取的方法、装置及设备,该专利技术方法虽然通过关键词搜索筛选出了符合需求的资料,但由于其输入数据模态较为单一,导致资料筛选精度和效率都相对较低;随着科技的发展,多媒体在教学中的使用日益普遍,在教学中占据越来越重要的地位;各类学校和学术单位,都在建设多媒体教室或多功能厅;多媒体教学集声音、图像、视频和文字等媒体为一体,可以作为一种有效的辅助教学手段,且能将所要呈现的内容直观的展示出来,方便对其进行理解,既能达到传授知识、开发智力及培养能力的目的,又能实现因材施教和个性化教学的目的,因此深受师生们及学术单位的青睐;但目前,多媒体教案多由老师通过办公软件制作而成,而在制作之前需教师提前收集和导入各部分内容所需的多媒体教案素材,然而,在这个信息呈爆炸式增长的时代,多模态的互联网数据常常让一些老师无所适从,老师们很难在海量的互联网数据中准确地找到自己想要的素材,导致其常常耗费掉大量时间在素材寻找上;深度学习技术作为机器学习领域中一个新的研究方向,其在文字、图像和声音识别上具有巨大潜力,因而,如何结合深度学习技术进行多模态检索已成为当下研究重点;因此,专利技术出一种基于深度学习的互联网教育视频图像筛选提取法变得尤为重要;
[0003]现有的多媒体数据筛选提取方法大多通过单一模态实现检索,该类方法由于其输入数据的模态较为单一,导致多媒体素材筛选精度和效率都相对较低,易降低教师在制作多媒体教案时的工作效率;为此,我们提出一种基于深度学习的互联网教育视频图像筛选提取法。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中存在的缺陷,而提出的一种基于深度学习的互联网教育视频图像筛选提取法。
[0005]为了实现上述目的,本专利技术采用了如下技术方案:
[0006]一种基于深度学习的互联网教育视频图像筛选提取法,该筛选提取方法的具体步骤如下:
[0007]步骤一、待检测多媒体数据输入,输入用户所需要进行检索的待检测多媒体数据,所述待检测多媒体数据为多模态数据,其具体包括文本数据和图像数据;
[0008]步骤二、特征提取,获取步骤一所述文本数据和图像数据,并将其分别输入对应文本模型和图像模型中进行向量特征提取,分别得到文本特征向量和图像特征向量;
[0009]步骤三、特征融合,获取步骤二所述文本特征向量和图像特征向量,通过融合算法构建其对应门特征与残差特征,并采用度量学习方法进行特征融合,得到融合特征向量,
[0010]步骤四、筛选提取,将多媒体教案素材库中多模态数据进行向量转化,得到目标数据特征向量,同时将其与融合特征向量一起投射到同一公共空间,并进行相似性度量计算,同时根据相似度进行排序,筛选提取出前N个候选数据作为检索结果。
[0011]进一步地,步骤一所述文本词向量在进行特征提取前需进行分词处理,所述分词处理是基于统计的分词算法,其用于进行停用词去除以及关键词划分,所述停用词包含两类:一类是指频繁出现的词,另一类是指某些虚词,其包括语气助词、副词、介词、连接词及感叹词,所述停用词通过符号代替,并将其从分词结果中去掉,所述符号包括“()”、“、”、
“‑”
、“/”、和“&”。
[0012]进一步地,步骤二所述文本模型和图像模型分别为BERT文本表示模型和VGGNet网络模型。
[0013]进一步地,步骤三所述特征融合具体过程如下:
[0014]S1:根据所述文本特征向量和图像特征向量并利用同位元素对应相乘的方式构建门特征与残差特征,
[0015]所述门特征计算公式如下:
[0016]f
gate

x

t
)=σ(W
g
*ReLU(φ'
t
))

φ
x
ꢀꢀꢀꢀꢀ
(1)
[0017]所述残差特征计算公式如下:
[0018]f
res

x

t
)=σ(W
r
*ReLU(φ'
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0019]式中:σ为sigmoid函数,W
g
和W
r
均为3*3的卷积过滤器,ReLU为线性修正单元,

为同位元素对应相乘的计算方法;
[0020]S2:对构建完成的门特征与残差特征进行权重配比,并进行线性组合,其公式如下:
[0021][0022]S3:采用深度度量学习方式对所述门特征与残差特征进行权重参数优化,得到融合特征向量。
[0023]进一步地,所述门特征与残差特征在进行构建前需要对文本特征向量和图像特征向量进行空间结构统一,即通过一个3*3的卷积过滤器对所述文本特征向量进行结构变换,其公式如下:
[0024]φ'
t
=W*(φ
x
,φ
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0025]式中:φ'
t
为结构变换后的文本特征向量,φ
x
表示图像特征向量,φ
t
表示文本特征向量,W表示一个3*3的卷积过滤器。
[0026]进一步地,步骤四所述相似性度量计算采用余弦距离算法实现,其具体公式如下:
[0027][0028]式中:x为融合特征向量;y为目标数据特征向量;cos为余弦值,所述cos余弦值取值范围为[

1,1],若该cos余弦值越大,则表示两个向量越相似,反之,则相反。
[0029]相比于现有技术,本专利技术的有益效果在于:
[0030]本申请提出的一种基于深度学习的互联网教育视频图像筛选提取法,采用深度学习技术对多模态数据进行特征提取和特征融合,并将其投射到同一公共空间,通过相似度
计算实现了多模态数据的跨模态检索,其相较于现有单一模态检索方法而言,其有利于提高多媒体素材筛选精度和提取效率,进而有利于辅助教师进行多媒体教案制作,提高教师在制作多媒体教案时的工作效率。
附图说明
[0031]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。
[0032]图1为本专利技术提出的一种基于深度学习的互联网教育视频图像筛选提取法的整体流程图。
具体实施方式
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的互联网教育视频图像筛选提取法,其特征在于,该筛选提取方法的具体步骤如下:步骤一、待检测多媒体数据输入,输入用户所需要进行检索的待检测多媒体数据,所述待检测多媒体数据为多模态数据,其具体包括文本数据和图像数据;步骤二、特征提取,获取步骤一所述文本数据和图像数据,并将其分别输入对应文本模型和图像模型中进行向量特征提取,分别得到文本特征向量和图像特征向量;步骤三、特征融合,获取步骤二所述文本特征向量和图像特征向量,通过融合算法构建其对应门特征与残差特征,并采用度量学习方法进行特征融合,得到融合特征向量,步骤四、筛选提取,将多媒体教案素材库中多模态数据进行向量转化,得到目标数据特征向量,同时将其与融合特征向量一起投射到同一公共空间,并进行相似性度量计算,同时根据相似度进行排序,筛选提取出前N个候选数据作为检索结果。2.根据权利要求1所述的一种基于深度学习的互联网教育视频图像筛选提取法,其特征在于,步骤一所述文本词向量在进行特征提取前需进行分词处理,所述分词处理是基于统计的分词算法,其用于进行停用词去除以及关键词划分,所述停用词包含两类:一类是指频繁出现的词,另一类是指某些虚词,其包括语气助词、副词、介词、连接词及感叹词,所述停用词通过符号代替,并将其从分词结果中去掉,所述符号包括“()”、“、”、
“‑”
、“/”、和“&”。3.根据权利要求1所述的一种基于深度学习的互联网教育视频图像筛选提取法,其特征在于,步骤二所述文本模型和图像模型分别为BERT文本表示模型和VGGNet网络模型。4.根据权利要求1所述的一种基于深度学习的互联网教育视频图像筛选提取法,其特征在于,步骤三所述特征融合具体过程如下:S1:根据所述文本特征向量和图像特征向量并利用同位元素对应相乘的方式构建门特征与残差特征,所述门特征计算公式如下:f
gate

x
,φ
t
)=σ(W
g
*ReLU(φ

【专利技术属性】
技术研发人员:王晓跃耿晨熙
申请(专利权)人:江苏熙枫教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1