一种基于深度学习的互联网教育视频图像筛选提取法制造技术

技术编号：31089412 阅读：12 留言：0更新日期：2021-12-01 12:49

本发明专利技术公开了一种基于深度学习的互联网教育视频图像筛选提取法，属于多媒体数据检索技术领域，该筛选提取方法的具体步骤如下：步骤一、待检测多媒体数据输入；步骤二、特征提取；步骤三、特征融合；步骤四、筛选提取；本发明专利技术采用深度学习技术对多模态数据进行特征提取和特征融合，并将其投射到同一公共空间，通过相似度计算实现了多模态数据的跨模态检索，其相较于现有单一模态检索方法而言，其有利于提高多媒体素材筛选精度和提取效率，进而有利于辅助教师进行多媒体教案制作，提高教师在制作多媒体教案时的工作效率。多媒体教案时的工作效率。多媒体教案时的工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的互联网教育视频图像筛选提取法

[0001]本专利技术涉及多媒体数据检索
，尤其涉及一种基于深度学习的互联网教育视频图像筛选提取法。

技术介绍

[0002]经检索，中国专利号CN111723111A公开了一种基于视频制作资料提取的方法、装置及设备，该专利技术方法虽然通过关键词搜索筛选出了符合需求的资料，但由于其输入数据模态较为单一，导致资料筛选精度和效率都相对较低；随着科技的发展，多媒体在教学中的使用日益普遍，在教学中占据越来越重要的地位；各类学校和学术单位，都在建设多媒体教室或多功能厅；多媒体教学集声音、图像、视频和文字等媒体为一体，可以作为一种有效的辅助教学手段，且能将所要呈现的内容直观的展示出来，方便对其进行理解，既能达到传授知识、开发智力及培养能力的目的，又能实现因材施教和个性化教学的目的，因此深受师生们及学术单位的青睐；但目前，多媒体教案多由老师通过办公软件制作而成，而在制作之前需教师提前收集和导入各部分内容所需的多媒体教案素材，然而，在这个信息呈爆炸式增长的时代，多模态的互联网数据常常让一些老师无所适从，老师们很难在海量的互联网数据中准确地找到自己想要的素材，导致其常常耗费掉大量时间在素材寻找上；深度学习技术作为机器学习领域中一个新的研究方向，其在文字、图像和声音识别上具有巨大潜力，因而，如何结合深度学习技术进行多模态检索已成为当下研究重点；因此，专利技术出一种基于深度学习的互联网教育视频图像筛选提取法变得尤为重要；
[0003]现有的多媒体数据筛选提取方法大多通过单一模态实...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的互联网教育视频图像筛选提取法，其特征在于，该筛选提取方法的具体步骤如下：步骤一、待检测多媒体数据输入，输入用户所需要进行检索的待检测多媒体数据，所述待检测多媒体数据为多模态数据，其具体包括文本数据和图像数据；步骤二、特征提取，获取步骤一所述文本数据和图像数据，并将其分别输入对应文本模型和图像模型中进行向量特征提取，分别得到文本特征向量和图像特征向量；步骤三、特征融合，获取步骤二所述文本特征向量和图像特征向量，通过融合算法构建其对应门特征与残差特征，并采用度量学习方法进行特征融合，得到融合特征向量，步骤四、筛选提取，将多媒体教案素材库中多模态数据进行向量转化，得到目标数据特征向量，同时将其与融合特征向量一起投射到同一公共空间，并进行相似性度量计算，同时根据相似度进行排序，筛选提取出前N个候选数据作为检索结果。2.根据权利要求1所述的一种基于深度学习的互联网教育视频图像筛选提取法，其特征在于，步骤一所述文本词向量在进行特征提取前需进行分词处理，所述分词处理是基于统计的分词算法，其用于进行停用词去除以及关键词划分，所述停用词包含两类：一类是指频繁出现的词，另一类是指某些虚词，其包括语气助词、副词、介词、连接词及感叹词，所述停用词通过符号代替，并将其从分词结果中去掉，所述符号包括“()”、“、”、
“‑”
、“/”、和“&”。3.根据权利要求1所述的一种基于深度学习的互联网教育视频图像筛选提取法，其特征在于，步骤二所述文本模型和图像模型分别为BERT文本表示模型和VGGNet网络模型。4.根据权利要求1所述的一种基于深度学习的互联网教育视频图像筛选提取法，其特征在于，步骤三所述特征融合具体过程如下：S1：根据所述文本特征向量和图像特征向量并利用同位元素对应相乘的方式构建门特征与残差特征，所述门特征计算公式如下：f
gate
(φ
x
，φ
t
)＝σ(W
g
*ReLU(φ

【专利技术属性】
技术研发人员：王晓跃，耿晨熙，
申请(专利权)人：江苏熙枫教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人