【技术实现步骤摘要】
一种基于反思网络的教学场景视频描述生成方法
本专利技术涉及计算机视觉与人工智能
,尤其涉及一种基于反思网络的教学场景视频描述生成方法。
技术介绍
近年来,教学问题获得大量学校师生及家长的关注,三方共同致力于探索如何有效提高教育教学各个环节的实施步骤,从而更有助于学生个人成长的问题.众多高校研究者提出,要合理利用现代化教学手段,通过多媒体和网络促进师生交流,提高师生间的互动,引导师生之间启发式、互动式的课堂教学氛围.而如何监管师生上课过程,更好地把师生的互动过程反馈给教师,使其能够及时掌握学情,改订后续教学任务,更大程度地提高教育教学成果,也成为了众多高校教师期待解决的问题之一.随着网络监管的日益完善,很自然的想到,可以通过观看师生上课视频来达到实时了解课堂互动效果,提高课堂效率的目的.但是,这样的监管太过耗费人力物力,并且如若直接把教学视频上传网络供家校双方查看,会耗费大量的数据传输和存储空间,并且也会导致一定的隐私安全问题.为解决这些问题,我们可以将拍摄的视频输入到视频描述模型中,生成以自然语言描述的师生互动的教学情况,以此来代替前期的数据传输和后期的纯人力的查看工作.而视频描述任务能够捕捉到视频中的语义信息,并在视频理解的结果中引入更多的细节和推理,可以更直观地记录课堂师生互动行为,分析评级师生互动质量,也符合人们对于视频理解辅助指导教育教学领域进一步发展的设想和期望。视频描述生成技术在现实生活中有极大的应用价值。例如,在体育解说领域,更细粒度地描述个体运动员动作和团队之间互动协作场景.在辅 ...
【技术保护点】
1.一种基于反思网络的教学场景视频描述生成方法,其特征在于,包括如下步骤:/n步骤1)视频图像预处理阶段:对视频抽取指定个数的图像帧,并对图像做颜色、尺寸变换的预处理;/n步骤2)图像特征抽取阶段:使用预训练卷积神经网络抽取图像帧特征并保存;/n步骤3)数据集标注预处理阶段:提出一个包含教学场景视频的新数据集,每个视频对应一条手工标注的语句,用来描述师生课堂的互动情况;根据已标注的所有文本建立词汇表;最后将所有由人类语言标注的句子根据词汇表中的对应关系转成数字序号序列;/n步骤4)图像特征编码阶段:使用门控循环单元网络(GRU),对于步骤2)中已保存的图像帧特征进行编码,得到视觉表征序列;/n步骤5)文本解码阶段:使用两阶段反思解码器,第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程打磨和润色原始语句;两个解码器将步骤4)得到的视觉表征序列解码为数字序号序列;然后根据词汇表中单词与数字的对应关系将数字序号序列转为文本句子。/n
【技术特征摘要】
1.一种基于反思网络的教学场景视频描述生成方法,其特征在于,包括如下步骤:
步骤1)视频图像预处理阶段:对视频抽取指定个数的图像帧,并对图像做颜色、尺寸变换的预处理;
步骤2)图像特征抽取阶段:使用预训练卷积神经网络抽取图像帧特征并保存;
步骤3)数据集标注预处理阶段:提出一个包含教学场景视频的新数据集,每个视频对应一条手工标注的语句,用来描述师生课堂的互动情况;根据已标注的所有文本建立词汇表;最后将所有由人类语言标注的句子根据词汇表中的对应关系转成数字序号序列;
步骤4)图像特征编码阶段:使用门控循环单元网络(GRU),对于步骤2)中已保存的图像帧特征进行编码,得到视觉表征序列;
步骤5)文本解码阶段:使用两阶段反思解码器,第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程打磨和润色原始语句;两个解码器将步骤4)得到的视觉表征序列解码为数字序号序列;然后根据词汇表中单词与数字的对应关系将数字序号序列转为文本句子。
2.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤1)中一个视频等间隔抽取的帧数为10帧,每一帧经过尺寸变化后,转变为通道数为3,高、宽均为224像素的图片;再把每一帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换;每次抽一个视频的图像帧进行上述处理后保存到电脑内存中,然后执行步骤2);当下一个视频到来时,再次执行步骤1)和步骤2)。
3.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤2)中所采用的预训练卷积神经网络CNN模型可采用AlexNet,VGG或ResNet模型对步骤1)中已抽取的图像帧进行特征抽取,然后以张量的形式存储到硬盘中,其形...
【专利技术属性】
技术研发人员:于长斌,段晨瑞,朱铭健,孙晓彤,靳伟,于凤敏,
申请(专利权)人:杭州义顺科技有限公司,南京众智未来人工智能研究院有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。