一种基于反思网络的教学场景视频描述生成方法技术

技术编号:27743987 阅读:17 留言:0更新日期:2021-03-19 13:38
本发明专利技术公开了一种基于反思网络的教学场景视频描述生成方法,包括如下步骤:步骤1)视频图像预处理阶段;步骤2)图像特征抽取阶段;步骤3)数据集标注预处理阶段;步骤4)图像特征编码阶段;步骤5)文本解码阶段。本发明专利技术具有的有益效果是:是能够很好地针对常见教学视频生成高质量、精细化的描述性句子。提出将反思网络应用于教学场景的视频描述任务,使得网络通过一个两阶段解码器的反思过程,就可在序列解码过程中同时检查前后的内容,从而可以利用全局信息生成描述。

【技术实现步骤摘要】
一种基于反思网络的教学场景视频描述生成方法
本专利技术涉及计算机视觉与人工智能
,尤其涉及一种基于反思网络的教学场景视频描述生成方法。
技术介绍
近年来,教学问题获得大量学校师生及家长的关注,三方共同致力于探索如何有效提高教育教学各个环节的实施步骤,从而更有助于学生个人成长的问题.众多高校研究者提出,要合理利用现代化教学手段,通过多媒体和网络促进师生交流,提高师生间的互动,引导师生之间启发式、互动式的课堂教学氛围.而如何监管师生上课过程,更好地把师生的互动过程反馈给教师,使其能够及时掌握学情,改订后续教学任务,更大程度地提高教育教学成果,也成为了众多高校教师期待解决的问题之一.随着网络监管的日益完善,很自然的想到,可以通过观看师生上课视频来达到实时了解课堂互动效果,提高课堂效率的目的.但是,这样的监管太过耗费人力物力,并且如若直接把教学视频上传网络供家校双方查看,会耗费大量的数据传输和存储空间,并且也会导致一定的隐私安全问题.为解决这些问题,我们可以将拍摄的视频输入到视频描述模型中,生成以自然语言描述的师生互动的教学情况,以此来代替前期的数据传输和后期的纯人力的查看工作.而视频描述任务能够捕捉到视频中的语义信息,并在视频理解的结果中引入更多的细节和推理,可以更直观地记录课堂师生互动行为,分析评级师生互动质量,也符合人们对于视频理解辅助指导教育教学领域进一步发展的设想和期望。视频描述生成技术在现实生活中有极大的应用价值。例如,在体育解说领域,更细粒度地描述个体运动员动作和团队之间互动协作场景.在辅助残障人士方面,视频描述生成技术结合文本转语音技术,可帮助盲人理解电影内容。但是,在教育教学领域,视频描述生成的应用场景目前还未有相关工作进行探索开发。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供一种基于反思网络技术的教学场景视频描述生成方法。本专利技术的技术方案如下:一种基于反思网络的教学场景视频描述生成方法,其特征在于,包括如下步骤:步骤1)视频图像预处理阶段:利用已有的视频抽帧技术对视频抽取指定个数的图像帧,并对图像做颜色、尺寸变换的预处理;步骤2)图像特征抽取阶段:使用预训练卷积神经网络抽取图像帧特征并保存;步骤3)数据集标注预处理阶段:提出一个包含教学场景视频的新数据集,每个视频对应一条手工标注的语句,用来描述师生课堂的互动情况.根据已标注的所有文本建立词汇表;最后将所有由人类语言标注的句子根据词汇表中的对应关系转成数字序号序列;步骤4)图像特征编码阶段:使用门控循环单元网络(GRU),对于步骤2)中已保存的图像帧特征进行编码,得到视觉表征序列;步骤5)文本解码阶段:使用两阶段反思解码器,第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程打磨和润色原始语句.两个解码器将步骤4)得到的视觉表征序列解码为数字序号序列;然后根据词汇表中单词与数字的对应关系将数字序号序列转为文本句子。所述基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤1)中一个视频等间隔抽取的帧数为10帧。每一帧经过尺寸变化后,转变为通道数为3,高、宽均为224像素的图片;再把每一帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换;每次抽一个视频的图像帧进行上述处理后保存到电脑内存中,然后执行步骤2);当下一个视频到来时,再次执行步骤1)和步骤2)。所述基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤2)中所采用的预训练卷积神经网络(CNN)模型可采用AlexNet,VGG或ResNet模型对步骤1)中已抽取的图像帧进行特征抽取,然后以张量的形式存储到硬盘中,其形式为(视频个数,每个视频抽取的帧数,每个视频的特征),然后将生成的特征向量输入到步骤4)中作为编码器的输入部分。所述基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤3)中将视频数据集划分为训练集,验证集和测试集,其个数比例为4:1:1;使用NLTK工具将标注的文本进行单词划分,然后略去出现次数小于3的单词,并将每一个单词标好序,加入词汇表中;将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列;如果句子长度超过10词,那么截取前10词;如果长度少于10词,那么就用<pad>补充;在训练阶段,为识别处理不同长度的句子,在句子开头加入<BOS>,句子最后加入<EOS>符号作为结束标志.在测试阶段,在解码器解码的第一个时间步时,输入<BOS>作为起始信号,不断生成下一个单词,直至遇到<EOS>结束标志。所述基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤4)中采用门控循环单元网络(GRU)对步骤2)中已抽取的视觉特征进行编码;在每个时间步输入视觉特征并生成表达;门控循环单元网络的隐状态表达长度为1024;在训练阶段初始学习率为3e-4,采用Adam优化器进行训练。所述基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤5)中采用门控循环单元网络(GRU)对步骤4)中已编码的视觉特征进行文本解码;此解码器分为两个阶段,其中第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程对第一阶段生成的原始语句进行打磨和润色。由于第二阶段反思解码器具有第一阶段解码器生成的语句这一全局信息,因此它能通过从第一阶段的原始语句中观察未来的单词而产生描述更加精细化的序列。本专利技术与现有技术相比,具有的有益效果是能够很好地针对常见教学视频生成高质量、精细化的描述性句子;提出将反思网络应用于教学场景的视频描述任务,使得网络通过一个两阶段解码器的反思过程,就可在序列解码过程中同时检查前后的内容,从而可以利用全局信息生成描述。附图说明图1为本专利技术专利的总体流程示意图;图2为本专利技术专利的特征抽取视频图像预处理及特征抽取流程示意图;图3为本专利技术专利的模型框架示意图;图4为本专利技术专利的效果图。具体实施方式以下结合附图进一步说明本专利技术的具体实施方法。参见图1,本专利技术的总体步骤如下:采用我们建立的教学场景下的视频描述生成数据集进行训练和测试。训练阶段,将训练集中的视频及对应人工标注的句子标签送入模型进行训练。测试阶段,只将视频输入模型,然后模型将生成描述视频的句子。训练阶段和测试阶段对于下述步骤1)至步骤4)都是一样的。1)视频帧抽取:对数据集中每一个视频,首先将所有图像帧都抽取出来,然后等间隔选择10帧进入下一步。2)图像特征抽取及保存:采用预训练好的卷积神经网络模型抽取图像特征并保存到硬盘。3)文本标注预处理:使用NLTK自然语言处理工具包将人工标注的句子进行单词的划分。然后略去出现次数小于3的词,并用剩余的词构建词典。构建词典的方法是将剩余的词按照从0到词数减一进行标号。4)图像特征本文档来自技高网
...

【技术保护点】
1.一种基于反思网络的教学场景视频描述生成方法,其特征在于,包括如下步骤:/n步骤1)视频图像预处理阶段:对视频抽取指定个数的图像帧,并对图像做颜色、尺寸变换的预处理;/n步骤2)图像特征抽取阶段:使用预训练卷积神经网络抽取图像帧特征并保存;/n步骤3)数据集标注预处理阶段:提出一个包含教学场景视频的新数据集,每个视频对应一条手工标注的语句,用来描述师生课堂的互动情况;根据已标注的所有文本建立词汇表;最后将所有由人类语言标注的句子根据词汇表中的对应关系转成数字序号序列;/n步骤4)图像特征编码阶段:使用门控循环单元网络(GRU),对于步骤2)中已保存的图像帧特征进行编码,得到视觉表征序列;/n步骤5)文本解码阶段:使用两阶段反思解码器,第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程打磨和润色原始语句;两个解码器将步骤4)得到的视觉表征序列解码为数字序号序列;然后根据词汇表中单词与数字的对应关系将数字序号序列转为文本句子。/n

【技术特征摘要】
1.一种基于反思网络的教学场景视频描述生成方法,其特征在于,包括如下步骤:
步骤1)视频图像预处理阶段:对视频抽取指定个数的图像帧,并对图像做颜色、尺寸变换的预处理;
步骤2)图像特征抽取阶段:使用预训练卷积神经网络抽取图像帧特征并保存;
步骤3)数据集标注预处理阶段:提出一个包含教学场景视频的新数据集,每个视频对应一条手工标注的语句,用来描述师生课堂的互动情况;根据已标注的所有文本建立词汇表;最后将所有由人类语言标注的句子根据词汇表中的对应关系转成数字序号序列;
步骤4)图像特征编码阶段:使用门控循环单元网络(GRU),对于步骤2)中已保存的图像帧特征进行编码,得到视觉表征序列;
步骤5)文本解码阶段:使用两阶段反思解码器,第一阶段解码器用于解码生成原始语句序列,第二阶段解码器通过反思的过程打磨和润色原始语句;两个解码器将步骤4)得到的视觉表征序列解码为数字序号序列;然后根据词汇表中单词与数字的对应关系将数字序号序列转为文本句子。


2.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤1)中一个视频等间隔抽取的帧数为10帧,每一帧经过尺寸变化后,转变为通道数为3,高、宽均为224像素的图片;再把每一帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换;每次抽一个视频的图像帧进行上述处理后保存到电脑内存中,然后执行步骤2);当下一个视频到来时,再次执行步骤1)和步骤2)。


3.根据权利要求1所述的一种基于反思网络的教学场景视频描述生成方法,其特征在于,所述步骤2)中所采用的预训练卷积神经网络CNN模型可采用AlexNet,VGG或ResNet模型对步骤1)中已抽取的图像帧进行特征抽取,然后以张量的形式存储到硬盘中,其形...

【专利技术属性】
技术研发人员:于长斌段晨瑞朱铭健孙晓彤靳伟于凤敏
申请(专利权)人:杭州义顺科技有限公司南京众智未来人工智能研究院有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1