基于DenseCap网络的学习者行为图像多区域描述方法技术

技术编号:21060901 阅读:31 留言:0更新日期:2019-05-08 07:22
一种基于DenseCap网络的学习者行为图像多区域描述方法,包括制作学习者行为图像多区域描述数据集;数据集预处理;在Torch7框架下构建基于DenseCap网络作为对学习者行为图像进行特征提取与预测框及对应描述语句生成的模型;使用训练集训练DenseCap网络;利用训练好的DenseCap网络处理测试集中的图像。本发明专利技术具有检测区域准确、描述结果更加准确、详细等优点,旨在解决学习场景下学习者行为的自动描述问题,为后序学习者个性化特征的定量分析和检索提供有力支撑。

Multi-region Description Method of Learner Behavior Image Based on DenseCap Network

【技术实现步骤摘要】
基于DenseCap网络的学习者行为图像多区域描述方法
本专利技术属于教育科学、计算机视觉和自然语言处理的交叉研究
,具体地涉及到学习场景中学习者行为分析、对学习者相关区域建议和相应的区域描述生成。准确获取学习者特征是实现以学习者为中心的精准化、个性化和智能化教育的重要前提。现有学习者特征来源有调查表法、学习者模型法和web日志法三类。调查表法需要每个学习者都事先填写调查表,效果受调查表设计的合理性和表格真实度的双重影响;学习者模型法需要事先根据每个学习者的特征,人工方式建立每个学习者模型,只适用于小样本学习者;web日志法依据学习者网上课程学习过程中操作序列记录分析行为特点,只适用于在线网络课堂场景。因此这些特征无法准确表征教室、实验室等主流学习场景下大样本学习者行为。得益于网络与通讯技术、计算机软硬件与存储能力的不断发展,以各类视频监控系统为代表的现代化教育设施迅速普及,各类学习场景中产生了海量的与学习者行为、活动及状态有关的原始数据。这使得准确捕获学习者的个性化特征和综合分析不同学习者的共性特征,进而提供有针对性的评估、引导与干预。但是,现有行为识别的数据基准多是服务于日常行为或特定场景下的行为分类研究,不能反映学习者行为变化幅度小、相似度高、出现频繁,存在个体差异和可能出现并发动作的特点,加之个体差异和背景干扰,使得利用计算机自动描述学习者的行为非常困难。另外目前大部分的图像描述方法都是针对单张图像进行单句描述,难以详细准确描述学习者的并发行为;虽然现有的DenseCap网络可以进行图像密集描述,但是由于其处理的数据集与教育场景差别较大,难以直接用来作为可用的方法,故本专利对其进行数据集和参数上的改进。
技术实现思路
本专利技术所要解决的技术问题在于克服现有技术的缺点,提供一种方法能够用自然语言有效描述学习场景中学习者行为的方法。解决上述技术问题所采用的技术方案是由下述步骤组成:(1)制作学习者行为图像多区域描述数据集采集在教室和机房场景下学习者行为视频并截取图像作为原始图像,对原始图像进行多区域和对应描述语句的人工标注形成学习者行为图像多区域描述数据集,将数据集划分成训练集和测试集;(2)数据集预处理数据集中图像像素值的宽>高,将宽缩放为固定值720,高按照原图比例对应缩放,数据集中的图像像素值的高>宽,将高缩放为固定值720,宽按照原图比例对应缩放,缩放后的图像作为DenseCap网络中VGG16网络的输入,将包含图像信息和图像中学习者行为区域标注信息及该区域对应描述语句的标注文件进行处理生成HDF5文件和JSON文件,JSON文件包含由描述语句中的词汇构成的字典集及词汇索引号和图像名称及图像索引号,HDF5文件包含图像的像素、学习者行为区域标注信息、学习者行为区域标注信息与图像索引号的对应关系、区域描述标签、学习者行为图像多区域描述数据集划分信息;(3)在Torch7框架下构建基于DenseCap网络作为对学习者行为图像进行特征提取与预测框及对应描述语句生成的模型;(4)使用训练集训练DenseCap网络,具体步骤为:(a)设置网络的超级参数设置训练迭代次数为50000~150000,自适应矩估计算法的学习率为10-6~10-4、一阶矩估计的指数衰减率为0.9~0.99、二阶矩估计的指数衰减率0.99~0.9999,其他参数均为网络默认值;(b)VGG16网络的初始化采用Caffe官网公开的经ImageNet2012数据集训练的VGG16网络中的权重和偏置作为DenseCap网络中VGG16网络的初始权重和偏置;(c)设置DenseCap网络中VGG16网络的卷积层、池化层和全连接层的训练属性,训练属性值为1表示参与训练,训练属性值为0表示不参与训练;(d)利用学习者行为图像多区域描述数据集的训练集训练DenseCap网络将预处理后的训练集,包括图像及其学习者行为区域标注信息和描述语句文件,输入DenseCap网络进行前向传播并计算损失函数,损失函数为置信度损失函数、边框位置回归损失函数和交叉熵损失函数三种损失函数的加权和,权重系数分别为10、1000、1,使用自适应矩估计算法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新网络的权重值和偏置,直至达到设定的迭代次数,训练结束,得到训练好的DenseCap网络;(5)利用训练好的DenseCap网络处理测试集中的图像(a)设置网络参数区域置信度为0.3~0.8,输出的潜在区域个数为5~100;其他参数均为网络默认值;(b)将测试集中的图像输入训练好的DenseCap网络中输出学习者行为区域及其对应描述语句。作为一种优选的技术方案,所述的步骤(3)的步骤(c)中,将前7个卷积层及前3个池化层的训练属性值设为0,后6个卷积层及后2个池化层的训练属性值设为1。作为一种优选的技术方案,在所述的步骤(5)的步骤(a)中,区域置信度设置为0.6,输出的潜在区域个数为10。本专利技术利用模拟学习场景下学习者行为图像集训练得到的DenseCap网络对学习场景下学习者行为图像进行自动的多区域描述与现有技术相比,具有检测区域准确、描述结果更加准确、详细等优点,旨在解决学习场景下学习者行为的自动描述问题,为后序学习者个性化特征的定量分析和检索提供有力支撑。附图说明图1是本专利技术实施例1的基于DenseCap网络的学习场景下学习者行为描述方法的流程图。图2是学习场景下学习者行为描述数据集中编号为1596的原图。图3是图2经过模型后输出的多区域描述结果。图4是图2人工标注多区域描述的可视化结果。图5是学习场景下学习者行为描述数据集中编号为1604的原图。图6是图5经过模型后输出的多区域描述结果。图7是图5人工标注多区域描述的可视化结果。图8是学习场景下学习者行为描述数据集中编号为184的原图。图9是图8经过模型后输出的多区域描述结果。图10是图8人工标注多区域描述的可视化结果。具体实施方式下面结合附图和实例对本专利技术进行进一步的说明,但本专利技术不限于下述实例。实施例1图1给出了本实施例的流程图。本实施例在测试集中选择一幅编号为1596的彩色图像,如图2,该图像的一种基于DenseCap网络的学习者行为图像多区域描述方法,由以下步骤组成:(1)制作学习者行为描述数据集采集2020幅像素为1280×720的模拟教室和机房场景下学习者行为描述视频的单帧图像作为原始图像集,对原始图像集中的图像进行多区域和对应描述语句的人工标注形成学习者行为图像多区域描述数据集,随机将数据集划分训练集和测试集且训练与测试集互相不重叠,训练集包括1120幅图像,测试集包括900幅图像;(2)数据集预处理将数据集中图像像素由1280×720缩小为720×405,缩小后的图像作为DenseCap网络中VGG16网络的输入,将包含图像信息和图像中学习者行为区域标注信息及该区域对应描述语句的标注文件进行处理生成HDF5文件和JSON文件,JSON文件包含由描述语句中的词汇构成的字典集及词汇索引号和图像名称及图像索引号,HDF5文件包含图像的像素、学习者行为区域标注信息、学习者行为区域标注信息与图像索引号的对应关系、区域描述标签、学习者行为图像多区域描述数据集划分信息;(3)在Torch本文档来自技高网
...

【技术保护点】
1.一种基于迭代贝叶斯的合成孔径雷达影像变化检测方法,其特征在于由下述步骤组成:(1)用对数比操作对同一地区不同时刻的合成孔径雷达影像图I1和I2构造对数比值差异图D,作为先验概率p(s);(2)通过主成分分析和最小描述长度规则提取差异图D的K维特征,K为正整数;(3)通过最小误差阈值法对先验概率p(s)进行二值化处理,得到估计的目标点集ST和背景点集BT,修改差异图D每维特征的重要性权重系数ωi,根据已获得的估计的目标点集ST和背景点集BT以及每维特征的重要性权重系数ωi,得到目标似然函数p(x|s)和背景似然函数p(y|b):

【技术特征摘要】
1.一种基于迭代贝叶斯的合成孔径雷达影像变化检测方法,其特征在于由下述步骤组成:(1)用对数比操作对同一地区不同时刻的合成孔径雷达影像图I1和I2构造对数比值差异图D,作为先验概率p(s);(2)通过主成分分析和最小描述长度规则提取差异图D的K维特征,K为正整数;(3)通过最小误差阈值法对先验概率p(s)进行二值化处理,得到估计的目标点集ST和背景点集BT,修改差异图D每维特征的重要性权重系数ωi,根据已获得的估计的目标点集ST和背景点集BT以及每维特征的重要性权重系数ωi,得到目标似然函数p(x|s)和背景似然函数p(y|b):式中,p(xi|ST)是第i维特征下目标点集ST的分布函数,xi是目标点集中含有第i维特征的像素,p(yi|BT)是第i维特征下背景点集BT的分布函数,yi是背景点集中含有第i维特征的像素;(4)根据先验概率p(s)和目标似然函数p(x|s)及背景似然函数p(y|b),通过贝叶斯公式整合全局的先验信息和多维的局部特征,得到后验概率p(s|x)为:(5)根据后验概率得到灰度图,通过最大类间方差法确定分割图像的阈值,将灰度图变为包含变化和非...

【专利技术属性】
技术研发人员:马苗高子昂吴琦陶丽丽
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1