当前位置: 首页 > 专利查询>同济大学专利>正文

一种用于视觉问答模型训练的增量型数据增强方法及应用技术

技术编号:26420059 阅读:56 留言:0更新日期:2020-11-20 14:15
本发明专利技术涉及一种用于视觉问答模型训练的增量型数据增强方法,该方法包括:获取原始训练数据集,该数据集中的训练样本的形式为<图像、文本、答案>,所述文本由自然语言序列形成;获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布,基于所述句长分布确定最小句子长度阈值和最大句子长度阈值;根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充,实现数据增强。与现有技术相比,本发明专利技术具有实现数据多样性、效率佳、简单等优点。

【技术实现步骤摘要】
一种用于视觉问答模型训练的增量型数据增强方法及应用
本专利技术涉及一种模型训练方法,尤其是涉及一种用于视觉问答模型训练的增量型数据增强方法及应用。
技术介绍
近年来随着移动设备的大量普及和人民需求的日渐提升,呈现给每个人的各类视觉数据均呈现爆炸式增长,人们对于可解答疑惑的视觉问答系统的需求不断攀升。视觉问答系统旨在根据人们的需求描述帮助完成对视觉信息的解读,涉及到问题的理解、物体的检索、定位和推理。相较于其他的跨模任务如视觉描述,视觉问答任务的发展仍然受限于无限的搜索空间与不完备的训练数据的矛盾、统计推理与实际推理的矛盾、理解差异造成的回答冲突、语义表达的多样性和推理难度与数据量大小的矛盾等。其中语义表达的多样性又加大了数据量大小的矛盾和回答冲突的可能性,从而加大了推理难度,因此语义表达的多样性是目前需要面对的一个重要问题,现有方法通常仅使用数据清洗,即去除语义文本数据中的无效数据,难以达到需求的识别效果。
技术实现思路
本专利技术的目的在于克服上述现有技术存在的缺陷而提供一种实现简单的用于视觉问答模型训练的增量型数据增强方法及应用。本专利技术的目的可以通过以下技术方案来实现:一种用于视觉问答模型训练的增量型数据增强方法,该方法包括:获取原始训练数据集,该数据集中的训练样本的形式为<图像、文本、答案>,所述文本由自然语言序列形成;获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布,基于所述句长分布确定最小句子长度阈值和最大句子长度阈值;根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充,实现数据增强。进一步地,抓取所有句子的长度分布,该长度分布呈现正态分布,采用50%和99%确定所述最小句子长度阈值和最大句子长度阈值。进一步地,针对每一训练样本的自然语言序列,判断句子长度是否小于所述最大句子长度阈值,若是,则对该自然语言序列进行扩充,扩充后的句子长度位于最小句子长度阈值和最大句子长度阈值所组成的长度阈值范围之内,若否,则不进行扩充。进一步地,随机选定自然语言序列中的某个单词,以紧随原单词之后重复原单词的方法进行扩充。进一步地,通过词频分布选取中间1/3部分的词频作为单词候选加强相应的权重,随后通过权重随机的方式选定自然语言序列中的某个单词,以紧随原单词之后重复原单词的方法进行扩充。本专利技术还提供一种视觉问答模型的训练方法,该方法包括:模型初始化;以所述的增量型数据增强方法对原始训练数据集进行扩充,获取扩充训练数据集;对扩充训练数据集中的训练样本进行特征抽取,获得文本特征和图像特征;对所述图像特征和文本特征进行特征融合,生成融合特征,基于所述融合特征生成输出答案;基于所述输出答案与训练样本中的初始答案计算答案误差;基于所述答案误差对所述视觉问答模型进行参数迭代调整。进一步地,所述文本特征的提取具体为:基于时序神经网络的最大长度限制对自然语言序列进行最大长度裁剪,将裁剪后的自然语言序列送入时序神经网络提取文本特征;所述时序神经网络包括循环神经网络模组,自然语言序列逐步输入所述循环神经网络模组中,以最后时间步的隐层特征或所有时间步的隐层特征的融合作为所述文本特征。进一步地,将训练样本中的图像送入卷积神经网络中抽取相应的卷积层和全连接层特征,以最后一个卷积层的特征、倒数第二个全连接层的特征置信度或者最高的36个目标的特征作为图像特征。进一步地,所述特征融合具体为:对所述图像特征和文本特征分别通过全连接层进行特征转换,生成两个同尺寸的隐层特征,对两个隐层特征进行点乘获得融合特征;或者对所述图像特征和文本特征分别通过全连接层进行特征转换,生成两个不同尺寸的隐层特征,通过复制扩展将两个隐层特征的尺寸调整至相同,将调整后的两个隐层特征进行点乘生成融合隐层特征,以一个全连接层对所述融合隐层特征进行特征转换,并通过另一个全连接层生成注意力特征,将所述注意力特征与图像特征进行点乘融合生成最终的融合特征。进一步地,所述参数迭代调整采用的迭代方法包括二阶动量优化方法。与现有技术相比,本专利技术具有如下有益效果:(1)本专利技术对训练数据集进行扩充,实现增强型的文本数据变化,实现数据多样性,通过将原句表达进行有限形变,达地成语句表达形式的多样化,使得模型可以接受各种长度和模式的同一信息,增强模型对表达形式的鲁棒性,进而提升模型的效果,提升分类准确率等评价效果;(2)本专利技术通过数据统计,设计随机增强策略和词频增强策略实现自然语言数据的扩充,操作极为简单方法,具备极强的可操作性;(3)本专利技术涉及对输入文本数据的形变,不涉及模型的改变和额外数据的输入,因此无其他任何附加计算和数据需求,无附加消耗,在实际应用中具有极强的意义;(4)基于数据扩充后的训练数据集进行视觉问答模型的训练,训练精度高,具有较强的优势和应用前景。附图说明图1为本专利技术训练过程的流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。实施例1本实施例提供一种用于视觉问答模型训练的增量型数据增强方法,该方法包括数据统计步骤、阈值确定步骤和数据扩充步骤,具体地:获取原始训练数据集,该数据集中的训练样本的形式为<图像、文本、答案>,所述文本由自然语言序列形成;获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布,基于所述句长分布确定最小句子长度阈值和最大句子长度阈值;根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充,实现数据增强。数据统计包括统计训练数据集中所有原始语言序列中文本单词的长度统计分布和单词频次分布,根据句长统计确定文本语言序列的限定长度范围,设定最小句子长度阈值和最大句子长度阈值,并根据词频统计确定各个单词的词频分布,用于后续的单词选中概率。生成阈值和词频分布的具体过程为:句子长度的取值范围会落在0-L之间,整体会呈现出正态分布,分别采用50%和99%确定最小句子长度阈值和最大句子长度阈值,并据此对句子进行切割使得句子长度落在最大长度阈值内,本例的最大长度阈值设定为14。利用训练数据集抓取所有单词的出现频次,词频的取值范围会落在0-F之间,整体会遵循齐夫定律,并据此将单词分为三个段位,分别为频次在(0,e^(log(F)/3)),(e^(log(F)/3),e^(log(F)*2/3)),(e^(log(F)*2/3),F)之间的词汇,记录所有单词对应的词频。数据扩充步骤中,针对每一训练样本的自然语言序列,判断句子长度是否小于所述最大句子长度阈值,若是,则对该自然语言序列进行扩充,扩充后的句子长度位于最小句子长度阈值和最大本文档来自技高网...

【技术保护点】
1.一种用于视觉问答模型训练的增量型数据增强方法,其特征在于,该方法包括:/n获取原始训练数据集,该数据集中的训练样本的形式为<图像、文本、答案>,所述文本由自然语言序列形成;/n获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布,基于所述句长分布确定最小句子长度阈值和最大句子长度阈值;/n根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充,实现数据增强。/n

【技术特征摘要】
20200323 CN 20201020998351.一种用于视觉问答模型训练的增量型数据增强方法,其特征在于,该方法包括:
获取原始训练数据集,该数据集中的训练样本的形式为<图像、文本、答案>,所述文本由自然语言序列形成;
获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布,基于所述句长分布确定最小句子长度阈值和最大句子长度阈值;
根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充,实现数据增强。


2.根据权利要求1所述的用于视觉问答模型训练的增量型数据增强方法,其特征在于,抓取所有句子的长度分布,该长度分布呈现正态分布,采用50%和99%确定所述最小句子长度阈值和最大句子长度阈值。


3.根据权利要求1所述的用于视觉问答模型训练的增量型数据增强方法,其特征在于,针对每一训练样本的自然语言序列,判断句子长度是否小于所述最大句子长度阈值,若是,则对该自然语言序列进行扩充,扩充后的句子长度位于最小句子长度阈值和最大句子长度阈值所组成的长度阈值范围之内,若否,则不进行扩充。


4.根据权利要求3所述的用于视觉问答模型训练的增量型数据增强方法,其特征在于,随机选定自然语言序列中的某个单词,以紧随原单词之后重复原单词的方法进行扩充。


5.根据权利要求3所述的用于视觉问答模型训练的增量型数据增强方法,其特征在于,通过词频分布选取中间1/3部分的词频作为单词候选加强相应的权重,随后通过权重随机的方式选定自然语言序列中的某个单词,以紧随原单词之后重复原单词的方法进行扩充。


6.一种视觉问答模型的训练方法,其特征在于,该方法包括:
模型初始化;
以权利要求1-5任一所述的增量型数据增强方法对原...

【专利技术属性】
技术研发人员:王瀚漓龙宇
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1