一种用于视觉问答模型训练的增量型数据增强方法及应用技术

技术编号：26420059 阅读：56 留言：0更新日期：2020-11-20 14:15

本发明专利技术涉及一种用于视觉问答模型训练的增量型数据增强方法，该方法包括：获取原始训练数据集，该数据集中的训练样本的形式为<图像、文本、答案>，所述文本由自然语言序列形成；获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布，基于所述句长分布确定最小句子长度阈值和最大句子长度阈值；根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充，实现数据增强。与现有技术相比，本发明专利技术具有实现数据多样性、效率佳、简单等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于视觉问答模型训练的增量型数据增强方法及应用
本专利技术涉及一种模型训练方法，尤其是涉及一种用于视觉问答模型训练的增量型数据增强方法及应用。
技术介绍
近年来随着移动设备的大量普及和人民需求的日渐提升，呈现给每个人的各类视觉数据均呈现爆炸式增长，人们对于可解答疑惑的视觉问答系统的需求不断攀升。视觉问答系统旨在根据人们的需求描述帮助完成对视觉信息的解读，涉及到问题的理解、物体的检索、定位和推理。相较于其他的跨模任务如视觉描述，视觉问答任务的发展仍然受限于无限的搜索空间与不完备的训练数据的矛盾、统计推理与实际推理的矛盾、理解差异造成的回答冲突、语义表达的多样性和推理难度与数据量大小的矛盾等。其中语义表达的多样性又加大了数据量大小的矛盾和回答冲突的可能性，从而加大了推理难度，因此语义表达的多样性是目前需要面对的一个重要问题，现有方法通常仅使用数据清洗，即去除语义文本数据中的无效数据，难以达到需求的识别效果。
技术实现思路
本专利技术的目的在于克服上述现有技术存在的缺陷而提供一种实现简单的用于视觉问答模型训练的增量型数据增强方法及应用。本专利技术的目的可以通过以下技术方案来实现：一种用于视觉问答模型训练的增量型数据增强方法，该方法包括：获取原始训练数据集，该数据集中的训练样本的形式为<图像、文本、答案>，所述文本由自然语言序列形成；获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布，基于所述句长分布确定最小句子长度阈值和最大句子长...

【技术保护点】
1.一种用于视觉问答模型训练的增量型数据增强方法，其特征在于，该方法包括：/n获取原始训练数据集，该数据集中的训练样本的形式为<图像、文本、答案>，所述文本由自然语言序列形成；/n获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布，基于所述句长分布确定最小句子长度阈值和最大句子长度阈值；/n根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充，实现数据增强。/n

【技术特征摘要】
20200323 CN 20201020998351.一种用于视觉问答模型训练的增量型数据增强方法，其特征在于，该方法包括：
获取原始训练数据集，该数据集中的训练样本的形式为<图像、文本、答案>，所述文本由自然语言序列形成；
获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布，基于所述句长分布确定最小句子长度阈值和最大句子长度阈值；
根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充，实现数据增强。

2.根据权利要求1所述的用于视觉问答模型训练的增量型数据增强方法，其特征在于，抓取所有句子的长度分布，该长度分布呈现正态分布，采用50％和99％确定所述最小句子长度阈值和最大句子长度阈值。

3.根据权利要求1所述的用于视觉问答模型训练的增量型数据增强方法，其特征在于，针对每一训练样本的自然语言序列，判断句子长度是否小于所述最大句子长度阈值，若是，则对该自然语言序列进行扩充，扩充后的句子长度位于最小句子长度阈值和最大句子长度阈值所组成的长度阈值范围之内，若否，则不进行扩充。

4.根据权利要求3所述的用于视觉问答模型训练的增量型数据增强方法，其特征在于，随机选定自然语言序列中的某个单词，以紧随原单词之后重复原单词的方法进行扩充。

5.根据权利要求3所述的用于视觉问答模型训练的增量型数据增强方法，其特征在于，通过词频分布选取中间1/3部分的词频作为单词候选加强相应的权重，随后通过权重随机的方式选定自然语言序列中的某个单词，以紧随原单词之后重复原单词的方法进行扩充。

6.一种视觉问答模型的训练方法，其特征在于，该方法包括：
模型初始化；
以权利要求1-5任一所述的增量型数据增强方法对原...

【专利技术属性】
技术研发人员：王瀚漓，龙宇，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人