【技术实现步骤摘要】
一种自然语言轨迹指令生成方法、装置及存储介质
[0001]本专利技术涉及视觉语言多模态融合
,尤其是涉及一种基于半监督学习的自然语言轨迹指令生成方法、装置及存储介质。
技术介绍
[0002]自然语言轨迹指令生成旨在根据机器行进路径的观察特征来输出对应的指令描述,是人机交互与机器自主探索的一项重要技术。同时,该方法也是视觉语言导航任务重要的数据增强技术之一,基于自然语言轨迹指令生成模型来自动生成指令,可以有效解决因有标签数据集规模较小所导致的模型学习泛化性较低的问题。然而,以前的轨迹指令生成模型往往忽略了小规模数据集对轨迹指令生成模型自身的限制,导致轨迹指令生成模型性能较低,存在生成大量错误伪标签的情况。同时,由于缺乏对伪标签质量的核验手段,所生成的错误轨迹指令存在影响模型学习和任务实际完成效果的问题。
技术实现思路
[0003]本专利技术的目的就是为了提供一种基于半监督学习的自然语言轨迹指令生成方法、装置及存储介质,提高模型泛化性和准确性。
[0004]本专利技术的目的可以通过以下技术方案来实现 ...
【技术保护点】
【技术特征摘要】
1.一种基于半监督学习的自然语言轨迹指令生成方法,其特征在于,包括以下步骤:步骤1)构建基于编码
‑
解码结构的轨迹
‑
指令生成器;步骤2)构建基于双塔结构的轨迹
‑
指令匹配器;步骤3)在环境中采集若干候选导航点,生成有限条轨迹并标注相应的自然语言指令,人工标注形成有标签数据集,同时,随机生成大量轨迹路线以形成无标签数据集;步骤4)利用有标签数据集分别训练轨迹
‑
指令生成器和轨迹
‑
指令匹配器;步骤5)基于无标签数据集,利用轨迹
‑
指令生成器生成对应的伪标签,使用轨迹
‑
指令匹配器过滤质量低的伪标签;步骤6)将过滤后的高质量伪标签数据集与有标签数据集合并,精炼轨迹
‑
指令生成器,得到高性能轨迹
‑
指令生成器;步骤7)重复步骤5)和步骤6),直到轨迹
‑
指令匹配器判断无低质量伪标签,或达到重复轮数上限。2.根据权利要求1所述的一种基于半监督学习的自然语言轨迹指令生成方法,其特征在于,所述轨迹
‑
指令生成器的输入为包含多个可导航点的环境视觉图像集合与机器偏移角度集合,输出为对路径的自然语言指令描述,采用基于Transformer或LSTM的编码
‑
解码结构。3.根据权利要求1所述的一种基于半监督学习的自然语言轨迹指令生成方法,其特征在于,所述轨迹
‑
指令匹配器的输入为双分支结构,一条分支为包含多个可导航点的环境视觉图像集合与机器偏移角度集合,另一条分支为自然语言指令,双塔结构采用两个独立的Transformer编码器对双分支分别编码,利用余弦相似度计算双分支输出特征的相似度,其计算公式为:式中,α和β均为归一化后长度为N的向量,α=(a1,
…
,a
N
),β=(b1,
…
,b
N
)。4.根据权利要求1所述的一种基于半监督学习的自然语言轨迹指令生成方法,其特征在于,所述步骤3)中,在环境中采集的候选导航点为机器真实可到达的若干离散点,按照相连候选导航点之间的距离不超...
【专利技术属性】
技术研发人员:陈启军,王柳懿,刘成菊,何宗涛,党荣浩,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。