基于视频学习和文本学习的三元组获取方法及装置制造方法及图纸

技术编号:26378088 阅读:45 留言:0更新日期:2020-11-19 23:46
本发明专利技术提供的一种基于视频学习和文本学习的三元组获取方法、装置、共融机器人视觉编程及在线协作系统、机器人,首先对长视频进行学习,得到各个视频段对应的主体物体、受体物体以及动作类型,并组成相应的操作指令三元组,然后利用文本‑三元组正负样本数据集训练自然语言模型,并将操作指令三元组组成的文本信息输入到该自然语言模型中,以得到预测三元组,通过该预测三元组来纠正长视频输出的操作指令三元组,从而实现多模态的融合;并且,通过视频学习和文本学习得到的目标三元组,其准确率相对较高,能够有效提高机器人识别长视频操作指令的正确率,有利于机器人更好地自主学习,提高学习效率。

【技术实现步骤摘要】
基于视频学习和文本学习的三元组获取方法及装置
本专利技术涉及人工智能
,尤其涉及一种基于视频学习和文本学习的三元组获取方法、装置、共融机器人视觉编程及在线协作系统、机器人。
技术介绍
随着机器人技术的不断发展,机器人的自主学习能力也在不断提高;例如,现有技术中,通常利用长视频来学习操作指令三元组,机器人将输入的长视频按照动作划分为视频段,然后识别各个视频段中的主体物体和受体物体的位置和种类,以及主体物体与受体物体之间的动作,从而构成操作指令三元组,随后机器人执行相应的操作指令,从而完成自主学习的过程,并能够根据不同场景做出不同的动作。但是,机器人通过长视频来提高自主学习能力的过程中,由于其主要通过识别各个视频段中的主体物体和受体物体的位置和种类,以及主体物体与受体物体之间的动作来执行相应的操作指令,却无法判断出物体间的联系以及动作与物体间的联系,导致出现一些错误的三元组;比如输出的三元组为(榨汁机,榨,碗),机器人无法判断该组三元组存在常识性的错误,仍旧会按照输出的三元组来执行错误的动作,从而限制了机器人的自主学习能力,使得机器人执行动作本文档来自技高网...

【技术保护点】
1.一种基于视频学习和文本学习的三元组获取方法,应用于机器人,其特征在于,所述方法包括:/n获取长视频,将所述长视频分割为多个视频段,并根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组;/n将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中,得到预测三元组;其中,所述自然语言模型利用文本-三元组正负样本数据集进行训练;/n将所述预测三元组与所述操作指令三元组进行比对,确定目标三元组,并将所述目标三元组输入到所述机器人中,以使所述机器人执行相应的操作指令。/n

【技术特征摘要】
1.一种基于视频学习和文本学习的三元组获取方法,应用于机器人,其特征在于,所述方法包括:
获取长视频,将所述长视频分割为多个视频段,并根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组;
将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中,得到预测三元组;其中,所述自然语言模型利用文本-三元组正负样本数据集进行训练;
将所述预测三元组与所述操作指令三元组进行比对,确定目标三元组,并将所述目标三元组输入到所述机器人中,以使所述机器人执行相应的操作指令。


2.根据权利要求1所述的基于视频学习和文本学习的三元组获取方法,其特征在于,将所述长视频分割为多个视频段的步骤,包括:
确定所述长视频中每一帧的预测动作,并将相同预测动作对应的帧进行合并,得到多个视频段。


3.根据权利要求2所述的基于视频学习和文本学习的三元组获取方法,其特征在于,根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组的步骤,包括:
根据所述视频段中的预测动作确定各个视频段对应的动作类型以及动作识别概率;
对所述视频段进行目标检测并分类,得到与所述视频段对应的主体物体、受体物体以及对应的物体识别概率;
根据所述动作识别概率和所述物体识别概率选取相应的动作类型、主体物体和受体物体,并组成操作指令三元组。


4.根据权利要求1所述的基于视频学习和文本学习的三元组获取方法,其特征在于,将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中的步骤之前,还包括:
获取多个长视频,并组成视频数据集,根据所述视频数据集构建文本-三元组正负样本数据集;
利用所述文本-三元组正负样本数据集对预先建立的自然语言模型进行训练,得到训练后的自然语言模型。


5.根据权利要求4所述的基于视频学习和文本学习的三元组获取方法,其特征在于,所述自然语言模型为BERT+GRU模型;
利用所述文本-三元组正负样本数据集对预先建立的自然语言模型进行训练的步骤,包括:
通过所述BERT+GRU模型的BERT模型提取所述文本-三元组正负样本数据集的特征数据,并将所述特征数据输入到所述BERT+GRU模型的GRU模型中,得到三个长度相同的矩阵;
利用sigmoid函数确定各个矩阵中各个类别对应的识别概率...

【专利技术属性】
技术研发人员:黄可思刘文印陈俊洪朱展模王思涵
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1