一种操作命令生成方法、装置及电子设备和存储介质制造方法及图纸

技术编号:25087889 阅读:17 留言:0更新日期:2020-07-31 23:32
本申请公开了一种操作命令生成方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取训练集;其中,所述训练集包括多个标注操作命令的视频段,所述操作命令包括操作者的手部、主体对象、动作和受体对象;提取每个所述视频段的RGB特征和光流特征,并对所述RGB特征和所述光流特征进行融合得到融合特征;基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络,以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。本申请提供的操作命令生成方法,提高了生成操作命令的效率和准确度。

【技术实现步骤摘要】
一种操作命令生成方法、装置及电子设备和存储介质
本申请涉及机器人
,更具体地说,涉及一种操作命令生成方法、装置及一种电子设备和一种计算机可读存储介质。
技术介绍
从视频中学习操作是机器人获得新技能的一种重要方式。在相关技术中,利用基于语法的解析器对原始视频进行解析,首先将原始视频分解为原子命令,以识别其中的动作、主体对象和受体对象,并组合为初始命令。其次,从现实环境中,通过计算主体对象和受体对象与机器人之间的最小实际欧氏距离决定使用左手还是右手。最后,根据预定义的命令序列语法,解析器可以组合原子命令来生成用于机器人的通用命令。在上述方案中,需要设计和训练多个复杂的网络,例如动作识别网络、物体分类网络、主体对象分类网络和受体对象分类网络等。而组成操作命令的手部(左手或右手)并不能直接通过视频中的信息进行学习,效率和准确度较低。因此,如何提高生成操作命令的效率和准确度是本领域技术人员需要解决的技术问题。
技术实现思路
本申请的目的在于提供一种操作命令生成方法、装置及一种电子设备和一种计算机可读存储介质,提高了生成操作命令的效率和准确度。为实现上述目的,本申请提供了一种操作命令生成方法,包括:获取训练集;其中,所述训练集包括多个标注操作命令的视频段,所述操作命令包括操作者的手部、主体对象、动作和受体对象;提取每个所述视频段的RGB特征和光流特征,并对所述RGB特征和所述光流特征进行融合得到融合特征;基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络,以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。其中,所述提取每个所述视频段的RGB特征和光流特征,包括:利用opencv工具箱从每个所述视频段中抽取RGB图像和光流图像;利用双流3D卷积神经网络从每个所述RGB图像中提取每个所述视频段的所述RGB特征、从每个所述光流图像中提取每个所述视频段的所述光流特征。其中,对所述RGB特征和所述光流特征进行融合得到融合特征,包括:对所述RGB特征和所述光流特征进行向量拼接得到所述融合特征。其中,所述训练完成的LSTM网络包括第一LSTM层、第二LSTM层和softmax层;所述第一LSTM层的输入包括所述目标视频段的融合特征,输出包括隐藏的编码器向量序列;所述第二LSTM层的输入包括所述隐藏的编码器向量序列,输出包括解码器向量序列;所述softmax层的输入包括所述解码器向量序列,输出包括所述目标视频段对应的操作命令。为实现上述目的,本申请提供了一种操作命令生成装置,包括:获取模块,用于获取训练集;其中,所述训练集包括多个标注操作命令的视频段,所述操作命令包括操作者的手部、主体对象、动作和受体对象;提取模块,用于提取每个所述视频段的RGB特征和光流特征,并对所述RGB特征和所述光流特征进行融合得到融合特征;训练模块,用于基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络,以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。其中,所述提取模块包括:抽取单元,用于利用opencv工具箱从每个所述视频段中抽取RGB图像和光流图像;提取单元,用于利用双流3D卷积神经网络从每个所述RGB图像中提取每个所述视频段的所述RGB特征、从每个所述光流图像中提取每个所述视频段的所述光流特征;融合单元,用于对所述RGB特征和所述光流特征进行融合得到融合特征。其中,所述融合单元具体为对所述RGB特征和所述光流特征进行向量拼接得到所述融合特征的单元。其中,所述训练完成的LSTM网络包括第一LSTM层、第二LSTM层和softmax层;所述第一LSTM层的输入包括所述目标视频段的融合特征,输出包括隐藏的编码器向量序列;所述第二LSTM层的输入包括所述隐藏的编码器向量序列,输出包括解码器向量序列;所述softmax层的输入包括所述解码器向量序列,输出包括所述目标视频段对应的操作命令。为实现上述目的,本申请提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述操作命令生成方法的步骤。为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述操作命令生成方法的步骤。通过以上方案可知,本申请提供的一种操作命令生成方法,包括:获取训练集;其中,所述训练集包括多个标注操作命令的视频段,所述操作命令包括操作者的手部、主体对象、动作和受体对象;提取每个所述视频段的RGB特征和光流特征,并对所述RGB特征和所述光流特征进行融合得到融合特征;基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络,以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。本申请提供的操作命令生成方法,由于训练集标注的操作命令中包括操作者的手部,即左手或右手,因此训练完成的LSTM(中文全称:长短期记忆,英文全称:LongShort-TermMemory)网络可以直接输出目标视频段中的手部,提高了生成手部的效率和准确度。同时,在本申请中,只需要特征提取网络和LSTM网络即可生成操作命令,减少了训练多个网络模型的成本。另外,对于视频段的特征提取,本申请在利用RGB特征的同时,结合光流特征训练网络,使得到的操作命令在精度上得到显著提高。本申请还公开了一种操作命令生成装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1为根据一示例性实施例示出的一种操作命令生成方法的流程图;图2为根据一示例性实施例示出的一种LSTM网络的结构图;图3为根据一示例性实施例示出的另一种操作命令生成方法的流程图;图4为根据一示例性实施例示出的一种操作命令生成装置的结构图;图5为根据一示例性实施例示出的一种电子设备的结构图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例公开了一种操本文档来自技高网...

【技术保护点】
1.一种操作命令生成方法,其特征在于,包括:/n获取训练集;其中,所述训练集包括多个标注操作命令的视频段,所述操作命令包括操作者的手部、主体对象、动作和受体对象;/n提取每个所述视频段的RGB特征和光流特征,并对所述RGB特征和所述光流特征进行融合得到融合特征;/n基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络,以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。/n

【技术特征摘要】
1.一种操作命令生成方法,其特征在于,包括:
获取训练集;其中,所述训练集包括多个标注操作命令的视频段,所述操作命令包括操作者的手部、主体对象、动作和受体对象;
提取每个所述视频段的RGB特征和光流特征,并对所述RGB特征和所述光流特征进行融合得到融合特征;
基于每个所述视频段对应的融合特征和标注的操作命令训练LSTM网络,以便利用训练完成的LSTM网络输出目标视频段对应的操作命令。


2.根据权利要求1所述操作命令生成方法,其特征在于,所述提取每个所述视频段的RGB特征和光流特征,包括:
利用opencv工具箱从每个所述视频段中抽取RGB图像和光流图像;
利用双流3D卷积神经网络从每个所述RGB图像中提取每个所述视频段的所述RGB特征、从每个所述光流图像中提取每个所述视频段的所述光流特征。


3.根据权利要求1所述操作命令生成方法,其特征在于,对所述RGB特征和所述光流特征进行融合得到融合特征,包括:
对所述RGB特征和所述光流特征进行向量拼接得到所述融合特征。


4.根据权利要求1至3中任一项所述操作命令生成方法,其特征在于,所述训练完成的LSTM网络包括第一LSTM层、第二LSTM层和softmax层;
所述第一LSTM层的输入包括所述目标视频段的融合特征,输出包括隐藏的编码器向量序列;
所述第二LSTM层的输入包括所述隐藏的编码器向量序列,输出包括解码器向量序列;
所述softmax层的输入包括所述解码器向量序列,输出包括所述目标视频段对应的操作命令。


5.一种操作命令生成装置,其特征在于,包括:
获取模块,用于获取训练集;其中,所述训练集包括多个标注操作命令的视频段,所述操作命令包括操作者的手部、主体对象、动作和受体对象;
提取模块,用于提取每个所...

【专利技术属性】
技术研发人员:刘文印莫秀云陈俊洪梁达勇朱展模
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1