视频数据处理方法、装置、电子设备和计算机可读介质制造方法及图纸

技术编号:24686747 阅读:77 留言:0更新日期:2020-06-27 08:52
本申请公开了一种视频数据处理方法、装置、电子设备和计算机可读介质。该方法包括:基于预设的奖励预测模型,对视频数据中,执行主体执行目标任务时的任务环境进行特征提取,生成任务环境的分布激励;基于预设的强化学习模型,根据任务环境,生成任务指令,根据任务指令指导执行主体执行目标任务,得到任务结果;基于预设的奖励评估函数,对任务结果进行评估,生成任务激励,并根据任务激励,对奖励预测模型的参数进行调整;根据分布激励,对强化学习模型的参数进行调整。籍此,通过强化学习模型生成的任务激励对奖励预测模型的参数进行调整,优化奖励预测模型;通过奖励预测模型生成的分布激励对强化学习模型的参数进行调整,优化强化学习模型。

Video data processing methods, devices, electronic equipment and computer-readable media

【技术实现步骤摘要】
视频数据处理方法、装置、电子设备和计算机可读介质
本申请涉及数据处理
,特别是涉及一种视频数据处理方法、装置、电子设备和计算机可读介质。
技术介绍
自动驾驶作为一项新技术,是汽车行业当前的热点,它是通过人工智能、视觉计算等系统的协同合作,使人工智能可以在没有任何人类的主动操作下,指导车辆自主行驶。
技术实现思路
基于上述问题,本申请提供了一种视频数据处理方法、装置、电子设备和计算机可读介质。本申请实施例公开了如下技术方案:本申请实施例提供一种视频数据处理方法,包括:基于预设的奖励预测模型,对所述视频数据中,执行主体执行目标任务时的任务环境进行特征提取,生成所述任务环境的分布激励;基于预设的强化学习模型,根据所述任务环境,生成任务指令,并根据所述任务指令指导所述执行主体执行所述目标任务,得到任务结果;基于预设的奖励评估函数,对所述任务结果进行评估,生成任务激励,并根据所述任务激励,对所述奖励预测模型的参数进行调整;以及,根据所述分布激励,对所述强化学习模型的参数进行调整。可选地,在本申请的任一实施例中,所述基于预设的奖励预测模型,对所述视频数据中,执行主体执行所述目标任务时的任务环境进行特征提取,生成所述任务环境的分布激励,包括:按照时间序列,基于所述奖励预测模型,对所述视频数据中,所述执行主体执行所述目标任务时的所述任务环境进行特征提取,生成所述任务环境的所述分布激励。可选地,在本申请的任一实施例中,所述按照时间序列,基于所述奖励预测模型,对所述视频数据中,所述执行主体执行所述目标任务时的所述任务环境进行特征提取,生成所述任务环境的所述分布激励包括:按照时间序列,确定所述视频数据中所述任务环境变化的视频数据,并基于所述奖励预测模型,对所述任务环境变化的视频数据中,所述执行主体执行所述目标任务时的所述任务环境进行特征提取,生成所述任务环境的所述分布激励。可选地,在本申请的任一实施例中,所述基于预设的强化学习模型,根据所述任务环境,生成任务指令,并根据所述任务指令指导所述执行主体执行所述目标任务,生成任务结果包括:基于预设的所述强化学习模型中的策略网络子模型,根据所述任务环境,生成任务指令集,所述任务指令集中包括多个所述任务指令;基于预设的所述强化学习模型中价值网络子模型,对所述任务指令集中的多个所述任务指令进行评估,选择最佳的所述任务指令,并根据最佳的所述任务指令指导所述执行主体执行所述目标任务,得到所述任务结果。可选地,在本申请的任一实施例中,所述奖励预测模型为图神经网络模型;和/或,所述强化学习模型为深度强化学习神经网络模型。本申请实施例还提供一种视频数据处理装置,包括:第一神经网络单元,配置为基于预设的奖励预测模型,对所述视频数据中,执行主体执行目标任务时的任务环境进行特征提取,生成所述任务环境的分布激励;第二神经网络单元,配置为基于预设的强化学习模型,根据所述任务环境,生成任务指令,并根据所述任务指令指导所述执行主体执行所述目标任务,得到任务结果;调整单元,配置为基于预设的奖励评估函数,对所述任务结果进行评估,生成任务激励,并根据所述任务激励,对所述奖励预测模型的参数进行调整;以及,根据所述分布激励,对所述强化学习模型的参数进行调整。可选地,在本申请的任一实施例中,所述第一神经网络单元,进一步配置为按照时间序列,基于所述奖励预测模型,对所述视频数据中,所述执行主体执行所述目标任务时的所述任务环境进行特征提取,生成所述任务环境的所述分布激励。可选地,在本申请的任一实施例中,所述第一神经网络单元,进一步配置为按照时间序列,确定所述视频数据中所述任务环境变化的视频数据;并基于所述奖励预测模型,对所述任务环境变化的视频数据中,所述执行主体执行所述目标任务时的任务环境进行特征提取,生成所述任务环境的所述分布激励。可选地,在本申请的任一实施例中,所述第二神经网络单元,包括:策略网络子单元,配置为基于预设的所述强化学习模型中的策略网络子模型,根据所述任务环境,生成任务指令集,所述任务指令集中包括多个所述任务指令;价值网络子单元,配置为基于预设的所述强化学习模型中的价值网络子模型,对所述任务指令集中的多个所述任务指令进行评估,选择最佳的所述任务指令,并根据最佳的所述任务指令指导所述执行主体执行所述目标任务,得到所述任务结果。可选地,在本申请的任一实施例中,所述奖励预测模型为图神经网络模型;和/或,所述强化学习模型为深度学习神经网络模型。本申请实施例还提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述任一所述的视频数据处理方法。本申请实施例还提供一种电子设备,包括:存储器,处理器以及存储在所述存储器中并可在所述处理器上运行的程序,所述处理器执行所述程序时实现如下步骤:基于预设的奖励预测模型,对所述视频数据中,执行主体执行目标任务时的任务环境进行特征提取,生成所述任务环境的分布激励;基于预设的强化学习模型,根据所述任务环境,生成任务指令,并根据所述任务指令指导所述执行主体执行所述目标任务,得到任务结果;基于预设的奖励评估函数,对所述任务结果进行评估,生成任务激励,并根据所述任务激励,对所述奖励预测模型的参数进行调整;以及,根据所述分布激励,对所述强化学习模型的参数进行调整。可选地,在本申请的任一实施例中,所述处理器执行基于预设的奖励预测模型,对所述视频数据中,执行主体执行目标任务时的任务环境进行特征提取,生成所述任务环境的分布激励的步骤,包括:按照时间序列,基于所述奖励预测模型,对所述视频数据中,所述执行主体执行所述目标任务时的任务环境进行特征提取,生成所述任务环境的所述分布激励。可选地,在本申请的任一实施例中,所述处理器执行按照时间序列,基于所述奖励预测模型,对所述视频数据中,所述执行主体执行所述目标任务时的所述任务环境进行特征提取,生成所述任务环境的所述分布激励的步骤,包括:按照时间序列,确定所述视频数据中所述任务环境变化的视频数据,并基于所述奖励预测模型,对所述任务环境变化的视频数据中,所述执行主体执行所述目标任务时的所述任务环境进行特征提取,生成所述任务环境的所述分布激励。可选地,在本申请的任一实施例中,所述处理器执行基于预设的强化学习模型,根据所述任务环境,生成任务指令,并根据所述任务指令指导所述执行主体执行所述目标任务,得到任务结果的步骤,包括:基于预设的所述强化学习模型中的策略网络子模型,根据所述任务环境,生成任务指令集,所述任务指令集中包括多个所述任务指令;基于预设的所述强化学习模型中的价值网络子模型,对所述任务指令集中的多个所述任务指令进行评估,选择最佳的所述任务指令,根据最佳的所述任务指令指导所述执行主体执行所述目标任务,得到所述任务结果。可选地,在本申请的任一实施例中,所述奖励预测模型为图神经网络模型;和/或,所述强化学习模型为深度学习神经网络模型。本申请实施例的技术方案中,基于预设的奖励预测模型,对所述视频数据中,执行主体执行目标任务时的任务环本文档来自技高网...

【技术保护点】
1.一种视频数据处理方法,其特征在于,包括:/n基于预设的奖励预测模型,对所述视频数据中,执行主体执行目标任务时的任务环境进行特征提取,生成所述任务环境的分布激励;/n基于预设的强化学习模型,根据所述任务环境,生成任务指令,并根据所述任务指令指导所述执行主体执行所述目标任务,得到任务结果;/n基于预设的奖励评估函数,对所述任务结果进行评估,生成任务激励,并根据所述任务激励,对所述奖励预测模型的参数进行调整;以及,根据所述分布激励,对所述强化学习模型的参数进行调整。/n

【技术特征摘要】
1.一种视频数据处理方法,其特征在于,包括:
基于预设的奖励预测模型,对所述视频数据中,执行主体执行目标任务时的任务环境进行特征提取,生成所述任务环境的分布激励;
基于预设的强化学习模型,根据所述任务环境,生成任务指令,并根据所述任务指令指导所述执行主体执行所述目标任务,得到任务结果;
基于预设的奖励评估函数,对所述任务结果进行评估,生成任务激励,并根据所述任务激励,对所述奖励预测模型的参数进行调整;以及,根据所述分布激励,对所述强化学习模型的参数进行调整。


2.根据权利要求1所述的方法,其特征在于,所述基于预设的奖励预测模型,对所述视频数据中,执行主体执行所述目标任务时的任务环境进行特征提取,生成所述任务环境的分布激励,包括:
按照时间序列,基于所述奖励预测模型,对所述图像数据中,所述执行主体执行所述目标任务时的所述任务环境进行特征提取,生成所述任务环境的所述分布激励。


3.根据权利要求2所述的方法,其特征在于,所述按照时间序列,基于所述奖励预测模型,对所述视频数据中,所述执行主体执行所述目标任务时的所述任务环境进行特征提取,生成所述任务环境的所述分布激励,包括:
按照时间序列,确定所述图像数据中所述任务环境变化的图像数据,并基于所述奖励预测模型,对所述任务环境变化的图像数据中,所述执行主体执行所述目标任务时的所述任务环境进行特征提取,生成所述任务环境的所述分布激励。


4.根据权利要求1所述的方法,其特征在于,所述基于预设的强化学习模型,根据所述任务环境,生成任务指令,并根据所述任务指令指导所述执行主体执行所述目标任务,得到任务结果包括:
基于预设的所述强化学习模型中的策略网络子模型,根据所述任务环境,生成任务指令集,所述任务指令集中包括多个所述任务指令;
基于预设的所述强化学习模型中的价值网络子模型,对所述任务指令集中的多个所述任务指令进行评估,选择最佳的所述任务指令,并根据最佳的所述任务指令指导所述执行主体执行所述目标任务,得到所述任务结果。


5.根据权利要求1-4任一所述的方法,其特征在于,
所述奖励预测模型为图神经网络模型;
和/或,
所述强化学习模型为深度强化学习神经网络模型。


6.一种视频数据处理装置,其特征在于,包括:
第一神经网络单元,配置为基于预设的奖励预测模型,对所述视频数据中,执行主体执行目标任务时的任务环境进行特征提取,生成所述任务环境的分布激励;
第二神经网络单元,配置为基于预设的强化学习模型,根据所述任务环境,生成任务指令,并根据所述任务指令指导所述执行主体执行所述目标任务,得到任务结果;
调整单元,配置为基于预设的奖励评估函数,对所述任务结果进行评估,生成...

【专利技术属性】
技术研发人员:陈志熙
申请(专利权)人:南京星火技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1