一种智能体互动方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:31502162 阅读:24 留言:0更新日期:2021-12-22 23:21
本申请提供一种智能体互动方法、装置、计算机设备及存储介质,可以应用于云计算领域或人工智能领域,用于解决智能体的互动准确性较低的问题。该方法包括:响应于虚拟账号触发的互动请求指令,加载目标智能体。响应于所述虚拟账号针对目标虚拟互动场景中,与所述虚拟账号关联的第一目标虚拟受控元素触发的控制操作,获取所述控制操作对应的目标互动场景图像。从所述目标互动场景图像中提取目标互动状态特征。基于所述目标互动状态特征确定所述目标智能体对应的目标调度操作和目标互动操作。响应于所述目标调度操作和所述目标互动操作,在所述目标虚拟互动场景中对所述目标智能体关联的第二目标虚拟受控元素进行控制。关联的第二目标虚拟受控元素进行控制。关联的第二目标虚拟受控元素进行控制。

【技术实现步骤摘要】
一种智能体互动方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种智能体互动方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着科技的不断发展,越来越多的设备不仅可以为多个虚拟账号提供虚拟互动场景,还可以为单个虚拟账号提供在虚拟互动场景中进行互动的智能体。例如,以游戏场景为例,某游戏账号可以在未匹配到其他游戏账号时,与智能体进行互动;又例如,游戏账号可以通过与智能体进行互动,来提升自身互动能力。
[0003]通常,虚拟账号在针对虚拟账号关联的某一虚拟受控元素执行了控制操作之后,智能体仅能够针对智能体关联的某一虚拟受控元素确定出相应的反馈操作。然而,在虚拟账号执行了控制操作之后,并不是只有虚拟互动场景的单一元素受到影响,控制操作带来的影响是多样化的,传统智能体的互动方法并未考虑虚拟互动场景中真实的互动过程,使得智能体无法灵活地在虚拟互动场景中与虚拟账号进行互动。
[0004]可见,已有技术下,智能体的互动准确性较低。

技术实现思路

[0005]本申请实施例提供一种智能体互动本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种智能体互动方法,其特征在于,包括:响应于虚拟账号触发的互动请求指令,加载目标智能体;响应于所述虚拟账号针对目标虚拟互动场景中,与所述虚拟账号关联的第一目标虚拟受控元素触发的控制操作,获取所述控制操作对应的目标互动场景图像;从所述目标互动场景图像中提取目标互动状态特征;基于所述目标互动状态特征确定所述目标智能体对应的目标调度操作和目标互动操作;响应于所述目标调度操作和所述目标互动操作,在所述目标虚拟互动场景中对所述目标智能体关联的第二目标虚拟受控元素进行控制。2.根据权利要求1所述的方法,其特征在于,所述目标智能体是采用以下方式训练的:基于待训练智能体与预设的参考智能体在样本虚拟互动场景中的互动过程,对所述待训练智能体进行多轮迭代训练,直到满足预设的训练目标时,将所述待训练智能体输出作为目标智能体,其中,在一轮迭代训练中,执行以下操作:基于所述样本虚拟互动场景中的第一样本互动场景图像对应的第一样本互动状态特征,预测所述待训练智能体针对所述样本虚拟互动场景中所述待训练智能体关联的样本虚拟受控元素执行的样本调度操作,以及,预测所述待训练智能体在执行所述样本调度操作后,针对所述样本虚拟受控元素执行的样本互动操作;基于执行所述样本调度操作后产生的第二样本互动场景图像对应的第二样本互动状态特征,以及,执行所述样本互动操作后产生的第三样本互动场景图像对应的第三样本互动状态特征,调整所述待训练智能体的模型参数。3.根据权利要求2所述的方法,其特征在于,基于执行所述样本调度操作后产生的第二样本互动场景图像对应的第二样本互动状态特征,以及,执行所述样本互动操作后产生的第三样本互动场景图像对应的第三样本互动状态特征,调整所述待训练智能体的模型参数,包括:基于所述第二样本互动状态特征,按照预设的调度激励策略,确定所述样本调度操作的调度激励数据,其中,所述调度激励数据用于表征所述样本调度操作的完成程度,以及,所述样本调度操作对所述样本互动结果的影响程度;基于所述第三样本互动状态特征,按照预设的互动激励策略,确定所述样本互动操作的互动激励数据,其中,所述互动激励数据用于表征所述样本互动操作对所述样本互动结果的影响程度;分别确定所述调度激励数据和所述互动激励数据,与预设的目标激励数据之间的误差值,并基于获得的各个误差值调整所述待训练智能体的模型参数。4.根据权利要求2所述的方法,其特征在于,基于待训练智能体与预设的参考智能体在样本虚拟互动场景中的互动过程,对所述待训练智能体进行多轮迭代训练,直到满足预设的训练目标时,将所述待训练智能体输出作为目标智能体,包括:基于预设的参考智能体集合中各个参考智能体各自对应的选取概率,在所述各个参考智能体中随机抽取参考智能体;基于所述待训练智能体与抽取出的参考智能体在样本虚拟互动场景中的互动过程,对所述待训练智能体进行多轮迭代训练;
若在获得所述待训练智能体与抽取出的参考智能体的样本互动结果时,所述待训练智能体不满足所述训练目标,则在所述各个参考智能体中重新抽取参考智能体,继续对所述待训练智能体进行多轮迭代训练;若所述待训练智能体满足所述训练目标,将所述待训练智能体输出作为目标智能体。5.根据权利要求4所述的方法,其特征在于,在将所述待训练智能体输出作为目标智能体之前,还包括:统计对所述待训练智能体进行迭代训练的训练次数;若统计的训练次数达到预设的指定次数,则将所述待训练智能体输出作为参考智能体,添加至所述参考智能体集合;将所述训练次数清零,继续对所述待训练智能体进行迭代训练,并基于重新统计的训练次数,更新所述参考智能体集合。6.根据权利要求2所述的方法,其特征在于,在基于所述样本虚拟互动场景中的第一样本互动场景图像对应的第一样本互动状态特征,预测所述待训练智能体针对所述样本虚拟互动场景中所述待训练智能体关联的样本虚拟受控元素执行的样本调度操作,以及,预测所述待训练智能体在执行所述样本调度操作后,针对所述样本虚拟受控元素执行的样本互动操作之前,还包括:对所述第一样本互动场景图像进行区域识别处理,获得第一互动结果区域、第一全局视角区域和第一局部视角区域;分别对所述第一互动结果区域、所述第一全局视角区域和所述第一局部视角区域进行图像特征提取处理,分别获得相应的第一特征向量、第一全局视角特征矩阵和第一局部视角特征矩阵,其中,所述第一特征向量用于表征与样本互动结果相关的互动信息,所述第一全局视角特征矩阵用于表征所述样本虚拟受控元素的位置信息、所述参考智能体关联的参考虚拟受控元素的位置信息和所述样本虚拟互动场景包含的场景元素的位置信息,所述第一局部视角特征矩阵用于表征所述第一局部视角区域包含的样本虚拟受控元素的位置信息、所述第一局部视角区域包含的参考虚拟受控元素的位置信息和所述第一局部视角区域包含的场景元素的位置信息;将所述第一特征向量、所述第一全局视角...

【专利技术属性】
技术研发人员:邱福浩韩国安练振杰王伟轩王亮
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1