一种基于情感意图驱动的人机交互方法技术

技术编号:32532978 阅读:13 留言:0更新日期:2022-03-05 11:27
本发明专利技术公开了一种基于情感意图驱动的人机交互方法。针对现有的人机交互过程中,服务机器人缺少智能性、主动性,处于被动地位,提出了一种新的交互策略,具体包括(1)数据采集与增强;(2)使用迁移学习训练ResNet

【技术实现步骤摘要】
一种基于情感意图驱动的人机交互方法


[0001]本专利技术属于人机交互
,具体涉及一种基于情感意图驱动的人机交互方法。

技术介绍

[0002]人机交互是人与机器人进行沟通、情感理解的通道。现有交互方式通常是人占主导位置,并通过触控、语音、手势、键盘等方式实现主动信息交流和沟通,但只有实现机器与人双向平等的交互,才能算是实现自然人机交互和机器人智能化。在人与人相处的环境中,情感观测和情感抚慰是必不可少的交互,通过观测情感做出相应的抚慰行为能有效促进人与人之间的关系。然而,大部分服务机器人难以观测并理解服务对象的情感,即使现有技术能实现机器人接收到正确的情感信息,但是后续做出的行为往往也难以达到契合人类情绪的效果,使机器人与人的关系难以更进一步。因此,情感意图驱动机器人动作是实现机器人智能化的关键,也是人机交互领域必不可少的一部分。

技术实现思路

[0003]针对现有技术的不足,本专利技术提出了一种基于情感意图驱动的人机交互方法,建立情感接收、动作交互、强化学习的反馈回路,解决人机交互中机器人主动性较少、难以对用户情感意图做出正确行为的问题。
[0004]一种基于情感意图驱动的人机交互方法,具体包括以下步骤:
[0005]步骤一、数据收集与网络训练
[0006]收集多张不同表情的人脸图片。对人脸图片进行随机数据增强,然后调整至统一大小,再输入到ResNet

18网络中,对ResNet

18网络的权重参数w
r
进行训练。
[0007]作为优选,收集包括生气、厌恶、恐惧、开心、伤心和惊讶表情的人脸图片。
[0008]作为优选,所述随机数据增强包括旋转、裁剪和调节亮度中的一种或多种操作。
[0009]步骤二、构建深度强化学习网络
[0010]构建深度强化学习网络DQN,使用ResNet

18网络作为DQN的评估网络Q
e
(S,a,w)与目标网络Q
t
(S,a,w

)。随机初始化网络参数后,将步骤一训练后的权重参数w
r
迁移到评估网络Q
e
(S,a,w)与目标网络Q
t
(S,a,w

)的权重w、w

中。
[0011]作为优选,所述网络参数包括目标网络的更新步数k;初始化经验回放记忆池D及其容量M,经验回放记忆池D以堆栈的形式存放转移信息初始化采样大小batch_size、贪婪值ε、学习率σ和折扣因子γ。
[0012]步骤三、深度强化学习训练
[0013]s3.1、设置包括多种动作的集合A,将机器人使用摄像头实时捕捉的视频裁剪为图片,调整图片大小后将图片作为状态S
t
输入到评估网络Q
e
(S,a,w)进行训练,输出目标动作的估计值w。
[0014]s3.2、将s3.1中的状态S
t
,输入目标网络Q
t
(S,a,w

)得到各个目标动作的估计值,
并利用ε

greedy策略控制机器人做出集合A中的动作a:
[0015][0016]判断人脸对于动作a的响应状态S
t+1
,并根据强化学习训练的回报函数reward计算奖励r:
[0017][0018]将第n次学习的转移信息存入经验回放记忆池D中,如果学习次数n大于经验回放记忆池D的容量M,则使用先进先出的规则删除最早保存的转移信息,并把最新的转移信息加入经验回放记忆池D。
[0019]s3.3、循环s3.1、3.2多次,当经验回放记忆池D中样本的个数多于设置的采样个数时,对经验回放记忆池D中的转移信息进行随机采样batch_size个样本,
[0020]并把采集的样本输入评估网络Q
e
(S,a,w)和目标网络Q
t
(S,a,w

)中,计算目标的估计值:
[0021][0022]其中,0≤j≤batch_size,max()表示求取值函数的最大值,argmax()表示求取值函数在状态S下最大估计值对应的目标。最终状态为设置的停止服务的状态。
[0023]s3.4、固定评估网络Q
e
(S,a,w)中1~15层卷积的参数,通过执行梯度下降优化策略对16~20层卷积的权重w进行微调,损失函数L
j
为:
[0024][0025]使用梯度下降法更新评估网络Q
e
(S,a,w)参数w。
[0026][0027]s3.5、将动作响应状态S
t+1
作为新的状态输入到评估网络Q
e
(S,a,w)和目标网络Q
t
(S,a,w

)中,并根据更新步数k将梯度下降优化后评估网络Q
e
(S,a,w)的权重w赋给目标网络Q
t
(S,a,w

)。
[0028]步骤四、人机交互
[0029]在日常使用中,使用机器人摄像头拍摄人脸图像,裁剪至固定大小后,作为状态S
t
输入到步骤三中深度强化学习训练后的网络中进行值估计,并驱动机器人做出能获得最大奖励的动作,然后将此次的状态S
t
、目标动作a、响应状态S
t+1
以及获得的奖励r存储并更新至经验回放记忆池,完成一次交互。
[0030]本专利技术具有以下有益效果:
[0031]1、利用深度强化学习DQN网络实现情感意图到机器人动作的映射,能进一步提升用户的体验感,增加机器人的智能性。
[0032]2、通过迁移学习赋予特征提取器先验知识,使DQN能更快收敛。
[0033]3、直接使用相机获取的图片作为观测状态,实现了端到端的学习过程。
[0034]4、在训练过程中通过观测用户表情的变化来纠正学习该表现动作,使机器人的交互方式更加人性化。
附图说明
[0035]图1为情感意图驱动的交互方法示意图;
[0036]图2为Res

Net18网络结构示意图;
[0037]图3为深度强化学习训练示意图。
具体实施方式
[0038]以下结合附图对本专利技术作进一步的解释说明;
[0039]如图1所示,一种基于情感意图驱动的人机交互方法,首先使用表情数据集对ResNet

18网络进行训练,然后将训练后的网络参数迁移到深度强化学习网络中,相机的实时数据进行处理,判断出用户的状态,然后控制机器人根据先验知识执行相应的动作,并且将用户的响应状态存入经验回放记忆池中。具体包括以下步骤:
[0040]步骤一、数据收集与网络训练
[0041]fer2013数据集为表情数据集,包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于情感意图驱动的人机交互方法,其特征在于:具体包括以下步骤:步骤一、数据收集与网络训练收集多张不同表情的人脸图片;对人脸图片进行随机数据增强,然后调整至统一大小,再输入到ResNet

18网络中,对ResNet

18网络的权重参数w
r
进行训练;步骤二、构建深度强化学习网络构建深度强化学习网络DQN,使用ResNet

18网络作为DQN的评估网络Q
e
(S,a,w)与目标网络Q
t
(S,a,w

);随机初始化网络参数后,将步骤一训练后的权重参数w
r
迁移到评估网络Q
e
(S,a,w)与目标网络Q
t
(S,a,w

)的权重w、w

中;步骤三、深度强化学习训练s3.1、设置包括多种动作的集合A,将机器人使用摄像头实时捕捉的视频裁剪为图片,作为评估网络Q
e
(S,a,w)的输入状态S
t
,输出目标动作的估计值;s3.2、将输入状态S
t
输入到目标网络Q
t
(S,a,w

),得到各个目标动作的估计值,利用ε

greedy策略控制机器人做出集合A中的动作a:ε为贪婪值;判断人脸对于动作a的响应状态S
t+1
,并根据强化学习训练的回报函数reward计算奖励r:将第n次学习的转移信息存入经验回放记忆池D中,如果学习次数n大于经验回放记忆池D的容量M,则使用先进先出的规则删除最早保存的转移信息,并把最新的转移信息加入经验回放记忆池D;s3.3、循环s3.1、3.2多次,当经验回放记忆池D中样本的个数多于设置的采样个数时,对经验回放记忆池D中的转移信息进行随机采样batch_size个样本,并计算采样样本中目标的估计值y
j
:其中,0≤j≤batch_size,γ为折扣因子;max()表示求取值函数的最大值,argmax()表示求取值函数在状态S下最大估计值对应的目标;最终状态为设置的停止服务的状态;s3.4、固定评估网络Q
e
(S,a,w)中1~15层卷积的参数,执行梯度下降优化策略对16~20层卷积的权重w进行微调;s3.5、将动作响应状态S

【专利技术属性】
技术研发人员:谢佳龙张波涛吕强
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1