一种人机交互方法、装置及人机交互终端制造方法及图纸

技术编号:19748241 阅读:19 留言:0更新日期:2018-12-12 05:15
本发明专利技术实施例提供一种人机交互方法、装置及人机交互终端,该方法包括:获取用户传达的控制信息,所述控制信息包括语音信息;提取所述语音信息的文本特征;确定所述文本特征相应的文本特征向量;根据预训练的语音分类模型,确定所述文本特征向量匹配的语音样本;所述语音分类模型表示有文本特征向量与对应的语音样本的归属概率;将所确定的语音样对应的语音控制指令,作为所述语音信息的语音控制指令;根据所述语音控制指令,生成目标控制指令。本发明专利技术实施例能够提升人机交互的自然性和智能性,降低人机交互的用户门槛,以为人机交互的普及提供有力的支持。

【技术实现步骤摘要】
一种人机交互方法、装置及人机交互终端
本专利技术涉及人机交互
,具体涉及一种人机交互方法、装置及人机交互终端。
技术介绍
人机交互是指用户与机器之间相互沟通,使得机器理解用户意图的一种技术;具体的,通过人机交互,用户可通过向机器传达控制信息,使得机器完成用户所意图的工作。人机交互在多个领域具有广泛的应用,涉及手机控制、汽车自动驾驶等方面,尤其是随着机器人(如服务器人)技术的发展,人机交互技术如何更好的在机器人控制方面进行应用,成为了机器人技术提升的一个关键点。本专利技术的专利技术人发现,目前的人机交互技术急需解决的问题是如何提升人机交互的自然性和智能性,从而使得人机交互的用户门槛降低,人机交互技术能够被广泛普及。
技术实现思路
有鉴于此,本专利技术实施例提供一种人机交互方法、装置及人机交互终端,以提升人机交互的自然性和智能性,降低人机交互的用户门槛,以为人机交互的普及提供有力的支持。为实现上述目的,本专利技术实施例提供如下技术方案:一种人机交互方法,包括:获取用户传达的控制信息,所述控制信息包括语音信息;提取所述语音信息的文本特征;确定所述文本特征相应的文本特征向量;根据预训练的语音分类模型,确定所述文本特征向量匹配的语音样本;所述语音分类模型表示有文本特征向量与对应的语音样本的归属概率;将所确定的语音样对应的语音控制指令,作为所述语音信息的语音控制指令;根据所述语音控制指令,生成目标控制指令。本专利技术实施例还提供一种人机交互装置,包括:控制信息获取模块,用于获取用户传达的控制信息,所述控制信息包括语音信息;文本特征提取模块,用于提取所述语音信息的文本特征;文本特征向量确定模块,用于确定所述文本特征相应的文本特征向量;语音样本确定模块,用于根据预训练的语音分类模型,确定所述文本特征向量匹配的语音样本;所述语音分类模型表示有文本特征向量与对应的语音样本的归属概率;语音指令确定模块,用于将所确定的语音样对应的语音控制指令,作为所述语音信息的语音控制指令;目标指令生成模块,用于根据所述语音控制指令,生成目标控制指令。本专利技术实施例还提供一种人机交互终端,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序;所述程序用于:获取用户传达的控制信息,所述控制信息包括语音信息;提取所述语音信息的文本特征;确定所述文本特征相应的文本特征向量;根据预训练的语音分类模型,确定所述文本特征向量匹配的语音样本;所述语音分类模型表示有文本特征向量与对应的语音样本的归属概率;将所确定的语音样对应的语音控制指令,作为所述语音信息的语音控制指令;根据所述语音控制指令,生成目标控制指令。基于上述技术方案,本专利技术实施例提供的人机交互方法,可对用户传达的控制信息中的语音信息进行文本特征提取,并确定相应的文本特征向量;从而根据预训练的语音分类模型,可确定所述文本特征向量匹配的语音样本;进而以所确定的语音样对应的语音控制指令,作为所述语音信息的语音控制指令,通过所述语音控制指令生成目标控制指令,实现人机交互过程中针对机器的目标控制指令的生成。由于预训练的语音分类模型可以精准的定义出各文本特征向量归属于可能意图的语音样本的概率,使得语音样本与文本特征向量的对应关系更为精准;因此借助本专利技术实施例,用户可以通过类似于人与人的交流方式进行人机交互,用户通过自然的语音信息向人机交互终端传达语音信息后,人机交互终端可利用语音分类模型,精准的识别出用户传达的语音信息匹配的语音样本,从而通过所匹配的语音样本,识别出用户传达的语音信息意图的语音控制指令。利用本专利技术实施例,用户传达语音信息的方式可以更为自然,人机交互终端可以通过语音分类模型精准的匹配出用户语音信息的语音样本,实现用户语音信息意图的语音控制指令的精准确定,从而提升了人机交互的自然性和智能性,降低了用户进行人机交互的交流门槛,为人机交互的普及提供了有力的支持。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的人机交互系统的结构框图;图2为本专利技术实施例提供的人机交互系统的另一结构框图;图3为人机交互终端的结构框图;图4为本专利技术实施例提供的语音分类模型的构建方法流程图;图5为本专利技术实施例提供的人机交互方法的流程图;图6为人机交互的示例示意图;图7为本专利技术实施例提供的人机交互方法的另一流程图;图8为改进粒子滤波处理手势姿态特征的方法流程图;图9为本专利技术实施例提供的目标对象识别方法流程图;图10为本专利技术实施例提供的人机交互装置的结构框图;图11为本专利技术实施例提供的人机交互装置的另一结构框图;图12为本专利技术实施例提供的人机交互装置的再一结构框图;图13为本专利技术实施例提供的人机交互装置的又一结构框图;图14为本专利技术实施例提供的人机交互装置的又另一结构框图;图15为本专利技术实施例提供的人机交互装置的又再一结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的人机交互方法可应用在机器人控制、手机控制、自动驾驶等方面;为便于说明,下文将主要从服务机器人控制方面,对本专利技术实施例提供的人机交互方法进行介绍;当然,本专利技术实施例提供的人机交互方法在手机控制、自动驾驶等方面的使用原理,与在服务机器人控制方面的使用原理是一致的,可相互参照。需要介绍的是,服务机器人是机器人的一种,服务机器人可以分为专业领域服务机器人和个人、家庭服务机器人,服务机器人的应用范围很广,主要从事维护保养、修理、运输、清洗、保安、救援、监护等工作。可选的,图1为本专利技术实施例提供的人机交互系统的一种可选结构框图,参照图1,该人机交互系统可以包括:人机交互终端10和服务机器人11;人机交互终端10与服务机器人11可通过互联网实现信息交互;基于图1所示人机交互系统,用户可通过向人机交互终端传达控制信息,人机交互终端理解用户传达的控制信息相应的控制指令后,可通过互联网传输控制指令给服务机器人,由服务机器人执行该控制指令,完成用户意图的工作;可选的,用户向人机交互终端传达控制信息的方式可以是语音;也可以是语音结合手势等;进一步,服务机器人可将机器人的状态信息,和/或,基于视觉感知的环境信息,通过互联网传输给人机交互终端,由人机交互终端向用户展示机器人的状态信息,和/或,服务机器人周边的环境信息(可以通过人机交互终端的显示屏展示),以便用户更好的传达控制信息。图1所示人机交互系统可通过互联网在人机交互终端与服务机器人间传递信息,实现用户对服务机器人的遥控;当然,图1所示仅是人机交互系统的一种可选结构,可选的,本专利技术实施例并不排除服务机器人内置人机交互终端的情况,如图2所示,从而人机交互终端可通过本地通信(本地有线或者局域网无线等形式)控制服务机器人进行工作;图2所示人机交互本文档来自技高网...

【技术保护点】
1.一种人机交互方法,其特征在于,包括:获取用户传达的控制信息,所述控制信息包括语音信息;提取所述语音信息的文本特征;确定所述文本特征相应的文本特征向量;根据预训练的语音分类模型,确定所述文本特征向量匹配的语音样本;所述语音分类模型表示有文本特征向量与对应的语音样本的归属概率;将所确定的语音样对应的语音控制指令,作为所述语音信息的语音控制指令;根据所述语音控制指令,生成目标控制指令。

【技术特征摘要】
1.一种人机交互方法,其特征在于,包括:获取用户传达的控制信息,所述控制信息包括语音信息;提取所述语音信息的文本特征;确定所述文本特征相应的文本特征向量;根据预训练的语音分类模型,确定所述文本特征向量匹配的语音样本;所述语音分类模型表示有文本特征向量与对应的语音样本的归属概率;将所确定的语音样对应的语音控制指令,作为所述语音信息的语音控制指令;根据所述语音控制指令,生成目标控制指令。2.根据权利要求1所述的人机交互方法,其特征在于,所述根据预训练的语音分类模型,确定所述文本特征向量匹配的语音样本包括:根据所述语音分类模型确定所述文本特征向量可能归属的语音样本,及与可能归属的各语音样本的归属概率;选取归属概率最高的语音样本,作为所述文本特征向量匹配的语音样本。3.根据权利要求1或2所述的人机交互方法,其特征在于,还包括:获取训练语料库,所述训练语料库记录有各语音控制指令的语音样本,一语音控制指令对应至少一条语音样本;提取各语音样本的文本特征,得到多个文本特征;对各文本特征分别进行特征向量加权,得到各文本特征的文本特征向量;根据机器学习算法,对各文本特征向量与对应的语音样本的归属概率进行建模,得到语音分类模型。4.根据权利要求3所述的人机交互方法,其特征在于,所述对各文本特征分别进行特征向量加权,得到各文本特征的文本特征向量包括:对于一文本特征,确定该文本特征的字词在对应的语音样本中的出现次数,以及在训练语料库中的出现次数;根据该文本特征的字词在对应的语音样本和训练语料库中的出现次数,确定该文本特征在对应的语音样本中的重要程度;其中,该重要程度与文本特征的字词在语音样本的出现次数成正比关系,与文本特征的字词在语料库中的出现次数成反比关系;根据该重要程度确定该文本特征对应的文本特征向量。5.根据权利要求3所述的人机交互方法,其特征在于,所述根据机器学习算法,对各文本特征向量与对应的语音样本的归属概率进行建模,得到语音分类模型包括:利用最大熵算法,对各文本特征向量与对应的语音控制指令的归属概率进行建模,得到概率分布均匀的最大熵分类模型。6.根据权利要求1所述的人机交互方法,其特征在于,所述控制信息还包括手势信息;所述手势信息包括:从用户手势图像提取的手势位置特征和手势姿态特征;所述方法还包括:根据自适应区间卡尔曼滤波处理所述手势位置特征,得到目标手势位置特征;及根据改进粒子滤波处理所述手势姿态特征,得到目标手势姿态特征;融合所述目标手势位置特征和所述目标手势姿态特征,确定用户的手势特征;确定所述手势特征对应的手势控制指令;所述根据所述语音控制指令,生成目标控制指令包括:根据所述语音控制指令和所述手势控制指令,生成目标控制指令。7.根据权利要求6所述的人机交互方法,其特征在于,所述根据自适应区间卡尔曼滤波处理所述手势位置特征,得到目标手势位置特征包括:根据手势位置特征对应的加速度,确定手势加速度变化规律;根据自适应区间卡尔曼滤波的模型,过滤偏离手势加速度变化规律的噪声;利用自适应区间卡尔曼滤波的模型,根据过滤噪声后的手势位置特征中前一时刻的手势坐标、手势速度和加速度,估计当前时刻的手势坐标、手势速度和加速度,确定出当前时刻的目标手势位置特征。8.根据权利要求6所述的人机交互方法,其特征在于,所述根据改进粒子滤波处理所述手势姿态特征,得到目标手势姿态特征包括:获取手势姿态特征所表示的人手在三维坐标系各轴的旋转角;根据所述人手在三维坐标系各轴的旋转角,确定四元数分量;根据改进粒子滤波,确定人手粒子的后验概率;根据所述后验概率迭代处理所述四元数分量,得到目标四元数分量,以获取到目标手...

【专利技术属性】
技术研发人员:杜广龙
申请(专利权)人:腾讯科技深圳有限公司华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1