【技术实现步骤摘要】
人机交互方法、装置、电子设备、存储介质
本专利技术涉及人机交互领域,尤其涉及一种人机交互方法、装置、电子设备、存储介质。
技术介绍
人机交互通过智能对话与即时问答的智能交互,帮助用户解决问题。随着近年来人工智能技术逐渐在很多领域走向实用化,人机交互也越来越智能化。AI技术正在不断赋能人机交互智能化升级,已出现了人机交互系统、机器人装置、闲聊机器人装置等。这些系统和装置中的系统结合自然语言理解、自然语言生成、智能对话管理运用在人机语音交互系统中,让交互体验更流畅、更智能。但是,目前已有的人机交互系统很难达到人和人交互的水平,只获取用户的语音信息,缺少更多元化的输入信息,导致整个交互没有达到人和人交互的水准。在人和机器的对话中,人有时候除了语言还可以有其他的模态(比如表情、手势、肢体动作等)表达自己的观点,但目前的语音交互系统往往会丢失掉这部分信息,导致不能够收集到更丰富的信息,影响后续的交互。
技术实现思路
本专利技术为了克服上述相关技术存在的缺陷,提供一种人机交互方法、装置、电子设备、存储介质,进而至少在一定程度上克服由 ...
【技术保护点】
1.一种人机交互方法,其特征在于,包括:/n步骤S110:采集包含用户的视频数据;/n步骤S120:对所述视频数据进行解析,包括:/n对所述视频数据中的语音数据进行解析获得第一语义信息;/n对所述视频数据中的用户手势进行解析获得第二语义信息;/n对所述视频数据中的用户头部动作进行解析获得第三语义信息;/n对所述视频数据中的用户表情进行解析获得第四语义信息;/n步骤S130:将所述第一语义信息、第二语义信息、第三语义信息及第四语义信息进行多模融合获得多模输出;/n步骤S140:将所述多模输出输入一回复预测模型,将所述回复预测模型的输出作为回复信息。/n
【技术特征摘要】
1.一种人机交互方法,其特征在于,包括:
步骤S110:采集包含用户的视频数据;
步骤S120:对所述视频数据进行解析,包括:
对所述视频数据中的语音数据进行解析获得第一语义信息;
对所述视频数据中的用户手势进行解析获得第二语义信息;
对所述视频数据中的用户头部动作进行解析获得第三语义信息;
对所述视频数据中的用户表情进行解析获得第四语义信息;
步骤S130:将所述第一语义信息、第二语义信息、第三语义信息及第四语义信息进行多模融合获得多模输出;
步骤S140:将所述多模输出输入一回复预测模型,将所述回复预测模型的输出作为回复信息。
2.如权利要求1所述的人机交互方法,其特征在于,所述对所述视频数据中的语音数据进行解析获得第一语义信息包括:
利用梅尔频率倒谱系数提取所述语音数据的语音特征;
将所述语音特征转化为数字特征;
将所述数字特征输入VGG模型,获得音素序列;
利用隐马尔科夫模型将所述音素序列转化为文字数据;
利用BERT模型获取所述文字数据的第一语义信息。
3.如权利要求1所述的人机交互方法,其特征在于,所述对所述视频数据中的用户手势进行解析获得第二语义信息包括:
将所述视频数据划分为若干帧;
将所划分的帧输入一经训练的神经网络模型;
将所述神经网络模型的输出作为手势信息;
将所述手势信息转化为第二语义信息。
4.如权利要求1所述的人机交互方法,其特征在于,所述对所述视频数据中的用户头部动作进行解析获得第三语义信息包括:
将所述视频数据划分为若干帧;
提取每一帧图像中头部动作坐标;
判断相邻帧的头部动作坐标的变化量是否大于一预设阈值;
若是,则将该相邻帧中的头部移动确定为一头部动作;
若否,则迭代执行判断相邻帧的头部动作坐标的变化量是否大于一预设阈值的步骤;
将所获得的头部动作转化为第三语义信息。
5.如权利要求1所述的人机交互方法,其特征在于,所述对所述视频数据中的用户表情进行解析获得第四语义信息包括:
将所述视频数据划分为若干帧;
利用miniXception模型解析每一帧图片的表情;
若N帧图片中,大于预定比例的图片的表情皆为同一表情时,将该表情转化为第四语义信息。
6.如权利要求1所述的人机交互方法,其特征在于,所述第一语义信息、第二语义信息、第三语义信息及第四语义信息皆包含多个子语义信息,步骤S130包括:
获取多个第一准...
【专利技术属性】
技术研发人员:王国锋,赵江杰,陈曲,张坤雷,陈学文,
申请(专利权)人:爱驰汽车有限公司,
类型:发明
国别省市:江西;36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。