【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及多模态数据处理领域,尤其涉及一种数据处理方法和装置。
技术介绍
随着科技的不断发展和进步,对于数据处理的要求越来越高,特别是在人机交互领域,通过计算机技术构建虚拟的人物形象,并赋予其与现实世界中的用户进行互动的能力成为当前研究的热点。现有技术中,虚拟人物在与用户进行互动时,分别采集用户输入的音频和视频,运用多模态交互系统,对采集到的音频和视频分别进行简单的分析处理,得到各个数据对应的虚拟人物的行为表现数据;虚拟人物再对音频对应的行为表现数据和视频对应的行为表现数据进行拼凑,输出与用户输入信息对应的响应信息,从而完成与用户的互动。但是,通过对音频和视频单独处理,使得在输出响应时,需要对音频对应的行为表现数据和视频对应的行为表现数据进行拼凑,这样可能会因为拼凑不契合而使得虚拟人物出现语言与动作不协调的情况,从而导致响应效果较差。
技术实现思路
本申请实施例提供了一种数据处理方法和装置,使得响应信息的语音和视频更加契合,从而提高了响应效果。第一方面,本申 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n采集目标对象输入的第一信息;其中,所述第一信息包括音频数据和视频数据;/n分别对所述音频数据进行语音识别,得到所述音频数据对应的语音描述信息,并对所述视频数据进行图像识别,得到所述视频数据对应的图像描述信息;/n将所述语音描述信息和所述图像描述信息输入至自然语言理解算法,得到所述第一信息对应的响应信息;/n输出所述响应信息。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
采集目标对象输入的第一信息;其中,所述第一信息包括音频数据和视频数据;
分别对所述音频数据进行语音识别,得到所述音频数据对应的语音描述信息,并对所述视频数据进行图像识别,得到所述视频数据对应的图像描述信息;
将所述语音描述信息和所述图像描述信息输入至自然语言理解算法,得到所述第一信息对应的响应信息;
输出所述响应信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音描述信息和所述图像描述信息输入至自然语言理解算法,得到所述第一信息对应的响应信息,包括:
将所述语音描述信息和所述图像描述信息输入至所述自然语言理解算法,得到所述响应信息对应的描述信息;
根据所述响应信息对应的描述信息确定所述第一信息对应的响应信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述响应信息对应的描述信息确定所述第一信息对应的响应信息,包括:
对所述响应信息对应的描述信息中的音频描述信息进行转换,得到所述音频描述信息对应的音素序列;
对所述响应信息对应的描述信息中的图像描述信息进行编码,得到所述图像描述信息对应的编码序列;
将所述音素序列和所述编码序列输入至语音合成网络,得到所述第一信息对应的响应信息。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述对所述视频数据进行图像识别,得到所述视频数据对应的图像描述信息,包括:
确定所述目标对象在视频中的人物遮罩;
基于所述人物遮罩对所述视频数据进行筛选,得到所述视频数据对应的图像描述信息。
5.根据权利要求4所述的方法,其特征在于,所述确定所述目标对象在视频中的人物遮罩,包括:
根据语音定位算法确定所述目标对象的位置;
根据所述目标对象的位置、及音频采集设备与视频采集设备之间的位置关系,确定所述目标对象在视频中的人物遮罩。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述输出所述响应信息,包括:
确定所述响应信息对应的控制参数;
根据所述响应信息对应的控制参数控制虚拟人物输出所述响应信息。
7.一种数据处理装置,其特征在于,包括:
采集单元,用于采集目标对象输入的第一信息;其中,所述第一信息包括音频数据和视频数据;
处理单元,用于分别对所述音频数据进行语音识别,得到所述音频数据对...
【专利技术属性】
技术研发人员:王响,王恺,廉士国,
申请(专利权)人:中国联合网络通信集团有限公司,联通大数据有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。