【技术实现步骤摘要】
数据处理方法、装置、电子设备及计算机存储介质
[0001]本专利技术实施例涉及计算机
,尤其涉及一种数据处理方法、装置、电子设备及计算机存储介质。
技术介绍
[0002]人机对话系统是人工智能领域的一个子方向,通过人机对话系统,用户可以通过人类的语言即自然语言与计算机进行交互。
[0003]目前,用户与人机对话系统通常采用的交互方式为:用户发出语音请求,人机对话系统针对该语音请求进行处理并生成回复文本,再通过语音合成技术生成该回复文本的人声应答。当回复文本的内容较为简单时,当前模式下的人声应答对用户是可接受的。但是,当回复文本的内容较为复杂时,比如,字数较多的长回复、基于百科库的百科资料回复、小说内容回复等场景下,现有的人声应答不够自然,容易造成用户体感不佳。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供一种数据处理方案,以至少部分解决上述问题。
[0005]根据本专利技术实施例的第一方面,提供了一种数据处理方法,包括:确定对输入的语音指令进行回复的回复文本;获取与所述回复文 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:确定对输入的语音指令进行回复的回复文本;获取与所述回复文本对应的场景音频,并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成,获得第二多媒体内容;通过播放所述第二多媒体内容,对所述输入的语音指令进行应答回复。2.根据权利要求1所述的方法,其中,所述第一多媒体内容包括根据所述回复文本生成的合成人声音频,所述第二多媒体内容包括多媒体音频。3.根据权利要求2所述的方法,其中,所述获取与所述回复文本对应的场景音频,并将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成,获得第二多媒体内容,包括:获取与所述回复文本对应的场景音频,和,根据所述回复文本生成的合成人声音频;对所述场景音频和所述合成人声音频进行对齐处理;将对齐处理后的所述场景音频和所述合成人声音频进行混音,根据混音结果生成多媒体音频。4.根据权利要求3所述的方法,其中,所述对所述场景音频和所述合成人声音频进行对齐处理,包括:为所述合成人声音频设置播放前静音时长和播放后静音时长;对所述场景音频和设置后的所述合成人声音频进行对齐处理。5.根据权利要求3或4所述的方法,其中,所述场景音频包括背景音频;所述将对齐处理后的所述场景音频和所述合成人声音频进行混音,包括:设置所述背景音频在所述合成人声音频播放之前的第一时间段内,从原音量降低至第一音量播放,以及,设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放;根据对齐处理的结果和设置后的所述背景音频,将所述场景音频和所述合成人声音频进行混音。6.根据权利要求3或4所述的方法,其中,所述场景音频包括语声音频和背景音频;所述将对齐处理后的所述场景音频和所述合成人声音频进行混音,包括:设置所述语声音频在所述合成人声音频播放之前的第一时间段内,从原音量降低至第一音量播放,在所述语声音频播放完成后,将所述背景音频从原音量降低第二音量播放;以及,设置所述背景音频在所述合成人声音频播放之后的第二时间段内恢复至原音量播放;根据对齐处理的结果和设置后的所述语声音频和所述背景音频,将所述场景音频和所述合成人声音频进行混音。7.根据权利要求1-4任一项所述的方法,其中,所述获取与所述回复文本对应的场景音频,包括:对所述回复文本进行特征提取,获取与特征提取结果对应的场景音频。8.根据权利要求1-4任一项所述的方法,其中,所述方法还包括;将所述第二多媒体内容与所述回复文本对应存储。9.根据权利要求1所述的方法,其中,所述第一多媒体内容包括第一视频和根据所述回复文本生成的合成人声音频,所述第二多媒体内容包括第二视频。
10.根据权利要求9所述的方法,其中,所述将所述场景音频与根据所述回复文本生成的第一多媒体内容进行合成,获得第二多媒体内容,包括:根据所述回复文本获得第一视频和合成人声音频;将所述场景音频与所述合成人声音频进行合成,获得合成音频数据;将所述合成音频数据与所述第一视频进行合成,生成所述第二视频。11.一种数据处理方法,包括:获取待处理的语料文本;根据所述语料文本生成第一多媒体内容,并获取与所述语料文本对应的场景音频;将所述场景音频与所述第一多媒体内容进行合成,获得第二多媒体内容;并将所述第二多媒体内容与所述语料文本对应存储。12.根据权利要求11所述的方法,其中,所述第一多媒体内容包括根据所述语料...
【专利技术属性】
技术研发人员:吴佳伦,王浩,崔任东,盖于涛,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。