【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质
[0001]本申请涉及计算机应用
,尤其涉及一种数据处理方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]传统的人工智能模型支持单一输入和单一输出的结构,这种结构限制了它们在复杂任务和现实世界应用中的效能
。
在许多现实世界的任务中,输入和输出都是序列数据,例如自然语言翻译
、
文本生成和语音识别
。
传统模型的结构无法有效地处理这种情况,并且传统的人工智能模型结构需要等待上一个接口完整生成结果后才送到下一个接口,导致音视频的播放延时增大
。
技术实现思路
[0003]本申请实施例提供了一种数据处理方法
、
装置
、
设备及存储介质,可减小音视频的播放延时,从而提升音视频的播放效率
。
[0004]第一方面,本申请实施例提供了一种数据处理方法,该方法包括:实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频
。
[0005]在一个实施例中,所述获取所述回复文本数据对应的回复语音数据 ...
【技术保护点】
【技术特征摘要】
1.
一种数据处理方法,其特征在于,包括:实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频
。2.
如权利要求1所述的方法,其特征在于,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:接收所述服务器发送的所述回复文本数据;识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到至少一个回复文本单元;将各个回复文本单元进行文本转换,得到所述各个回复文本单元对应的回复语音单元;生成与各个回复语音单元匹配的数字人视频片段;所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段
。3.
如权利要求1所述的方法,其特征在于,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:接收所述服务器发送的至少一个回复语音单元;其中各个回复语音单元指的是:所述服务器将各个回复文本单元进行文本转换,得到的所述各个回复文本单元对应的回复语音单元;所述各个回复文本单元指的是:所述服务器识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到的回复文本单元;生成与各个回复语音单元匹配的数字人视频片段;所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段
。4.
如权利要求1所述的方法,其特征在于,所述方法还包括:每确定一个语音片段,生成所述语音片段的片段标识;其中,所述片段标识用于指示相应语音片段在所述语音数据中的时序;将与所述服务器进行交互时,将所述片段标识发送给所述服务器,以使所述服务器在返回目标数据时,返回所述目标数据对应的语音片段的片段标识;其中,所述目标数据包括所述回复文本数据或者所述回复语音数据;所述播放所述音视频,包括:获取上一次播放的音视频对应的语音片段的第一片段标识;基于所述第一片段标识,确定当前待播放的音视频对应的语音片段的第二片段标识;确定所述第二片段标识所指示的语音片段对应的音视频;
播放所述第二片段标识所指示的语音片段对应的音视频
。5.
如权利要求1所述的方法,其特征在于,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:对所述语音片段进行语音转换,得到所述语音片段对应的文本数据;将所述文本数据发送至所述服务器,以使所述服务器对所述语音片段对应的文本数据进行分析处理,...
【专利技术属性】
技术研发人员:廖少毅,陈钧浩,董伟,
申请(专利权)人:翌东寰球深圳数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。