一种数据处理方法技术

技术编号:39812621 阅读:7 留言:0更新日期:2023-12-22 19:29
本申请实施例公开了一种数据处理方法

【技术实现步骤摘要】
一种数据处理方法、装置、设备及存储介质


[0001]本申请涉及计算机应用
,尤其涉及一种数据处理方法

装置

设备及存储介质


技术介绍

[0002]传统的人工智能模型支持单一输入和单一输出的结构,这种结构限制了它们在复杂任务和现实世界应用中的效能

在许多现实世界的任务中,输入和输出都是序列数据,例如自然语言翻译

文本生成和语音识别

传统模型的结构无法有效地处理这种情况,并且传统的人工智能模型结构需要等待上一个接口完整生成结果后才送到下一个接口,导致音视频的播放延时增大


技术实现思路

[0003]本申请实施例提供了一种数据处理方法

装置

设备及存储介质,可减小音视频的播放延时,从而提升音视频的播放效率

[0004]第一方面,本申请实施例提供了一种数据处理方法,该方法包括:实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频

[0005]在一个实施例中,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:接收所述服务器发送的所述回复文本数据;识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到至少一个回复文本单元;将各个回复文本单元进行文本转换,得到所述各个回复文本单元对应的回复语音单元;生成与各个回复语音单元匹配的数字人视频片段;所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段

[0006]在一个实施例中,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:
接收所述服务器发送的至少一个回复语音单元;其中各个回复语音单元指的是:所述服务器将各个回复文本单元进行文本转换,得到的所述各个回复文本单元对应的回复语音单元;所述各个回复文本单元指的是:所述服务器识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到的回复文本单元;生成与各个回复语音单元匹配的数字人视频片段;所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段

[0007]在一个实施例中,所述方法还包括:每确定一个语音片段,生成所述语音片段的片段标识;其中,所述片段标识用于指示相应语音片段在所述语音数据中的时序;将与所述服务器进行交互时,将所述片段标识发送给所述服务器,以使所述服务器在返回目标数据时,返回所述目标数据对应的语音片段的片段标识;其中,所述目标数据包括所述回复文本数据或者所述回复语音数据;所述播放所述音视频,包括:获取上一次播放的音视频对应的语音片段的第一片段标识;基于所述第一片段标识,确定当前待播放的音视频对应的语音片段的第二片段标识;确定所述第二片段标识所指示的语音片段对应的音视频;播放所述第二片段标识所指示的语音片段对应的音视频

[0008]在一个实施例中,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:对所述语音片段进行语音转换,得到所述语音片段对应的文本数据;将所述文本数据发送至所述服务器,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据

[0009]在一个实施例中,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:将所述语音片段发送至所述服务器,以使所述服务器对所述语音片段进行语音转换,得到所述语音片段对应的文本数据,所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据

[0010]在一个实施例中,所述方法还包括:若当前采集的语音信息的波形振幅小于预设振幅阈值,则确定检测到语音停顿,并将所述语音信息的采集点确定为所述语音停顿检测点

[0011]在一个实施例中,所述方法还包括:获取历史语音信息的波形振幅;其中,所述历史语音信息包括所述当前采集的语音信息,以及在所述当前采集的语音信息之前采集到的一个或者多个语音信息;基于所述历史语音信息的波形振幅,确定所述预设振幅阈值;其中,所述预设振幅阈值与所述历史语音信息的波形振幅呈正相关趋势

[0012]在一个实施例中,所述方法还包括:若所述语音片段的语音时长小于预设时间段,则删除所述语音片段

[0013]在一个实施例中,所述实时采集目标对象的语音数据,包括:按照第一预设采样参数实时采集所述目标对象的语音数据;所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:在获取所述语音片段对应的文本数据之前,按照第二预设采样参数对所述语音数据进行调整,得到调整后的语音数据;其中,所述第二预设采样参数小于所述第一预设采样参数;与所述服务器进行交互,以使所述服务器对所述调整后的语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据

[0014]第二方面,本申请实施例提供了一种数据处理装置,该数据处理装置包括:采集单元,用于实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;交互单元,用于与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;获取单元,用于获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;构建单元,用于基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频

[0015]第三方面,本申请实施例提供了一种计算机设备,该计算机设备包括存储器

通信接口以及处理器,其中,所述存储器

所述通信接口和所述处理器相互连接;所述存储器存储有计算机程序,所述处理器调用所述存储器中存储的计算机程序,用于实现上述第一方面所述的方法

[0016]第四方面,本申请实施例提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法,其特征在于,包括:实时采集目标对象的语音数据,在检测到语音停顿时,确定从上一次采集结束点至当前语音停顿检测点采集到的语音片段;与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据;获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频;基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频
。2.
如权利要求1所述的方法,其特征在于,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:接收所述服务器发送的所述回复文本数据;识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到至少一个回复文本单元;将各个回复文本单元进行文本转换,得到所述各个回复文本单元对应的回复语音单元;生成与各个回复语音单元匹配的数字人视频片段;所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段
。3.
如权利要求1所述的方法,其特征在于,所述获取所述回复文本数据对应的回复语音数据,并生成与所述回复语音数据匹配的数字人视频,包括:接收所述服务器发送的至少一个回复语音单元;其中各个回复语音单元指的是:所述服务器将各个回复文本单元进行文本转换,得到的所述各个回复文本单元对应的回复语音单元;所述各个回复文本单元指的是:所述服务器识别所述回复文本数据中的标点符号,将所述回复文本数据以所述标点符号进行分割,得到的回复文本单元;生成与各个回复语音单元匹配的数字人视频片段;所述基于所述数字人视频和所述回复语音数据构建音视频,并播放所述音视频,包括:基于所述数字人视频片段和对应的回复语音单元构建音视频片段,并按照所述至少一个回复文本单元的分割顺序,播放所述各个回复文本单元对应的音视频片段
。4.
如权利要求1所述的方法,其特征在于,所述方法还包括:每确定一个语音片段,生成所述语音片段的片段标识;其中,所述片段标识用于指示相应语音片段在所述语音数据中的时序;将与所述服务器进行交互时,将所述片段标识发送给所述服务器,以使所述服务器在返回目标数据时,返回所述目标数据对应的语音片段的片段标识;其中,所述目标数据包括所述回复文本数据或者所述回复语音数据;所述播放所述音视频,包括:获取上一次播放的音视频对应的语音片段的第一片段标识;基于所述第一片段标识,确定当前待播放的音视频对应的语音片段的第二片段标识;确定所述第二片段标识所指示的语音片段对应的音视频;
播放所述第二片段标识所指示的语音片段对应的音视频
。5.
如权利要求1所述的方法,其特征在于,所述与服务器进行交互,以使所述服务器对所述语音片段对应的文本数据进行分析处理,生成所述文本数据对应的回复文本数据,包括:对所述语音片段进行语音转换,得到所述语音片段对应的文本数据;将所述文本数据发送至所述服务器,以使所述服务器对所述语音片段对应的文本数据进行分析处理,...

【专利技术属性】
技术研发人员:廖少毅陈钧浩董伟
申请(专利权)人:翌东寰球深圳数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1