一种流式语音转换方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24335100 阅读:43 留言:0更新日期:2020-05-29 21:57
本发明专利技术实施例公开了一种流式语音转换方法、装置、计算机设备及存储介质。所述方法包括:获取待转换语音数据;按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音,所述待转换分片语音携带有分片标记;将所述待转换分片语音进行语音转换得到已转换分片语音,所述已转换分片语音携带有分片标记;将所述已转换分片语音进行分片还原得到已还原分片语音,所述已还原分片语音携带有分片标记;根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。本发明专利技术的流式语音转换方法缩短了响应时间,提高转换速度,在听觉上保证了输出语音的高保真效果。

A method, device, computer equipment and storage medium of streaming speech conversion

【技术实现步骤摘要】
【国外来华专利技术】一种流式语音转换方法、装置、计算机设备及存储介质
本专利技术涉及语音处理
,尤其涉及一种流式语音转换方法、装置、计算机设备及存储介质。
技术介绍
语音转换(VoiceConversion)在民用层面已经广泛使用,该技术主要用来将一个生物发出的声音转换成另一个生物发出的声音,目前已用在变声器、电影、新闻声优合成等场景。在完成转换流程的过程中,保证转换声音质量不变的前提下,转换速度也同样对与体验者有着决定性的影响。目前业界对语音转换速度有一个定性要求:从语音输入到输出的时间内,需要实时处理,即每秒能处理一秒语音的转换性能,在语音行业领域内,语音转换系统仍需要等待体验者把内容说完,才能走一次语音转换处理流程,现有计算还没有出现针对长时间语音输入的情况下,语音转换系统难以达到实时转换并且保真的效果。因此,开发一种提高转换速度、高保真的语音转换方法显得尤为重要。
技术实现思路
基于此,有必要针对上述问题,提出了一种流式语音转换方法、装置、计算机设备及存储介质,用于解决现有技术中语音转换难以达到实时转换并且保真的效果的技术问题。第一方面,本专利技术提出了一种流式语音转换方法,所述方法包括:获取待转换语音数据;按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音,所述待转换分片语音携带有分片标记;将所述待转换分片语音进行语音转换得到已转换分片语音,所述已转换分片语音携带有分片标记;将所述已转换分片语音进行分片还原得到已还原分片语音,所述已还原分片语音携带有分片标记;根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。第二方面,本专利技术还提出了一种流式语音转换装置,所述装置包括:流式获取语音模块,用于获取待转换语音数据;分片提取模块,用于按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音,所述待转换分片语音携带有分片标记;语音转换模块,用于将所述待转换分片语音进行语音转换得到已转换分片语音,所述已转换分片语音携带有分片标记;分片还原模块,用于将所述已转换分片语音进行分片还原得到已还原分片语音,所述已还原分片语音携带有分片标记;流式输出语音模块,用于根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。第三方面,本专利技术还提出了一种存储介质,存储有计算机指令程序,所述计算机指令程序被处理器执行时,使得所述处理器执行第一方面任一项所述方法的步骤。第四方面,本专利技术还提出了一种计算机设备,包括至少一个存储器、至少一个处理器,所述存储器存储有计算机指令程序,所述计算机指令程序被所述处理器执行时,使得所述处理器执行第一方面任一项所述方法的步骤。综上所述,本专利技术的流式语音转换方法通过将按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音,将所述待转换分片语音进行语音转换得到已转换分片语音之后,再将所述已转换分片语音进行分片还原得到已还原分片语音,最后根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。不管输入语音的时长,分片提取、分片转换、分片还原的处理机制有利于能充分利用处理器多核的并行能力同时处理多片数据,能解决容量比较大的语音数据处理时占用缓存过大的问题,缩短了响应时间,提高转换速度;通过流式获取待转换语音数据,且根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出,不管输入语音的时长,在听觉上保证了输出语音的高保真效果。因此,本专利技术的流式语音转换方法缩短了响应时间,提高转换速度,在听觉上保证了输出语音的高保真效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1为一个实施例中流式语音转换方法的流程图;图2为图1的流式语音转换方法的获取待转换语音数据的流程图;图3为图1的流式语音转换方法的分片提取的流程图;图4为图3的流式语音转换方法的分片处理的流程图;图5为图1的流式语音转换方法的分片还原的流程图;图6为前一片的已转换尾部公共语音的权重曲线图;图7为后一片的已转换头部公共语音的权重曲线图;图8为图1的流式语音转换方法的拼接处理的流程图;图9为一个实施例中流式语音转换装置的结构框图;图10为一个实施例中计算机设备的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,在一个实施例中,本专利技术提出了一种流式语音转换方法,所述方法包括:S102、获取待转换语音数据;其中,所述待转换语音数据可以是多个短语音数据拼接而成,也可以是直接获取的一段长录音数据。短语音数据可以是录音设备实时录制的语音数据按预设时间间隔把预设时长的语音数据流式输入,也可以是按预设时间间隔流式从存储在数据库中的长录音数据中依次获取预设时长的录音数据作为短语音数据。所述待转换语音数据可以是多个短语音数据拼接而成包括:按预设时间间隔流式获取预设时长的短语音数据;将获取到的多个所述短语音数据进行拼接得到所述待转换语音数据。所述短语音数据、所述长录音数据、所述待转换语音数据的格式包括WAV、MP3,在此举例不作具体限定。所述流式输入是指数据流式化输入,不写入/读取整个节点或文件的数据,只将一小部分数据存入内存,并先行处理该部分数据,令执行单元在处理数据的前后期间随时传送。S104、按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音,所述待转换分片语音携带有分片标记;其中,获取预设独有分片时长、预设公共时长,根据所述预设独有分片时长和所述预设公共时长对所述待转换语音数据进行分片处理,得到多个所述待转换分片语音,每个所述待转换分片语音中包括独有分片语音和公共语音。可以理解的是,在另一个实施例中,根据所述预设独有分片时长对所述待转换语音数据进行依次分片提取,得到多个所述待转换分片语音,所述待转换分片语音只包括独有分片语音。其中,将所述独有分片语音的开始时间作为所述待转换分片语音的分片标记,也可以把所述待转换分片语音按获取顺序进行编号并且将编号作为所述待转换分片语音的分片标记。所述独有分片语音的开始时间是指所述独有分片语音的开始时间对应的语音数据的时间戳作为所述待转换分片语音的分片标记。所述分片是指对大型数据进行切分,并把多个分片分布在各个计算单元当中,以提高整个计算系统处理吞吐量。本文档来自技高网...

【技术保护点】
1.一种流式语音转换方法,所述方法包括:/n获取待转换语音数据;/n按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音,所述待转换分片语音携带有分片标记;/n将所述待转换分片语音进行语音转换得到已转换分片语音,所述已转换分片语音携带有分片标记;/n将所述已转换分片语音进行分片还原得到已还原分片语音,所述已还原分片语音携带有分片标记;/n根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。/n

【技术特征摘要】
【国外来华专利技术】1.一种流式语音转换方法,所述方法包括:
获取待转换语音数据;
按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音,所述待转换分片语音携带有分片标记;
将所述待转换分片语音进行语音转换得到已转换分片语音,所述已转换分片语音携带有分片标记;
将所述已转换分片语音进行分片还原得到已还原分片语音,所述已还原分片语音携带有分片标记;
根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。


2.根据权利要求1所述的流式语音转换方法,其特征在于,所述获取待转换语音数据,包括:
按预设时间间隔流式获取预设时长的短语音数据;
将获取到的多个所述短语音数据进行拼接得到所述待转换语音数据。


3.根据权利要求1所述的流式语音转换方法,其特征在于,所述按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音,所述待转换分片语音携带有分片标记,包括:
获取预设独有分片时长、预设公共时长;
根据所述预设独有分片时长和所述预设公共时长对所述待转换语音数据进行分片处理,得到多个所述待转换分片语音,每个所述待转换分片语音中包括独有分片语音和公共语音,将所述独有分片语音的开始时间作为所述待转换分片语音的分片标记。


4.根据权利要求3所述的流式语音转换方法,其特征在于,所述根据所述预设独有分片时长和预设公共时长对所述待转换语音数据进行分片处理,得到多个待转换分片语音,每个所述待转换分片语音中包括独有分片语音和公共语音,包括:
将所述预设公共时长的数值的一半、所述预设独有分片时长及所述预设公共时长相加得到头端分片时长;
将所述预设公共时长、所述预设独有分片时长、所述预设公共时长相加得到非头端分片时长;
根据所述头端分片时长从所述待转换语音数据的头端进行提取,得到头端分片语音,所述头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音;
根据所述非头端分片时长从所述待转换语音数据中进行依次提取,得到非头端分片语音,所述非头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音;
将所述头端分片语音、所有所述非头端分片语音作为待转换分片语音。


5.根据权利要求4所述的流式语音转换方法,其特征在于,所述已转换分片语音包括已转换头部公共语音、已转换独有分片语音、已转换尾部公共语音;
所述将所述已转换分片语音进行分片还原得到已还原分片语音,所述已还原分片语音携带有分片标记,包括:
根据所述已转换分片语音携带的分片标记将多个所述已转换分片语音进行拼接得到已转换分片语音流;
从所述已转换分片语音流中获取相邻的两个所述已转换分片语音;
将相邻的两个所述已转换分片语音的前一片的所述已转换尾部公共语音、相邻的两个所述已转换分片语音的后一...

【专利技术属性】
技术研发人员:谢杰斌王若童黄东延汤志超刘洋熊友军
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1