一种流式语音转换方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：24335100 阅读：43 留言：0更新日期：2020-05-29 21:57

本发明专利技术实施例公开了一种流式语音转换方法、装置、计算机设备及存储介质。所述方法包括：获取待转换语音数据；按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记；将所述待转换分片语音进行语音转换得到已转换分片语音，所述已转换分片语音携带有分片标记；将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记；根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。本发明专利技术的流式语音转换方法缩短了响应时间，提高转换速度，在听觉上保证了输出语音的高保真效果。

A method, device, computer equipment and storage medium of streaming speech conversion

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】一种流式语音转换方法、装置、计算机设备及存储介质
本专利技术涉及语音处理
，尤其涉及一种流式语音转换方法、装置、计算机设备及存储介质。
技术介绍
语音转换(VoiceConversion)在民用层面已经广泛使用，该技术主要用来将一个生物发出的声音转换成另一个生物发出的声音，目前已用在变声器、电影、新闻声优合成等场景。在完成转换流程的过程中，保证转换声音质量不变的前提下，转换速度也同样对与体验者有着决定性的影响。目前业界对语音转换速度有一个定性要求：从语音输入到输出的时间内，需要实时处理，即每秒能处理一秒语音的转换性能，在语音行业领域内，语音转换系统仍需要等待体验者把内容说完，才能走一次语音转换处理流程，现有计算还没有出现针对长时间语音输入的情况下，语音转换系统难以达到实时转换并且保真的效果。因此，开发一种提高转换速度、高保真的语音转换方法显得尤为重要。
技术实现思路
基于此，有必要针对上述问题，提出了一种流式语音转换方法、装置、计算机设备及存储介质，用于解决现有技术中语音转换难以达到实时转换并且保真的效果的技术问题。第一方面，本专利技术提出了一种流式语音转换方法，所述方法包括：获取待转换语音数据；按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记；将所述待转换分片语音进行语音转换得到已转换分片语音，所述已转换分片语音携带有分片标记；将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分...

【技术保护点】
1.一种流式语音转换方法，所述方法包括：/n获取待转换语音数据；/n按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记；/n将所述待转换分片语音进行语音转换得到已转换分片语音，所述已转换分片语音携带有分片标记；/n将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记；/n根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。/n

【技术特征摘要】
【国外来华专利技术】1.一种流式语音转换方法，所述方法包括：
获取待转换语音数据；
按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记；
将所述待转换分片语音进行语音转换得到已转换分片语音，所述已转换分片语音携带有分片标记；
将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记；
根据所述已还原分片语音携带的分片标记将所述已还原分片语音进行输出。

2.根据权利要求1所述的流式语音转换方法，其特征在于，所述获取待转换语音数据，包括：
按预设时间间隔流式获取预设时长的短语音数据；
将获取到的多个所述短语音数据进行拼接得到所述待转换语音数据。

3.根据权利要求1所述的流式语音转换方法，其特征在于，所述按获取时间的顺序将所述待转换语音数据进行分片提取得到待转换分片语音，所述待转换分片语音携带有分片标记，包括：
获取预设独有分片时长、预设公共时长；
根据所述预设独有分片时长和所述预设公共时长对所述待转换语音数据进行分片处理，得到多个所述待转换分片语音，每个所述待转换分片语音中包括独有分片语音和公共语音，将所述独有分片语音的开始时间作为所述待转换分片语音的分片标记。

4.根据权利要求3所述的流式语音转换方法，其特征在于，所述根据所述预设独有分片时长和预设公共时长对所述待转换语音数据进行分片处理，得到多个待转换分片语音，每个所述待转换分片语音中包括独有分片语音和公共语音，包括：
将所述预设公共时长的数值的一半、所述预设独有分片时长及所述预设公共时长相加得到头端分片时长；
将所述预设公共时长、所述预设独有分片时长、所述预设公共时长相加得到非头端分片时长；
根据所述头端分片时长从所述待转换语音数据的头端进行提取，得到头端分片语音，所述头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音；
根据所述非头端分片时长从所述待转换语音数据中进行依次提取，得到非头端分片语音，所述非头端分片语音包括依次连接的头部公共语音、独有分片语音及尾部公共语音；
将所述头端分片语音、所有所述非头端分片语音作为待转换分片语音。

5.根据权利要求4所述的流式语音转换方法，其特征在于，所述已转换分片语音包括已转换头部公共语音、已转换独有分片语音、已转换尾部公共语音；
所述将所述已转换分片语音进行分片还原得到已还原分片语音，所述已还原分片语音携带有分片标记，包括：
根据所述已转换分片语音携带的分片标记将多个所述已转换分片语音进行拼接得到已转换分片语音流；
从所述已转换分片语音流中获取相邻的两个所述已转换分片语音；
将相邻的两个所述已转换分片语音的前一片的所述已转换尾部公共语音、相邻的两个所述已转换分片语音的后一...

【专利技术属性】
技术研发人员：谢杰斌，王若童，黄东延，汤志超，刘洋，熊友军，
申请(专利权)人：深圳市优必选科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人