The invention discloses a method for converting sound, the method is suitable for processing according to the voice from the phoneme phoneme feature source target unit of preset matching voice conversion, which comprises the following steps: extracting features to be processed each frame of speech; calculate each speech frame to be processed in the speech phoneme that will be the same phoneme in successive frames as a phoneme set; according to the order will be divided into one or more of the first frame length phoneme unit of a phoneme set, the phoneme units overlap between adjacent second frames long; according to the features of splicing each frame of speech features obtained corresponding phoneme units for each phoneme unit; according to the characteristics, phoneme and phoneme feature from the source target unit on the selected target phoneme feature unit with minimum cost, as the best phoneme feature unit; a plurality of phoneme units The corresponding optimal phoneme feature units are processed in time domain to obtain speech after tone conversion. The invention discloses corresponding calculation equipment.
【技术实现步骤摘要】
一种音色转换方法及计算设备
本专利技术涉及音频处理
,尤其是一种音色转换方法及计算设备。
技术介绍
在现有电影或电视剧的配音中,演员需要根据电影或电视剧的剧本台词进行语音录入,这种情形下,若是电影或电视剧稍有改动就需要演员再重新录制配音,而演员一般排期紧、价位高,这对制片方或者演员来说都是非常不划算的。现有的语音合成技术,大部分都只能合成某个固定人的声音;另有一些语音合成技术可以合成需要的说话人声音,但是计算量非常大,运行时间长,无法用于实际。而在实际生活中,人们常常会对一些诸如男女音色转换的应用表现出很大的兴趣。因此,需要一种能够将用户的语音转换成具有另一种音色的语音的方法。现有的音色转换方法,主要分为基于高斯混合模型的音色转换方法和基于音素拼接的音色转换方法。前者主要的缺点是存在过拟合或欠拟合的毛病,表现为音质单薄、音色与目标音色有较大差距;而后者虽然可以使转换后的语音更加符合目标音色,但拼接上存在衔接不流畅的情况。故而,需要一种音色转换方法,能够使得转换后的语音逼近目标说话人自己说的话。
技术实现思路
为此,本专利技术提供了一种音色转换方法及计算设备,以力 ...
【技术保护点】
一种音色转换方法,所述方法适于根据待处理语音的音素从预置的源‑目标音素特征单元对中搜索到匹配的语音进行转换,所述方法包括步骤:提取待处理语音中每一帧语音的特征;计算所述待处理语音中每一帧语音所属的音素,将同一音素内的连续帧作为一个音素集;按照顺序将一个音素集分成一个或多个第一帧长的音素单元,其中相邻音素单元之间相互重叠第二帧长;根据每帧语音的特征拼接得到对应音素单元的特征;对于每个音素单元,根据其音素和特征从所述源‑目标音素特征单元对中选取出代价最小的目标音素特征单元,作为最优音素特征单元;以及对多个音素单元对应的多个最优音素特征单元进行时域拼接处理,得到音色转换后的语音。
【技术特征摘要】
1.一种音色转换方法,所述方法适于根据待处理语音的音素从预置的源-目标音素特征单元对中搜索到匹配的语音进行转换,所述方法包括步骤:提取待处理语音中每一帧语音的特征;计算所述待处理语音中每一帧语音所属的音素,将同一音素内的连续帧作为一个音素集;按照顺序将一个音素集分成一个或多个第一帧长的音素单元,其中相邻音素单元之间相互重叠第二帧长;根据每帧语音的特征拼接得到对应音素单元的特征;对于每个音素单元,根据其音素和特征从所述源-目标音素特征单元对中选取出代价最小的目标音素特征单元,作为最优音素特征单元;以及对多个音素单元对应的多个最优音素特征单元进行时域拼接处理,得到音色转换后的语音。2.如权利要求1所述的方法,还包括建立源语音库和目标语音库的步骤,其中,所述源语音库和目标语音库是平行语料库。3.如权利要求2所述的方法,其中,在建立源语音库和目标语音库的步骤之后,还包括步骤:根据源语音库和目标语音库中对应语句的特征生成源-目标音素特征单元对,其中,一个源-目标音素特征单元对中包含一个源音素特征单元和与其对应的一个目标音素特征单元。4.如权利要求3所述的方法,其中,所述根据源语音库和目标语音库中的对应语句的特征生成源-目标音素特征单元对的步骤包括:对源语音库和目标语音库中的对应语句分别进行分帧处理,得到每个语句的源语音序列和目标语音序列;分别提取所述源语音序列和目标语音序列中每帧语音的特征;根据所提取的特征对所述源语音序列和目标语音序列进行动态时间规整处理,得到一一对应的源-目标特征帧对;计算所述目标语音序列中每一帧语音所属的音素;将同一音素内连续帧的目标特征帧所属的源-目标特征帧对作为一个源-目标音素集;以及按照顺序将一个源-目标音素...
【专利技术属性】
技术研发人员:张康,方博伟,卓鹏鹏,尤嘉华,张伟,
申请(专利权)人:厦门美图之家科技有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。