The invention discloses a song synthesis method and device, which belongs to the technical field of speech synthesis. The method comprises: extracting the fundamental frequency, envelope and consonant information of each word in the user's voice when the user's voice is obtained; adjusting the fundamental frequency of each word in the user's voice according to the high frequency of each word in the song, and the high frequency of each word in the song is the corresponding frequency of the pitch of each word in the song; and The envelope and consonant information of each word in the user's voice are synthesized to get the synthesized audio. According to the time of each word in the song, the time of each word in the synthesized audio is adjusted to get the synthesized user's song. The invention synthesizes the user's song by using the user's original envelope and auxiliary information, which can retain the user's original timbre, and the synthesized user's song is closer to the user's voice.
【技术实现步骤摘要】
歌声合成方法及装置
本专利技术涉及语音合成
,尤其涉及一种歌声合成方法及装置。
技术介绍
随着语音合成技术的发展,语音合成技术逐渐应用于人们的日常生活中,例如,有些用户唱歌五音不全,希望可以念出歌词,然后生成自己的歌声,则可以利用语音合成技术来实现。目前,相关技术一般先对用户说话的语音进行识别,对应找出语音合成数据库中固有的歌声,然后提取该歌声的音色,再采用预先建立的转换模型,将该歌声的音色变成用户的音色,得到合成的用户歌声。其中,该滤波器模型用于将语音合成数据库中固有歌声的音色转换为用户的音色。上述技术采用语音合成数据库中固有的音色来合成用户歌声,无法保留用户原本的音色,合成的用户歌声与用户的声音会有区别。
技术实现思路
本专利技术实施例提供了一种歌声合成方法及装置,可以解决相关技术合成的用户歌声与用户的声音差别较大的问题。所述技术方案如下:第一方面,提供一种歌声合成方法,包括:当获取到用户语音时,提取出所述用户语音中每个字的基频、包络和辅音信息;根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,所述歌曲中每个字的音高频率为所述歌曲中每个字的音高对应的频率;对调整后的基频、所述用户语音中每个字的包络和辅音信息进行合成处理,得到合成音频;根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声。在一种可能实现方式中,所述根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,包括:根据歌曲中每个字的音高频率,将所述用户语音中每个字的基频调整为所述歌曲中对应字的音高频率。在一种可能实现方式中,所述根据所 ...
【技术保护点】
1.一种歌声合成方法,其特征在于,所述方法包括:当获取到用户语音时,提取出所述用户语音中每个字的基频、包络和辅音信息;根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,所述歌曲中每个字的音高频率为所述歌曲中每个字的音高对应的频率;对调整后的基频、所述用户语音中每个字的包络和辅音信息进行合成处理,得到合成音频;根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声。
【技术特征摘要】
1.一种歌声合成方法,其特征在于,所述方法包括:当获取到用户语音时,提取出所述用户语音中每个字的基频、包络和辅音信息;根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,所述歌曲中每个字的音高频率为所述歌曲中每个字的音高对应的频率;对调整后的基频、所述用户语音中每个字的包络和辅音信息进行合成处理,得到合成音频;根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声。2.根据权利要求1所述的方法,其特征在于,所述根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,包括:根据所述歌曲中每个字的音高频率,将所述用户语音中每个字的基频调整为所述歌曲中对应字的音高频率。3.根据权利要求2所述的方法,其特征在于,所述根据所述歌曲中每个字的音高频率,将所述用户语音中每个字的基频调整为所述歌曲中对应字的音高频率,包括:对于所述歌曲中的每个字,当所述字有多个音高频率时,根据所述多个音高频率的排序和比例,对所述用户语音中所述字的基频进行调整。4.根据权利要求1所述的方法,其特征在于,所述提取出所述用户语音中每个字的基频、包络和辅音信息,包括:通过特征提取算法,提取出所述用户语音中每个字的基频、包络和辅音信息,每个字提取出预设数量的基频,所述预设数量根据提取频率确定。5.根据权利要求4所述的方法,其特征在于,所述根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,包括:对于所述用户语音中的每个字,将所述字的预设数量的基频调整为所述歌曲中所述字的音高频率。6.根据权利要求1所述的方法,其特征在于,所述根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声,包括:根据所述歌曲中每个字的时长,将所述合成音频中每个字的时长调整为所述歌曲中对应字的时长,得到合成的用户歌声。7.一种歌声合成装置,其特征在于...
【专利技术属性】
技术研发人员:劳振锋,
申请(专利权)人:广州酷狗计算机科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。