歌声合成方法及装置制造方法及图纸

技术编号:20006988 阅读:35 留言:0更新日期:2019-01-05 18:38
本发明专利技术公开了一种歌声合成方法及装置,属于语音合成技术领域。所述方法包括:当获取到用户语音时,提取出所述用户语音中每个字的基频、包络和辅音信息;根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,所述歌曲中每个字的音高频率为所述歌曲中每个字的音高对应的频率;对调整后的基频、所述用户语音中每个字的包络和辅音信息进行合成处理,得到合成音频;根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声。本发明专利技术采用用户原本的包络和辅助信息合成用户歌声,可以保留用户原本的音色,合成的用户歌声与用户的声音更为接近。

The Method and Device of Singing Composition

The invention discloses a song synthesis method and device, which belongs to the technical field of speech synthesis. The method comprises: extracting the fundamental frequency, envelope and consonant information of each word in the user's voice when the user's voice is obtained; adjusting the fundamental frequency of each word in the user's voice according to the high frequency of each word in the song, and the high frequency of each word in the song is the corresponding frequency of the pitch of each word in the song; and The envelope and consonant information of each word in the user's voice are synthesized to get the synthesized audio. According to the time of each word in the song, the time of each word in the synthesized audio is adjusted to get the synthesized user's song. The invention synthesizes the user's song by using the user's original envelope and auxiliary information, which can retain the user's original timbre, and the synthesized user's song is closer to the user's voice.

【技术实现步骤摘要】
歌声合成方法及装置
本专利技术涉及语音合成
,尤其涉及一种歌声合成方法及装置。
技术介绍
随着语音合成技术的发展,语音合成技术逐渐应用于人们的日常生活中,例如,有些用户唱歌五音不全,希望可以念出歌词,然后生成自己的歌声,则可以利用语音合成技术来实现。目前,相关技术一般先对用户说话的语音进行识别,对应找出语音合成数据库中固有的歌声,然后提取该歌声的音色,再采用预先建立的转换模型,将该歌声的音色变成用户的音色,得到合成的用户歌声。其中,该滤波器模型用于将语音合成数据库中固有歌声的音色转换为用户的音色。上述技术采用语音合成数据库中固有的音色来合成用户歌声,无法保留用户原本的音色,合成的用户歌声与用户的声音会有区别。
技术实现思路
本专利技术实施例提供了一种歌声合成方法及装置,可以解决相关技术合成的用户歌声与用户的声音差别较大的问题。所述技术方案如下:第一方面,提供一种歌声合成方法,包括:当获取到用户语音时,提取出所述用户语音中每个字的基频、包络和辅音信息;根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,所述歌曲中每个字的音高频率为所述歌曲中每个字的音高对应的频率;对调整后的基频、所述用户语音中每个字的包络和辅音信息进行合成处理,得到合成音频;根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声。在一种可能实现方式中,所述根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,包括:根据歌曲中每个字的音高频率,将所述用户语音中每个字的基频调整为所述歌曲中对应字的音高频率。在一种可能实现方式中,所述根据所述歌曲中每个字的音高频率,将所述用户语音中每个字的基频调整为所述歌曲中对应字的音高频率,包括:对于所述歌曲中的每个字,当所述字有多个音高频率时,根据所述多个音高频率的排序和比例,对所述用户语音中所述字的基频进行调整。在一种可能实现方式中,所述提取出所述用户语音中每个字的基频、包络和辅音信息,包括:通过特征提取算法,提取出所述用户语音中每个字的基频、包络和辅音信息,每个字提取出预设数量的基频,所述预设数量根据提取频率确定。在一种可能实现方式中,所述根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,包括:对于所述用户语音中的每个字,将所述字的预设数量的基频调整为所述歌曲中所述字的音高频率。在一种可能实现方式中,所述根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声,包括:根据所述歌曲中每个字的时长,将所述合成音频中每个字的时长调整为所述歌曲中对应字的时长,得到合成的用户歌声。第二方面,提供一种歌声合成装置,包括:提取模块,用于当获取到用户语音时,提取出所述用户语音中每个字的基频、包络和辅音信息;调整模块,用于根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,所述歌曲中每个字的音高频率为所述歌曲中每个字的音高对应的频率;合成模块,用于对调整后的基频、所述用户语音中每个字的包络和辅音信息进行合成处理,得到合成音频;所述调整模块还用于根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声。在一种可能实现方式中,所述调整模块用于根据歌曲中每个字的音高频率,将所述用户语音中每个字的基频调整为所述歌曲中对应字的音高频率。在一种可能实现方式中,所述调整模块用于对于所述歌曲中的每个字,当所述字有多个音高频率时,根据所述多个音高频率的排序和比例,对所述用户语音中所述字的基频进行调整。在一种可能实现方式中,所述提取模块用于通过特征提取算法,提取出所述用户语音中每个字的基频、包络和辅音信息,每个字提取出预设数量的基频,所述预设数量根据提取频率确定。在一种可能实现方式中,所述调整模块用于对于所述用户语音中的每个字,将所述字的预设数量的基频调整为所述歌曲中所述字的音高频率。在一种可能实现方式中,所述调整模块用于根据所述歌曲中每个字的时长,将所述合成音频中每个字的时长调整为所述歌曲中对应字的时长,得到合成的用户歌声。第三方面,提供了一种计算机设备,包括处理器和存储器;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的计算机程序,实现第一方面任一种实现方式所述的方法步骤。第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一种实现方式所述的方法步骤。本专利技术实施例提供的技术方案带来的有益效果至少包括:通过根据歌曲中每个字的音高频率,对用户说的每个字的基频进行调整后,将调整后的基频、用户原本的包络和辅助信息合成音频,再根据歌曲中每个字的时长,对用户说的每个字的时长进行调整,从而合成用户歌声。上述方案采用用户原本的包络和辅助信息合成用户歌声,可以保留用户原本的音色,合成的用户歌声与用户的声音更为接近。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种歌声合成方法的流程图;图2是本专利技术实施例提供的一种歌声合成方法的流程图;图3是本专利技术实施例提供的一种音高和频率之间对应的示意图;图4是本专利技术实施例提供的一种歌声合成装置的结构示意图;图5是本专利技术实施例提供的一种电子设备500的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。图1是本专利技术实施例提供的一种歌声合成方法的流程图。参见图1,该方法包括:101、当获取到用户语音时,提取出该用户语音中每个字的基频、包络和辅音信息。102、根据歌曲中每个字的音高频率,对该用户语音中每个字的基频进行调整,该歌曲中每个字的音高频率为该歌曲中每个字的音高对应的频率。103、对调整后的基频、该用户语音中每个字的包络和辅音信息进行合成处理,得到合成音频。104、根据该歌曲中每个字的时长,对该合成音频中每个字的时长进行调整,得到合成的用户歌声。本专利技术实施例提供的方法,通过根据歌曲中每个字的音高频率,对用户说的每个字的基频进行调整后,将调整后的基频、用户原本的包络和辅助信息合成音频,再根据歌曲中每个字的时长,对用户说的每个字的时长进行调整,从而合成用户歌声。上述方案采用用户原本的包络和辅助信息合成用户歌声,可以保留用户原本的音色,合成的用户歌声与用户的声音更为接近。在一种可能实现方式中,该根据歌曲中每个字的音高频率,对该用户语音中每个字的基频进行调整,包括:根据歌曲中每个字的音高频率,将该用户语音中每个字的基频调整为该歌曲中对应字的音高频率。在一种可能实现方式中,该根据该歌曲中每个字的音高频率,将该用户语音中每个字的基频调整为该歌曲中对应字的音高频率,包括:对于该歌曲中的每个字,当该字有多个音高频率时,根据该多个音高频率的排序和比例,对该用户语音中该字的基频进行调整。在一种可能实现方式中,该提取出该用户语音中每个字的基频、包络和辅音信息,包括:通过特征提取算法,提取出该用户语音中每个字的基频、包本文档来自技高网...

【技术保护点】
1.一种歌声合成方法,其特征在于,所述方法包括:当获取到用户语音时,提取出所述用户语音中每个字的基频、包络和辅音信息;根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,所述歌曲中每个字的音高频率为所述歌曲中每个字的音高对应的频率;对调整后的基频、所述用户语音中每个字的包络和辅音信息进行合成处理,得到合成音频;根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声。

【技术特征摘要】
1.一种歌声合成方法,其特征在于,所述方法包括:当获取到用户语音时,提取出所述用户语音中每个字的基频、包络和辅音信息;根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,所述歌曲中每个字的音高频率为所述歌曲中每个字的音高对应的频率;对调整后的基频、所述用户语音中每个字的包络和辅音信息进行合成处理,得到合成音频;根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声。2.根据权利要求1所述的方法,其特征在于,所述根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,包括:根据所述歌曲中每个字的音高频率,将所述用户语音中每个字的基频调整为所述歌曲中对应字的音高频率。3.根据权利要求2所述的方法,其特征在于,所述根据所述歌曲中每个字的音高频率,将所述用户语音中每个字的基频调整为所述歌曲中对应字的音高频率,包括:对于所述歌曲中的每个字,当所述字有多个音高频率时,根据所述多个音高频率的排序和比例,对所述用户语音中所述字的基频进行调整。4.根据权利要求1所述的方法,其特征在于,所述提取出所述用户语音中每个字的基频、包络和辅音信息,包括:通过特征提取算法,提取出所述用户语音中每个字的基频、包络和辅音信息,每个字提取出预设数量的基频,所述预设数量根据提取频率确定。5.根据权利要求4所述的方法,其特征在于,所述根据歌曲中每个字的音高频率,对所述用户语音中每个字的基频进行调整,包括:对于所述用户语音中的每个字,将所述字的预设数量的基频调整为所述歌曲中所述字的音高频率。6.根据权利要求1所述的方法,其特征在于,所述根据所述歌曲中每个字的时长,对所述合成音频中每个字的时长进行调整,得到合成的用户歌声,包括:根据所述歌曲中每个字的时长,将所述合成音频中每个字的时长调整为所述歌曲中对应字的时长,得到合成的用户歌声。7.一种歌声合成装置,其特征在于...

【专利技术属性】
技术研发人员:劳振锋
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1