【技术实现步骤摘要】
一种基于语音训练克隆口音及声韵方法
本专利技术涉及语音克隆
,尤其涉及一种基于语音训练克隆口音及音调方法。
技术介绍
现在语音技术是科技研究最热点最前沿的
之一,语音技术也是许多Google、讯飞等国际型科技公司大力研究的课题,国外有家LYREBIRD(天琴鸟)网站平台提供语音克隆的服务,用户只要通过网站平台的30句左右的文本进行朗读训练后,用户就能获得输入文本内容的的朗读语音,并且所获语音的音质和用户语音相近,现在成为热点,许多用户都在各大视频网站平台发布这种语音克隆的视频,但LYREBIRD(天琴鸟)网站平台和现有的其他语音模式克隆技术一样,声音的音质虽然和用户语音很接近,是很大的突破,但所发的语音仍然是机械的电子音,全世界的声学工程师也一直致力于研究让机器“说人话”,但搞出来的成果大多数还是跟人类真实的声音有很大差距,生硬、不自然一直是通病;究其根本,就是现有语音模拟克隆技术基本都是基于音质音调的强制一致,没有克隆模拟出用户的语调、韵律、口音等能代表用户个性化特征的语音内容。
技术实现思路
鉴于以上的技术问题,克隆语音的语音表达的意思往往和用户本身的本意难以统一。为解这些问题,本专利技术提供一一种基于语音训练语音克隆口音及音调方法,以语音分割为基础,以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元(含口音偏向的特征),文本转语音时候,也根据文本的语调和训练经验获得对应的音素单元,经过缓差矫正阶差进行合成,这种技术方案的创造性在于个性化,和主流语音克隆技术的区别在于:使用原始因素修正后为合成的基础单元,不只为音质牺牲个 ...
【技术保护点】
1.一种基于语音训练克隆口音及声韵方法,其特征包括的步骤和要素有:以语音分割为基础,以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元(含口音偏向的特征),文本转语音时候,也根据文本的语调和训练经验获得对应的音素单元,经过缓差矫正阶差进行合成克隆语音,包括如下模块、步骤及要素:步骤一、语音信息处理模块,收集来自于麦克风或智能设备中语音传感器的功能等等语音硬件的信号,将用户的说话的声音,形成信号输入系统,并将采集后的语音转换成语音数字信号推送或等待系统进行运算处理;步骤二、构建低通滤波算法;降低语音中的噪声,屏蔽语音信息里和用户语音内容不相关的内容进行过滤,容许低于截止频率的信号通过,截止高于截止频率的信号;优选地,以MATLAB作为滤波的分析运算、编写程序的工具,滤波运算后的语音数据方便系统程序无缝对接;步骤三、训练文本必须涵盖有多样性的典型;步骤四、创建用户音库,用户对训练文本朗读的音频数据通过低通滤波等的解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长、等信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中 ...
【技术特征摘要】
1.一种基于语音训练克隆口音及声韵方法,其特征包括的步骤和要素有:以语音分割为基础,以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元(含口音偏向的特征),文本转语音时候,也根据文本的语调和训练经验获得对应的音素单元,经过缓差矫正阶差进行合成克隆语音,包括如下模块、步骤及要素:步骤一、语音信息处理模块,收集来自于麦克风或智能设备中语音传感器的功能等等语音硬件的信号,将用户的说话的声音,形成信号输入系统,并将采集后的语音转换成语音数字信号推送或等待系统进行运算处理;步骤二、构建低通滤波算法;降低语音中的噪声,屏蔽语音信息里和用户语音内容不相关的内容进行过滤,容许低于截止频率的信号通过,截止高于截止频率的信号;优选地,以MATLAB作为滤波的分析运算、编写程序的工具,滤波运算后的语音数据方便系统程序无缝对接;步骤三、训练文本必须涵盖有多样性的典型;步骤四、创建用户音库,用户对训练文本朗读的音频数据通过低通滤波等的解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长、等信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中;步骤五、创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通过低通滤波等的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值等信息保存到系统中用户信息的相关数据库的声韵特征库表格,作为用户的声韵特征标准,等待系统在克隆语音时候调用,用于修正克隆语音的声韵;优选地,将语音分成帧长为12ms的时间段获取其绝对值的平均值,使计算的结果更加稳定;步骤六、根据用户私有音库实现语音克隆,在用户输入文本需要模拟克隆语音时候,首先以标点符号等文本特征识别文本语调类别,识别无结果是默认陈述语调,进一步,将文本按照步骤三所述的方法分拆成音素、音节、单词,并根据分拆的音标等特征文本在用户私有音库中检索其对应的音素或语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类为陈述的类别设为检索优选的结果,这样将文本对应一组音素、语音片段单元组y=(,,,…..),并将音所述音素、语音片段单元的标准时长分别调出,获得s=(,,,…..),待系统进一步的运算整理;步骤七、声韵矫正,每个人的语音会因换气习惯、肺活量等因素的影响,朗读不同长度的文本会有不同的声韵特征,根据目标克隆语音的预判时长对合成语音进行声韵矫正运算,使得克隆所得语音更加个性化;步骤八、缓差对齐矫正合成语音,使用原声音库根据文本英标进行语音合成最大的技术困难在于被合成的语音单元之间音量及语调衔接往往是断崖式的落差,合成出的声音会变得非常刺耳机械,音素、语音片段单元合成时候做缓冲对齐的修正,让克隆出的语音平缓自然。2.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征还包含的步骤及要素:采用训练文本选择的方法有:a、所用文本词句单词,需要至少一次涵盖所有的音素、特殊组合发音的音节;b、设置不同长度的语句,以获得用户朗读时候的换气等必要动作所造成的声韵特征;c、尽可能涵盖多种典型语气的文本语句,例如疑问句,惊讶句、兴奋句、严肃语句等等,以获得用户在不同文本内涵意思,自然对语气声调影响的特征;d、在系统中设置语调类,分别映射对应文本内容、音标、音素...
【专利技术属性】
技术研发人员:邝翠珊,
申请(专利权)人:深圳市数字星河科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。