【技术实现步骤摘要】
一种语音合成方法
本专利技术涉及语音合成技术,特别涉及一种语音合成方法。
技术介绍
在国家电网公司减员增效的大背景下,电力物资公司专业人员紧缺与供应商数量不断增多的矛盾日益突出,难以满足现有大批量招投标及履约信息交互需求。随着人工智能时代的到来,语音识别技术在不断发展。人工智能语音技术可以接管大部分人工话务工作,释放人力,提高效率。因此,国网重庆电力公司物资分公司在智慧供应商服务大厅的升级改造过程中,通过梳理现有语音呼叫交互场景需求,明确物资专员在信息告知中的重点,构建常见业务通知的话术流程,依托语音识别、语义理解、语音合成、大数据分析等技术,打造服务体贴、智能化水平高的AI智能外呼系统。AI智能外呼系统可以解放工作人员的无聊重复工作,提高工作工作效率,同时AI智能外呼系统语音无情绪,可以有效避免发生冲突。语音合成技术是AI智能外呼系统中非常重要的一个技术问题,而如何准确的合成语音更是该系统的一项技术难题。
技术实现思路
针对现有技术存在的上述问题,本专利技术要解决的技术问题是:如何准确合成语音。 ...
【技术保护点】
1.一种语音合成方法,其特征在于,包括如下步骤:/nS10:文本特征提取和声学特征提取;/n文本特征提取模块首先对输入文本数据做字符嵌入,即使用固定维度大小的向量来对文本字符进行表征,然后依次通过Pre-Net、CBHG两个子网络,得到文本特征数据;/n声学特征提取:使用梅尔频谱和线性频谱进行,首先对语音数据进行预加重处理,将原始音频信号通过一个高通滤波器得到预加重后的语音数据,然后进行短时傅里叶变换得到线性谱;/nS20:对提取的文本特征数据与声学特征进行融合,具体包括如下步骤:/na)构建编码器,编码器使用Tacotron框架中的编码器,S10中得到的文本特征数据输入编 ...
【技术特征摘要】
1.一种语音合成方法,其特征在于,包括如下步骤:
S10:文本特征提取和声学特征提取;
文本特征提取模块首先对输入文本数据做字符嵌入,即使用固定维度大小的向量来对文本字符进行表征,然后依次通过Pre-Net、CBHG两个子网络,得到文本特征数据;
声学特征提取:使用梅尔频谱和线性频谱进行,首先对语音数据进行预加重处理,将原始音频信号通过一个高通滤波器得到预加重后的语音数据,然后进行短时傅里叶变换得到线性谱;
S20:对提取的文本特征数据与声学特征进行融合,具体包括如下步骤:
a)构建编码器,编码器使用Tacotron框架中的编码器,S10中得到的文本特征数据输入编码器中,编码器输出编码序列;
b)构建一个位置敏感注意力机制,所述位置敏感注意力机制的位置特征用32个长度为31的1维卷积核卷积得出,所述a)输出的编码序列和位置特征投影到128维隐层表征后,得到出注意力权重,即注意力上下文向量;
c)构建解码器,所述解码器是一个自回归的循环神经网络,它将编码器输出的编码序列预测输出声谱图,一次预测一帧,上一步预测出的频谱帧首先被传入一个每层由256个隐藏ReLU单元组成的双层全连接的预处理网络pre-net;
pre-net的输出和注意力上下文向量拼接在一起,传给一个两层堆叠的由1024个单元组成的单向神经网络,所述神经网络的输出再次和注意力上下文向量拼接在一起,然后经过一个线性变换投影来预测目标频谱帧;
预测的所述目标频谱帧经过一个5层卷积网络来预测一个残差叠加到卷积前的频谱帧上,网络的每层由512个5×1卷积核和一个批标准化处理组成,除了最后一层卷积,每层的批标准化处理都后接一个tanh激活函数;
并行于频谱帧的预测,解码器的输出与注意力上下文向量拼接在一起,投影成一个标量后传递给sigmoid激活函数,来预测输出序列是否已经完成的概率;
将该概率值大于或等于预...
【专利技术属性】
技术研发人员:邓努波,陈丽娟,张丽娟,张建华,黄嫄,向洪伟,郭强,程洁,张流畅,巫俊洁,邓燕晶,
申请(专利权)人:国网重庆市电力公司物资分公司,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。