一种用于语音合成的语音片段拼接系统和方法技术方案

技术编号:11316467 阅读:347 留言:0更新日期:2015-04-17 18:09
本发明专利技术涉及一种用于语音合成的语音片段拼接系统和方法,首先,从语音库中提取待拼接的两个语音片段作为第一语音片段和第二语音片段,并从第一语音片段和第二语音片段中选择出最佳采样点;然后,对最佳采样点进行一阶平滑,生成语音拼接点;一阶平滑方法为:计算最佳采样点U1、U2处的斜率ka、kb,以及最佳采样点U1、U2的数值差异值deltaU;根据斜率ka、kb和差异值deltaU进行预测,生成语音拼接点。最后,将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片段。本发明专利技术解决了现有技术中直接拼接出现的语音频谱跳变的问题,以及通过自相关查找再累加平滑方法计算量过大的问题,通过一阶平滑的方法使拼接处的频谱获得良好的连续性,增强了用户听觉感受。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及,首先,从语音库中提取待拼接的两个语音片段作为第一语音片段和第二语音片段,并从第一语音片段和第二语音片段中选择出最佳采样点;然后,对最佳采样点进行一阶平滑,生成语音拼接点;一阶平滑方法为:计算最佳采样点U1、U2处的斜率ka、kb,以及最佳采样点U1、U2的数值差异值deltaU;根据斜率ka、kb和差异值deltaU进行预测,生成语音拼接点。最后,将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片段。本专利技术解决了现有技术中直接拼接出现的语音频谱跳变的问题,以及通过自相关查找再累加平滑方法计算量过大的问题,通过一阶平滑的方法使拼接处的频谱获得良好的连续性,增强了用户听觉感受。【专利说明】
本专利技术涉及语音合成领域,特别涉及一种用于语音合成的语音片段拼接系统和方 法。
技术介绍
现有语音合成方法有基于语音特征参数和基于波形拼接两种方法。相对于基于参 数的方法,基于波形拼接的语音合成能够得到质量更高的合成语音,声音听起来也更自然, 更为接近原始发音人的音色。因此,目前主流的在线语音合成都是偏重于采用基于波形拼 接的语音合成方案。 基于波形拼接的语音合成方法原理为:先从预先录制和完成标注的语音库中挑选 合适的语音单元作为待拼接的语音片段,然后通过语音片段之间的拼接得到最终的合成语 音。采用这种拼接方法,如果拼接的片段在连接处处理不好,在频谱上会出现跳变,就会导 致用户在听觉感受上的不自然。因此一个关键的技术问题是:采用什么样的拼接方法使得 完成拼接的语音片段能够流畅的输出。 目前现有的拼接方法是采用对语音片段先对齐之后再累加平滑的方法,这种拼接 方法输出的语音片段平滑效果一般,存在语音片段频谱间的跳变的问题。另外,在一些情况 下,这种拼接方法存在找不到平滑对齐点的问题。从用户听感上,会出现'啪'声的高频爆 破音,会影响用户的听觉感受。因此,需要一种能够输出流畅的语音片段的语音片段拼接方 法。
技术实现思路
本专利技术所要解决的技术问题是提供一种能够输出流畅的语音片段的语音片段拼 接方法。 本专利技术解决上述技术问题的技术方案如下:一种用于语音合成的语音片段拼接系 统,包括语音库、采样点选择模块、语音拼接点生成模块和拼接模块; 所述语音库,其用于存储录制并完成标注的语音片段; 所述采样点选择模块,其用于从语音库中提取出待拼接的两个语音片段分别作为 第一语音片段和第二语音片段,并从所述第一语音片段和第二语音片段中选择出最佳采样 占. 所述语音拼接点生成模块,其用于对最佳采样点进行一阶平滑,生成语音拼接 占. 所述拼接模块,其用于将语音拼接点插入第一语音片段和第二语音片段之间,生 成第三语音片段。 本专利技术的有益效果是:解决了现有技术中通过周期查找再移动累加平滑方法出现 的语音频谱跳变的问题,通过一阶平滑的方法使语音在拼接处的频谱获得良好的连续性, 也增强了用户听觉感受。另外,一阶平滑拼接方法在查找拼接位置候选采样点时,不需要计 算语音信号的自相关,从而更加简单准确的查找到拼接位置,大大降低了计算量,提高了运 行速度。 在上述技术方案的基础上,本专利技术还做出以下改进。 进一步,所述采样点选择模块包括搜索单元和筛选单元; 所述搜索单元,其用于对所述第一语音片段和第二语音片段进行搜索得到至少两 个候选米样点; 所述筛选单元,其用于从至少两个候选采样点中筛选出第一语音片段的最佳采样 点Ul和第二语音片段的最佳采样点U2。 进一步,所述语音拼接点生成模块包括计算单元和预测单元; 所述计算单元,其用于计算所述最佳采样点Ul处的斜率ka和所述最佳采样点U2 处的斜率k b,以及最佳采样点Ul的数值与最佳采样点U2的数值的差异值Cleltau; 所述预测单元,其用于根据斜率ka、斜率kb和差异值Clelta uS行预测,生成语音拼 接点。 进一步,所述搜索单元中对第一语音片段和第二语音片段进行搜索采用的搜索方 式为双向搜索,第一语音片段采用从后向前的搜索方式,第二语音片段采用从前向后的搜 索方式。 进一步,实行所述双向搜索得出的候选采样点满足的条件为: 条件一,第一语音片段和第二语音片段在候选采样点斜率的绝对值之差小于设定 的阈值 Tk,即 abs(ka-kb)〈Tk; 条件二,第一语音片段和第二语音片段在候选采样点数值之差的绝对值小于可调 参数ratio与第一语音片段在候选采样点斜率的绝对值的乘积,即abs (Sa-Sb) <ratio*abs ( ka) 〇 进一步,筛选最佳采样点采用最小错误代价准则,最小错误代价为斜率差异代价 和数值差异代价的加权之和,即U i"= argmin (w ^Drati Jwi^Dval),其中,W1为最佳采样点U "'处 的斜率代价的加权权重,W2为最佳采样点U ?数值差异代价的加权权重,D rati。为最佳采样点 Ui处的斜率差异函数,D val为最佳采样点U #数值差异函数。 为了解决上述技术问题,本专利技术还提供一种用于语音合成的语音片段拼接方法, 包括以下步骤, 步骤1 :从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二 语音片段,并从所述第一语音片段和第二语音片段中选择出最佳采样点; 步骤2 :对最佳采样点进行一阶平滑,生成语音拼接点; 步骤3 :将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片 段。 进一步,所述步骤1具体为, 101 :从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二语 音片段; 102 :对所述第一语音片段和第二语音片段进行搜索得到至少两个候选采样点; 103 :从至少两个候选采样点中筛选出第一语音片段的最佳采样点Ul和第二语音 片段的最佳采样点U2。 进一步,所述步骤2具体为, 201 :计算所述最佳采样点Ul处的斜率ka和所述最佳采样点U2的斜率k b,以及最 佳采样点Ul的数值与最佳采样点U2的数值的差异值Cleltau; 202 :根据斜率ka、斜率kb和差异值deltas行预测,生成语音拼接点。 进一步,步骤102中所述对第一语音片段和第二语音片段进行搜索采用的搜索方 式为双向搜索,第一语音片段采用从后向前的搜索方式,第二语音片段采用从前向后的搜 索方式,实行所述双向搜索得出的候选采样点满足的条件为: 条件一,第一语音片段和第二语音片段在候选采样点斜率的绝对值之差小于设定 的阈值,即 abs (ka_kb) <Tk; 条件二,第一语音片段和第二语音片段在候选采样点数值之差的绝对值小于可调 参数ratio与第一语音片段在候选采样点斜率的绝对值的乘积,即abs (Sa-Sb) <ratio*abs ( ka) 〇 【专利附图】【附图说明】 图1为本专利技术一种用于语音合成的语音片段拼接系统模块结构示意图; 图2为本专利技术一种用于语音合成的语音片段拼接系统对语音片段进行双向搜索 方向示意图; 图3为本专利技术一种用于语音合成的语音片段拼接方法步骤流程图。 附图中,各标号所代表的部件列表如本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/21/201410734257.html" title="一种用于语音合成的语音片段拼接系统和方法原文来自X技术">用于语音合成的语音片段拼接系统和方法</a>

【技术保护点】
一种用于语音合成的语音片段拼接系统,其特征在于,包括语音库、采样点选择模块、语音拼接点生成模块和拼接模块;所述语音库,其用于存储录制并完成标注的语音片段;所述采样点选择模块,其用于从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二语音片段,并从所述第一语音片段和第二语音片段中选择出最佳采样点;所述语音拼接点生成模块,其用于对最佳采样点进行一阶平滑,生成语音拼接点;所述拼接模块,其用于将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片段。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘青松
申请(专利权)人:北京云知声信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1