基于声调核声学特征及深度神经网络的韵律边界检测方法技术

技术编号:14773131 阅读:29 留言:0更新日期:2017-03-09 11:07
本发明专利技术提供一种基于声调核声学特征及深度神经网络的韵律边界检测方法,所述方法包括:检测并获取音节声调核部分的声学特征;基于深度神经网络利用音节声调核部分的声学特征建立韵律边界建模对韵律边界进行检测。通过检测并获取音节声调核部分的声学特征和时长特征,并基于深度神经网络利用音节声调核部分的声学特征和时长特征建立韵律边界建模对韵律边界进行检测,能够有效提高韵律边界检测的正确率。

【技术实现步骤摘要】

本专利技术涉及声音检测
,特别是指一种基于声调核声学特征及深度神经网络的韵律边界检测方法
技术介绍
近年来,人们在进行言语交际的时候,除了字面的文字信息之外,话语韵律变化也是相互传递的一个重要信息。合理有效地组织话语韵律结构不仅有助于说话者更清楚地表达,而且听话者也能够更清楚、准确地理解说话人的意图。从语音学角度来看,韵律间断或韵律边界表示相邻音节的疏远程度。韵律边界通常是将一串语流切分成大小不同的韵律单元,如韵律词、韵律短语等。它不仅减轻人脑理解加工的负担,也方便机器处理。韵律边界在人类言语表达的自然度和可理解度方面扮演着非常重要的角色。近年来,由于韵律边界信息在语音合成、语音理解等领域起到重要的作用,越来越多的人关注韵律边界的自动检测。
技术实现思路
本专利技术要解决的技术问题是提供一种基于声调核声学特征及深度神经网络的韵律边界检测方法,能够提高韵律边界检测的准确率。为解决上述技术问题,本专利技术的实施例提供一种基于声调核声学特征及深度神经网络的韵律边界检测方法,所述基于声调核声学特征及深度神经网络的韵律边界检测方法包括:检测并获取音节中声调核声学特征;基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测。优选的,所述检测并获取音节中声调核声学特征,包括:提取声调核候选轨迹对应的韵律特征;从声调核候选轨迹中选择声调核声学特征。优选的,所述提取声调核候选轨迹对应的韵律特征,包括:使用分段K-means算法聚类声调核候选基频轨迹;当声调核候选基频轨迹符合候选基频斜率等均值假设时合并相邻的分段,得到分割后的基频曲线。优选的,所述从声调核候选轨迹中选择声调核声学特征,包括:对于分割后的基频曲线只有两段的,利用线性判别分析方法建立区分函数预测声调核的位置;对于分割后的基频曲线有三段的,当中间段大于50ms时,中间段为调核段;当中间段小于50ms时,将分割后的基频曲线的段数减少到两段,利用线性判别分析方法建立区分函数预测声调核的位置。优选的,所述基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测,包括:对应于所提取的声调核声学特征在给定观测向量o条件下,L-层的MLP用来对输出标签llabel的后验概率P(llabel|o)进行建模。优选的,所述对应于所提取的声调核声学特征在给定观测向量o条件下,L-层的MLP用来对输出标签llabel的后验概率P(llabel|o)进行建模,包括:第一层为原始特征输入层,2...L-1层为隐含层,每个隐含层在给定上一层输入向量vl对隐层节点hl的后验概率进行建模,最顶层L用softmax来计算所有标签的后验概率:Zl(vl)=(Wl)Tvl+al其中,Wl和al表示对于隐层l的权重矩阵和偏置向量,和分别表示第l层的第j个组件和它对应的激活函数值。优选的,所述声调核声学特征包括:音节调核部分音高特征和音节调核部分能量特征。优选的,所述音节调核部分音高特征包括:用f(x)=a+bx+cx2来拟合调核部分基频曲线,{a,b,c本文档来自技高网...
基于声调核声学特征及深度神经网络的韵律边界检测方法

【技术保护点】
一种基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述基于声调核声学特征及深度神经网络的韵律边界检测方法包括:检测并获取音节中声调核声学特征;基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测。

【技术特征摘要】
1.一种基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述基于声调核声学特征及深度神经网络的韵律边界检测方法包括:检测并获取音节中声调核声学特征;基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测。2.根据权利要求1所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述检测并获取音节中声调核声学特征,包括:提取声调核候选轨迹对应的韵律特征;从声调核候选轨迹中选择声调核声学特征。3.根据权利要求2所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述提取声调核候选轨迹对应的韵律特征,包括:使用分段K-means算法聚类声调核候选基频轨迹;当声调核候选基频轨迹符合候选基频斜率等均值假设时合并相邻的分段,得到分割后的基频曲线。4.根据权利要求3所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述从声调核候选轨迹中选择声调核声学特征,包括:对于分割后的基频曲线只有两段的,利用线性判别分析方法建立区分函数预测声调核的位置;对于分割后的基频曲线有三段的,当中间段大于50ms时,中间段为调核段;当中间段小于50ms时,将分割后的基频曲线的段数减少到两段,利用线性判别分析方法建立区分函数预测声调核的位置。5.根据权利要求4所述的基于声调核声学特征及深...

【专利技术属性】
技术研发人员:张劲松林举解焱陆
申请(专利权)人:北京语言大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1