音频数据的处理方法、装置及计算机程序产品和存储介质制造方法及图纸

技术编号:21481377 阅读:23 留言:0更新日期:2019-06-29 05:41
本发明专利技术提供了一种音频数据的处理方法、装置,及计算机程序产品,涉及多媒体技术领域,其中,所述方法包括:响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;对所述梅尔倒频谱数据进行特征分析,得到自然度数值;根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音视数据的质量评估结果;输出所述质量评估结果。本发明专利技术是一种客观地对音频数据的质量进行评估的技术方案,评估结果具有客观准确性,避免了依赖多人组成的评估体系,提高了音频数据的质量评估的执行效率,而且,量化了音频数据的质量评估结果。

【技术实现步骤摘要】
音频数据的处理方法、装置及计算机程序产品和存储介质
本专利技术涉及多媒体
,特别是涉及一种音频数据的处理方法、装置及计算机程序产品和存储介质。
技术介绍
在语音合成领域中,常常需要对待合成的音频数据的质量进行评估。只有质量较高的音频数据才可以合成为清晰、无噪音的语音。目前,业界主流采用的是平均主观意见分(MeanOpinionScore,MOS),MOS是一种由多人进行主观评估,然后计算平均值的质量评估方法。由于MOS评估方法是一种很强的主观评估方法,并且依赖于多人组成评估体系,因此,该方法存在执行效率低、评估结果欠缺客观准确性的问题。
技术实现思路
本专利技术提供一种音频数据的处理方法、装置及计算机程序产品和存储介质,以解决现有的音频数据的质量评估方案执行效率低、评估结果欠缺客观准确性的问题。为了解决上述问题,本专利技术提供了一种音频数据的处理方法,包括:响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;对所述梅尔倒频谱数据进行特征分析,得到自然度数值;根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音视数据的质量评估结果;输出所述质量评估结果。可选地,所述对所述声谱数据进行数值分析,得到流畅度数值,包括:对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。可选地,所述利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,包括:根据计算得到所述流畅度数值;其中,R表示所述流畅度数值,f(i)表示所述声谱数据,表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和i均表示正整数,i大于1且小于n。可选地,所述对所述声谱数据进行数值分析,得到平稳度数值,包括:计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值。可选地,所述计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值,包括:根据计算得到所述短时平均幅度差数值;其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。可选地,所述计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值,包括:根据计算所述平稳度数值;其中,Rt表示所述平稳度数值,rt(k)表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。可选地,所述对所述梅尔倒频谱数据进行特征分析,得到自然度数值,包括:对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数;计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。可选地,所述对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数,包括:根据1≤m≤M计算所述梅尔倒频谱系数的特征参数;其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S(p)表示滤波器系统,p表示第p阶的滤波器系统,M表示滤波器阶数。可选地,所述计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值,包括:根据计算得到所述自然度数值;其中,C表示所述自然度数值,c(m)表示所述梅尔倒频谱系数的第m维特征参数,表示所述梅尔倒频谱系数的第m维特征参数的均值,m表示所述梅尔倒频谱系数的维度,M表示滤波器阶数。可选地,所述根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音频数据的质量评估结果,包括:对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的所述质量评估结果。本专利技术还提供了一种音频数据的处理装置,包括:数据获取模块,用于响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;数值分析模块,用于对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;特征分析模块,用于对所述梅尔倒频谱数据进行特征分析,得到自然度数值;结果获取模块,用于根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音频数据的质量评估结果;结果输出模块,用于输出所述质量评估结果。可选地,所述数值分析模块,包括:滤波模块,用于对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;流畅度数值确定模块,用于利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。可选地,所述流畅度数值确定模块,用于根据计算得到所述流畅度数值;其中,R表示所述流畅度数值,f(i)表示所述声谱数据,表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和i均表示正整数,i大于1且小于n。可选地,所述数值分析模块,包括:计算模块,用于计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;平稳度数值确定模块,用于计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值。可选地,所述计算模块,用于根据计算得到所述短时平均幅度差数值;其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。可选地,所述平稳度数值确定模块,用于根据计算所述平稳度数值;其中,Rt表示所述平稳度数值,rt(k)表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。可选地,所述特征分析模块,包括:特征参数确定模块,用于对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数;自然度数值确定模块,用于计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。可选地,所述特征参数确定模块,用于根据1≤m≤M计算所述梅尔倒频谱系数的特征参数;其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S本文档来自技高网...

【技术保护点】
1.一种音频数据的处理方法,其特征在于,包括:响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;对所述梅尔倒频谱数据进行特征分析,得到自然度数值;根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音视数据的质量评估结果;输出所述质量评估结果。

【技术特征摘要】
1.一种音频数据的处理方法,其特征在于,包括:响应于音频数据的评估请求,获取待评估的音频数据的声谱数据和梅尔倒频谱数据;对所述声谱数据进行数值分析,得到流畅度数值和平稳度数值;对所述梅尔倒频谱数据进行特征分析,得到自然度数值;根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音视数据的质量评估结果;输出所述质量评估结果。2.根据权利要求1所述的音频数据的处理方法,其特征在于,所述对所述声谱数据进行数值分析,得到流畅度数值,包括:对所述声谱数据进行滑动均值滤波操作,得到平滑波形数据;利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,所述时间步数为所述声谱数据的时间轴的无量纲表示方式。3.根据权利要求2所述的音频数据的处理方法,其特征在于,所述利用所述滑动均值滤波操作中相邻两个时间步数的所述平滑波形数据的差值和对应的相邻两个时间步数的所述声谱数据的差值,计算得到所述流畅度数值,包括:根据计算得到所述流畅度数值;其中,R表示所述流畅度数值,f(i)表示所述声谱数据,表示所述平滑波形数据,n表示所述时间步数的数量,i表示第i个所述时间步数,n和i均表示正整数,i大于1且小于n。4.根据权利要求1所述的音频数据的处理方法,其特征在于,所述对所述声谱数据进行数值分析,得到平稳度数值,包括:计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值;计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值。5.根据权利要求4所述的音频数据的处理方法,其特征在于,所述计算所述声谱数据经过加窗后的短时音频信号,与所述声谱数据利用预设的窗函数移动预设第一数量的短时窗口之后的短时音频信号之间的差值的绝对值,得到短时平均幅度差数值,包括:根据k=0,1,...,N-1计算得到所述短时平均幅度差数值;其中,rt(k)表示所述短时平均幅度差数值,x(t)表示所述声谱数据经过加窗后的短时音频信号,t表示第t个短时窗口,x(t+k)表示所述声谱数据利用所述窗函数移动第k个短时窗口后得到的短时音频信号,k表示所述预设第一数量,N表示所述短时窗口的总数量,t、k和N均表示正整数。6.根据权利要求4所述的音频数据的处理方法,其特征在于,所述计算预设第二数量的所述短时平均幅度差数值的平方和的平均数,得到所述平稳度数值,包括:根据计算所述平稳度数值;其中,Rt表示所述平稳度数值,rt(k)表示所述短时平均幅度差数值,k表示所述预设第一数量,N表示所述短时窗口的总数量,N-1表示所述预设第二数量,t、k和N均表示正整数。7.根据权利要求1所述的音频数据的处理方法,其特征在于,所述对所述梅尔倒频谱数据进行特征分析,得到自然度数值,包括:对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数;计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值。8.根据权利要求7所述的音频数据的处理方法,其特征在于,所述对所述梅尔倒频谱数据进行特征分析,得到梅尔倒频谱系数的特征参数,包括:根据1≤m≤M计算所述梅尔倒频谱系数的特征参数;其中,c(m)表示所述梅尔倒频谱系数的第m维特征参数,m表示所述梅尔倒频谱系数的维度,S(p)表示滤波器系统,p表示第p阶的滤波器系统,M表示滤波器阶数。9.根据权利要求7所述的音频数据的处理方法,其特征在于,所述计算所述梅尔倒频谱系数的特征参数和所述特征参数的均值的均方差,得到所述自然度数值,包括:根据计算得到所述自然度数值;其中,C表示所述自然度数值,c(m)表示所述梅尔倒频谱系数的第m维特征参数,表示所述梅尔倒频谱系数的第m维特征参数的均值,m表示所述梅尔倒频谱系数的维度,M表示滤波器阶数。10.根据权利要求1至9中任一项所述的音频数据的处理方法,其特征在于,所述根据所述流畅度数值、所述平稳度数值和所述自然度数值获取所述音频数据的质量评估结果,包括:对所述流畅度数值、所述平稳度数值和所述自然度数值进行加权处理,得到所述音频数据的所述质量评...

【专利技术属性】
技术研发人员:王锡磊甘文东
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1