对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用制造方法及图纸

技术编号:13793168 阅读:48 留言:0更新日期:2016-10-06 05:58
本发明专利技术涉及数字娱乐点播系统领域,尤其涉及一种对比声纹相似度的方法及其在数字娱乐点播系统的应用。所述对比声纹相似度的方法,包括以下步骤:从标准干声中提取标准声纹;从采集的演唱干声中提取用户声纹;将用户声纹与标准声纹进行对比并计算模仿相似度;显示经过声纹对比后系统评估的评分结果。本发明专利技术的目的在于克服以上缺点,可以实现用户通过模仿一首歌曲,演唱过程能实时比对用户与标准声纹的相似度,给出实时的模仿相似情况,演唱结束,给出整体的模仿相似度的效果;同时,本发明专利技术还提供了上述对比声纹相似度的方法在数字娱乐点播系统的应用。

【技术实现步骤摘要】

本专利技术涉及数字娱乐点播系统领域,尤其涉及一种对比声纹相似度的方法及其在数字娱乐点播系统的应用。
技术介绍
现有的数字娱乐系统中的实时演唱评分方法,一般由音频采集模块实时采集演唱录音,通过音频分析技术计算用户演唱的音高、旋律、音长等演唱信息、并与歌曲标准演唱信息对比,确定演唱正确与否,并依此评分,给出演唱得分,显示在显示模块上。如中国专利公开号CN103077701A公布的一种音准评定方法,包括:在屏幕上展示歌曲的基准音高值与演唱游标;录制用户演唱该歌曲的实时音频,并计算该实时音频的实时音高值;判断该实时音频的实时音高值与基准音高值是否保持匹配,如果不是,则调整演唱游标与基准音高值的相对位置展示关系以向用户发出实时提醒。因此上述专利技术可提高演唱者音高与基准音高匹配的准确度。因此,在现有的演唱评分系统中,不论音高、旋律、音长等评分因素,都是针对用户演唱正确与否进行评分,而不能针对用户模仿歌曲标准的相似程度进行评分。
技术实现思路
本专利技术的目的之一在于克服以上缺点,提供一种对比声纹相似度的方法以及装置,可以实现用户通过模仿一首歌曲,演唱过程能实时比对用户与标准声纹的相似度,给出实时的模仿相似情况,演唱结束,给出整体的模仿相似度的效果。为了实现上述专利技术目的,根据本专利技术的一方面,提供了一种对比声纹相似度的方法,包括以下步骤:从标准干声中提取标准声纹;从采集的演唱干声中提取用户声纹;将用户声纹与标准声纹进行对比并计算模仿相似度。其中,所述标准干声可以包括:某一歌曲的原唱干声或者由测试者所指定的特定人员的演唱干声。优选地,该方法进一步包括:显示经过声纹对比后系统评估的模仿相似程度结果。优选地,所述的提取标准声纹或提取用户声纹,可进一步具体为:从标准干声或用户演唱干声中,计算出标准声纹特征矩阵或用户声纹特征矩阵。优选地,所述的标准声纹特征矩阵或用户声纹特征矩阵的一种计算方法如下:提取M条音频共振峰,所述M条共振峰组成一个共振峰特征矩阵AM×N,即特征矩阵A共有M行,每行有N个点,每个点对应一条共振峰上某个时刻点的值;设计一组权重值BM×1,每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大;计算标准声纹或用户声纹特征矩阵VM×N,其中Vij=Bi1×Aij;即,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。优选地,所述的标准声纹特征矩阵或用户声纹特征矩阵的另一种计算方法如下:预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理;加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;快速傅立叶变换(FFT):将时域信号变换成为信号的功率谱;三角窗滤波:用一组Mel频标上线性分布的预设数量的三角窗滤波器,对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;求对数:对三角窗滤波器组的输出求取对数;离散余弦变换(DCT):去除各维信号之间的相关性,将信号映射到低维空间,每一帧输出预设数量个数的DCT参数,为该帧(该时刻)的声纹特征。最终求得一个声纹特征矩阵,声纹特征矩阵的每行对应于按时间顺序的每一帧(每一个时刻),每列对应相应时刻的预设数量的DCT参数,即每个时刻的声纹特征。优选地,所述的将用户声纹与标准声纹进行对比并计算模仿相似度,步骤如下:用模式识别方法计算用户声纹特征矩阵和标准声纹特征矩阵的距离值;用归一化法将距离值归一化为相似度值。优选的,所述模式识别方法可为高斯混合模型GMM、动态时间规整DTW、隐马尔可夫模型HMM、矢量量化方法VQ、人工神经网络方法ANN或概率统计方法等。优选地,所述的归一化方法为线性映射、分段线性映射以及单调函数的方法。为了实现上述专利技术目的,根据本专利技术的另一方面,提供了一种对比声纹相似度的装置,
包括:标准声纹提取模块,用于从标准干声中提取标准声纹;用户声纹提取模块,用于从采集的演唱干声中提取用户声纹;声纹对比模块,用于将用户声纹与标准声纹进行对比并计算模仿相似度。优选地,所述的对比声纹相似度的装置,还包括:显示模块,用于显示经过声纹对比后系统评估的模仿相似程度结果。优选地,所述的标准声纹提取模块或用户声纹提取模块,可以采用以下结构,包括:音频共振峰提取单元,用于提取M条音频共振峰,所述M条共振峰组成一个共振峰特征矩阵AM×N,即特征矩阵A共有M行,每行有N个点,每个点对应一条共振峰上某刻时刻点的值;权重值设计单元,用于设计一组权重值BM×1,每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大;声纹特征矩阵计算单元,用于计算标准声纹或用户声纹特征矩阵VM×N,其中Vij=Bi1×Aij;即,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。优选地,所述的标准声纹提取模块或用户声纹提取模块,还可以采用以下结构,包括:预加重单元,用于通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;分帧单元,用于根据语音的短时平稳特性,语音可以以帧为单位进行处理;加窗单元,用于采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;快速傅立叶变换单元,用于将时域信号变换成为信号的功率谱;三角窗滤波单元,用于用一组Mel频标上线性分布的预设数量的三角窗滤波器,对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;求对数单元,用于对三角窗滤波器组的输出求取对数;离散余弦变换单元,用于去除各维信号之间的相关性,将信号映射到低维空间,每一帧输出预设数量个数的DCT参数,为该帧的声纹特征。声纹特征矩阵计算单元,用于最终求得一个声纹特征矩阵,声纹特征矩阵的每行对应于按时间顺序的每一帧,每列对应相应时刻的预设数量的DCT参数,即每个时刻的声纹特征。本专利技术的另一专利技术目的在于克服以上缺点,提供一种基于声纹对比的演唱评分方法和装置,可以实现用户通过模仿一首歌曲,演唱过程能实时比对用户与标准声纹的相似度,给出
实时的模仿相似情况,演唱结束,给出整体的模仿相似度的效果。为了实现上述专利技术目的,根据本专利技术的一方面,提供了一种基于声纹对比的演唱评分方法,其特征在于,包括以下步骤:从标准干声中提取标准声纹;从采集的演唱干声中提取用户声纹;将用户声纹与标准声纹进行对比并计算模仿相似度,所述模仿相似度做为评分结果。优选地,该方法进一步包括:显示经过声纹对比后系统评估的评分结果。优选地,所述的提取标准声纹或提取用户声纹,可进一步具体为:从标准音频或用户演唱干声中,计算出标准声纹特征矩阵或用户声纹特征矩阵。优选地,所述的标准声纹特征矩阵或用户声纹特征矩阵的一种计算方法如下:提取M条音频共振峰,所述M条共振峰组成一个共振峰特征矩阵AM×N,即特征矩阵A共有M行,每行有N个点,每个点对应一条共振峰上某个时刻点的值;设计一组权重值BM×1,每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大;计算标准声纹或用户声纹特征矩阵VM×N,其本文档来自技高网
...

【技术保护点】
一种基于声纹对比的演唱评分方法,其特征在于,包括以下步骤:从标准干声中提取标准声纹;从采集的演唱干声中提取用户声纹;将用户声纹与标准声纹进行对比并计算模仿相似度,所述模仿相似度做为评分结果。

【技术特征摘要】
1.一种基于声纹对比的演唱评分方法,其特征在于,包括以下步骤:从标准干声中提取标准声纹;从采集的演唱干声中提取用户声纹;将用户声纹与标准声纹进行对比并计算模仿相似度,所述模仿相似度做为评分结果。2.根据权利要求1所述的基于声纹对比的演唱评分方法,其特征在于,该方法进一步包括:显示经过声纹对比后系统评估的评分结果。3.根据权利要求1所述的基于声纹对比的演唱评分方法,其特征在于,所述的提取标准声纹或提取用户声纹具体为:从标准干声或演唱干声中,计算出标准声纹特征矩阵或用户声纹特征矩阵。4.根据权利要求3所述的基于声纹对比的演唱评分方法,其特征在于,所述的标准声纹特征矩阵或用户声纹特征矩阵的计算方法如下:提取M条音频共振峰,所述M条共振峰组成一个共振峰特征矩阵AM×N,即特征矩阵A共有M行,每行有N个点,每个点对应一条共振峰上某个时刻点的值;设计一组权重值BM×1,每个权重值按顺序表示每条共振峰在声纹特征中所占的比重,权重值大于等于0,小于无穷大;计算标准声纹或用户声纹特征矩阵VM×N,其中Vij=Bi1×Aij;即,声纹特征矩阵V中每个元素的值等于相应共振峰特征矩阵A的元素乘以所在共振峰对应的权重值B。5.根据权利要求3所述的对比声纹相似度的方法基于声纹对比的演唱评分方法,其特征在于,所述的将用户声纹与标准声纹进行对比并计算模仿相似度,步骤如下:用模式识别方法计算用户声纹特征矩阵和标准声纹特征矩阵的距离值;用归一化法将距离值归一化为相似度值。6.根据权利要求5所述的基于声纹对比的演唱评分方法,其特征在于,所述模式识别方法为高斯混合模型GMM、动态时间规整DTW、隐马尔可夫模型HMM、矢量量化方法VQ、人工神经网络方法ANN或概率统计方法。7.根据权利要求5所述的基于声纹对比的演唱评分方法,其特征在于,所述的归一化方法为线性映射、分段线性映射以及单调函数的方法。8.根据权利要求2所述的基于声纹对比的演唱评分方法,其特征在于,所述的显示经过声纹对比后系统评估的评分结果,具体为:显示演唱到当前为止,经过声纹对比后系统评估的模仿相似程度的示意图。9.根据权利要求8所述的基于声纹对比的演唱评分方法,其特征在于,所述的显示经过
\t声纹对比后系统评估的评分结果,还进一步包括:显示当前演唱内容的标准声纹的示意图;显示当前用户演唱声纹的示意图;将当前用户演唱声纹的示意图叠加在当前演唱内容的标准声纹的示意图之上进行显示。10.根据权利要求9所述的基于声纹对比的演唱评分方法,其特征在于,所述的显示当前演唱内容的标准声纹或当前用户演唱...

【专利技术属性】
技术研发人员:陈勇刘旺王子亮蔡智力林鎏娟
申请(专利权)人:福建星网视易信息系统有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1