一种语音相似度检测方法及装置制造方法及图纸

技术编号:15793338 阅读:34 留言:0更新日期:2017-07-10 04:10
本发明专利技术公开了一种语音相似度检测方法,包括:采集语音的音频数据;从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。相应的,本发明专利技术还公开了一种语音相似度检测装置。采用本发明专利技术实施例,能够提高语音相似度检测的准确率。

【技术实现步骤摘要】
一种语音相似度检测方法及装置
本专利技术涉及计算机
,尤其涉及一种语音相似度检测方法及装置。
技术介绍
现有技术中,通常采用的语音相似度评分方法基本原理是对原始音频和输入音频数据分别进行频谱分析,得到语音的频谱特征,然后对两个频谱特征进行比较,从而得出两个语音相似度的分值。但是,这种方法存在着难以精确区分音调变化,对音量大小和不同人体的声带特色差异很敏感,模仿跟读的完整度对评分结果影响很大等缺点,从而导致语音相似度评分准确率低。
技术实现思路
本专利技术实施例提出一种语音相似度检测方法及装置,能够提高语音相似度检测的准确率。本专利技术实施例提供一种语音相似度检测方法,包括:采集语音的音频数据;从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。进一步地,所述音频特征参数还包括基音轨迹;其中,所述基音轨迹的提取方法具体包括:从所述音频数据中计算获取基音序列;从所述基音序列中获取候选拐点;将曲率值大于预设阈值的候选拐点作为拐点;获取所有相邻两个拐点的线段,并保存到折线序列中;计算所有相邻两个线段之间的夹角值,并保存到夹角序列中;将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。进一步地,所述频谱系数包括但不限于:梅尔倒频谱系数或倒傅里叶频谱系数;所述梅尔倒频谱系数的提取方法具体包括:将所述音频数据等比例划分为至少一个音频帧;对所述至少一个音频帧进行离散变换和滤波,获得至少一个自然对数;分别计算所述至少一个自然对数的离散预选变换,并去除变换后的第一个参数,将剩余的参数作为所述梅尔倒频谱系数。进一步地,所述声音强度的提取方法具体包括:将所述音频数据划分为N个音频帧;其中,N≥1;计算每个音频帧的平均声音强度;根据所述每个音频帧的平均声音强度,计算所述每个音频帧的声音强度。进一步地,所述平均声音强度的计算公式为其中,AveMag(n)为音频帧n的平均声音强度,M为音频帧n的采样点个数,Sn(m)为音频帧n中的采样点m的信号幅度值;所述声音强度的计算公式为其中,Mag(n)为音频帧n的声音强度,Min为所有音频帧中的最小平均声音强度,Max为所有音频帧中的最大平均声音强度。进一步地,在所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比之前,还包括:采用平移公式,对提取的所述基音轨迹进行线性平移;所述平移公式如下:其中,f′2(x)为所述语音平移后的基音轨迹,f2(x)为从所述语音中提取的基音轨迹,f1(k)为原始音频的基音轨迹,N为基音轨迹的长度。进一步地,所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度,具体包括:根据所述语音的音频特征参数和所述原始音频的音频特征参数,计算所述语音与所述原始音频之间的相关系数;根据所述相关系数,获取所述语音与所述原始音频之间的相似度。进一步地,所述相关系数包括但不限于:欧式距离、皮尔森相关系数或似然分数值;其中,所述欧式距离的计算公式如下:其中,D为语音与原始音频之间的欧氏距离,Amn为M×N的第一矩阵,Bmn为M×N的第二矩阵。进一步地,在所述从所述音频数据中提取音频特征参数之前,还包括:对所述语音的音频数据进行预处理;所述预处理包括预滤波、高通滤波、低通滤波、采样、量化、语音端点检测处理。进一步地,在所述获取所述语音与所述原始音频之间的相似度之后,还包括:根据所述语音与所述原始音频之间的相似度,计算所述语音的得分。进一步地,所述音频特征参数还包括文本语音匹配相关特征参数。相应地,本专利技术实施例还提供一种语音相似度检测装置,包括:采集模块,用于采集语音的音频数据;参数提取模块,用于从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;以及,对比模块,用于将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。实施本专利技术实施例,具有如下有益效果:本专利技术实施例提供的语音相似度检测方法及装置,能够从语音的音频数据中提取出频谱系数和声音强度两种音频特征参数,进而将提取的音频特征参数与原始音频的音频特征参数进行对比,获取语音与原始音频的相似度,克服了传统方法中对音量大小敏感、对人体声带特色敏感的缺点,加强对音调匹配度的考察,有效提高相似度检测的准确性;在提取基音轨迹后,对语音的基音轨迹进行线性平移后再与原始音频进行对比,减小由麦克风、人体声带特征等引起的差异问题,进一步提高相似度检测的准确性。附图说明图1是本专利技术提供的语音相似度检测方法的一个实施例的流程示意图;图2是本专利技术提供的语音相似度检测方法中基音轨迹的提取方法的一个实施例的流程示意图;图3是本专利技术提供的语音相似度检测方法中梅尔倒频谱系数的提取方法的一个实施例的流程示意图;图4是本专利技术提供的语音相似度检测装置的一个实施例的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,是本专利技术提供的语音相似度检测方法的一个实施例的流程示意图,包括:S1、采集语音的音频数据;S2、从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;S3、将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。需要说明的是,在对语音相似度进行检测时,采集待检测的语音的音频数据,从该音频数据中提取出频谱系数和声音强度两种音频特征参数。其中,频谱系数符合人对低频信号更敏感的听觉特征,而声音强度可以刻画语音中音量的大小,其为声波在单位时间内作用在与其传递方向垂直的单位面积上的能量。采用语音的这两种音频特征参数与原始音频的音频特征参数进行对比,可使该对比对音量大小、不同人体的声带特色不敏感,同时考虑到音调因素,更有效地评估待检测的语音与原始音频的相似度,以提高语音检测的准确率。进一步地,所述音频特征参数还包括基音轨迹;其中,所述基音轨迹的提取方法具体包括:从所述音频数据中计算获取基音序列;从所述基音序列中获取候选拐点;将曲率值大于预设阈值的候选拐点作为拐点;获取所有相邻两个拐点的线段,并保存到折线序列中;计算所有相邻两个线段之间的夹角值,并保存到夹角序列中;将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。更具体地,如图2所示,所述基音轨迹的提取方法具体包括:S21、从所述音频数据中计算获取能量过零率、自相关函数和线性预测系数的均方预测误差,并通过人工神经网络计算出基音序列;S22、根据曲线链码的差分码,从所述基音序列中获取候选拐点;S23、将曲率值大于预设阈值的候选拐点作为拐点,并保存所述拐点的位置值;S24、根据所有拐点的位置值获取所有相邻两个拐点的线段,并保存到折线序列中;S25、计算所有相邻两个线段之间的夹角值,并保存到夹角序列中;S26、将所述折线序列和所述夹角序列中的数据表征为所述基音本文档来自技高网...
一种语音相似度检测方法及装置

【技术保护点】
一种语音相似度检测方法,其特征在于,包括:采集语音的音频数据;从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。

【技术特征摘要】
1.一种语音相似度检测方法,其特征在于,包括:采集语音的音频数据;从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。2.如权利要求1所述的语音相似度检测方法,其特征在于,所述音频特征参数还包括基音轨迹;其中,所述基音轨迹的提取方法具体包括:从所述音频数据中计算获取基音序列;从所述基音序列中获取候选拐点;将曲率值大于预设阈值的候选拐点作为拐点;获取所有相邻两个拐点的线段,并保存到折线序列中;计算所有相邻两个线段之间的夹角值,并保存到夹角序列中;将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。3.如权利要求1所述的语音相似度检测方法,其特征在于,所述频谱系数包括但不限于:梅尔倒频谱系数或倒傅里叶频谱系数;所述梅尔倒频谱系数的提取方法具体包括:将所述音频数据等比例划分为至少一个音频帧;对所述至少一个音频帧进行离散变换和滤波,获得至少一个自然对数;分别计算所述至少一个自然对数的离散预选变换,并去除变换后的第一个参数,将剩余的参数作为所述梅尔倒频谱系数。4.如权利要求1所述的语音相似度检测方法,其特征在于,所述声音强度的提取方法具体包括:将所述音频数据划分为N个音频帧;其中,N≥1;计算每个音频帧的平均声音强度;根据所述每个音频帧的平均声音强度,计算所述每个音频帧的声音强度;其中,所述平均声音强度的计算公式为n=0,1,2,...,N-1,其中,AveMag(n)为音频帧n的平均声音强度,M为音频帧n的采样点个数,Sn(m)为音频帧n中的采样点m的信号幅度值;所述声音强度的计算公式为其中,Mag(n)为音频帧n的声音强度,Min为所有音频帧中的最小平均声音强度,Max为所有音频帧中的最大平均声音强度。5.如权利要求2所述的语音相似度检测方法,其特征在于,在所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比之前,还包括:采用平移公式,对提取的所述基音轨迹进...

【专利技术属性】
技术研发人员:赵志宏叶生
申请(专利权)人:广州孩教圈信息科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1