【技术实现步骤摘要】
语音质检的方法、装置、电子设备和存储介质
[0001]本专利技术涉及语音分析和处理领域,更具体地涉及一种语音质检的方法、装置、电子设备和存储介质。
技术介绍
[0002]近年来,伴随神经网络技术的进步,语音技术逐渐成熟,被应用到各行业。例如,由于神经网络基本依靠数据驱动,所以催生了众多数据公司。数据公司找专职人员录音后,需要对语音进行质检。依靠人力进行语音质检会浪费巨大的时间、精力、财力,依靠技术进行自动质检迫在眉睫。
[0003]目前语音质检技术通常通过标准文字对比来确定音频信号的准确性。具体地,首先,提取待质检的音频信号的单一声学特征;然后基于该声学特征确定音频信号相对于标准文字的正常发音之间的差异,进而确定质检结果。该质检结果的准确性难以保证。
[0004]所以,亟要一种新的语音质检的技术,可以解决上述问题。
技术实现思路
[0005]考虑到上述问题而提出了本专利技术。
[0006]根据本专利技术一个方面,提供了一种语音质检的方法。该方法包括:
[0007]获取待质检的音频信号;
[0008]提取所述音频信号的第一语音特征和第二语音特征,其中所述第二语音特征包括频谱信息;
[0009]对所述第一语音特征进行编码,以获得所述第一语音特征的时域表示;
[0010]对所述第二语音特征进行编码,以获得所述频谱信息的频域表示;
[0011]合并所述时域表示和所述频域表示,以作为编码输出数据;
[0012]将所述编码输出数据进行解码;< ...
【技术保护点】
【技术特征摘要】
1.一种语音质检的方法,其特征在于,包括:获取待质检的音频信号;提取所述音频信号的第一语音特征和第二语音特征,其中所述第二语音特征包括频谱信息;对所述第一语音特征进行编码,以获得所述第一语音特征的时域表示;对所述第二语音特征进行编码,以获得所述频谱信息的频域表示;合并所述时域表示和所述频域表示,以作为编码输出数据;将所述编码输出数据进行解码;基于解码结果,确定所述音频信号的分数。2.如权利要求1所述的方法,其中,所述将所述编码输出数据进行解码包括:将所述编码输出数据输入解码器,以利用所述解码器基于语音字典确定所述音频信号中的语音帧发音为所述语音字典中的每个字的概率,其中,所述语音字典中包括多组字,每组字包括分别与多个不同质量的语音对应的、同一字的不同变体;基于解码结果确定所述音频信号的分数包括:基于所确定的概率,确定所述音频信号中的语音帧所实际对应的字;基于所述音频信号中的语音帧所实际对应的字,确定语音帧所对应的分数;基于语音帧所对应的分数,确定所述音频信号的分数。3.如权利要求2所述的方法,其中,所述解码器包括并联的第一解码器和第二解码器,所述将所述编码输出数据输入解码器,以利用所述解码器基于所述语音字典确定所述音频信号中的语音帧发音为所述语音字典中的每个字的概率,包括:将所述编码输出数据输入所述第一解码器,以确定语音帧与所述语音字典中的每个字分别对应的第一概率;将所述编码输出数据输入所述第二解码器,以确定语音帧与所述语音字典中的每个字分别对应的第二概率;所述基于所确定的概率确定所述音频信号中的语音帧所实际对应的字包括:基于所述第一概率和所述第二概率确定所述音频信号中的语音帧所实际对应的字。4.如权利要求3所述的方法,其中,所述基于所述第一概率和所述第二概率确定所述音频信号中的语音帧所实际对应的字,包括:对于所述语音字典中的每个字,基于以下公式计算语音帧与该字对应的字概率P
w
,P
w
=a*P
ctc
+(1
‑
a)*P
att
其中,a表示语音帧与该字对应的第一概率的权重,P
ctc
表示语音帧与该字对应的第一概率,P
att
表示语音帧与该字对应的第二概率;比较所述语音字典中每个字的字概率,以确定最大的字概率所对应的字并将所确定的字作为与语音帧实际对应的字。5.如权利要求1至4任一项所述的方法,其中...
【专利技术属性】
技术研发人员:何梦中,李秀林,
申请(专利权)人:标贝北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。