The invention provides an audio quality assessment method, device, electronic equipment and storage medium, in which the method includes: acquiring the speaker's speech speed corresponding to each speech segment according to the effective speech time of each speech segment corresponding to the audio file and the corpus text corresponding to each speech segment; integrating the speaker's speech speed value corresponding to the speech segment and preset rules. The quality evaluation results of audio files are obtained according to the statistical results and presupposed conditions. The method provided by the invention carries out engineering automatic analysis according to the preset rules of the speaker's speech speed, which can effectively improve the efficiency of audio quality evaluation and the coverage rate of test samples.
【技术实现步骤摘要】
音频质量评估方法、装置、电子设备及存储介质
本专利技术涉及计算机处理
,尤其涉及一种音频质量评估方法、装置、电子设备及存储介质。
技术介绍
长自由对话语料库在制作的过程中,需要对长音频文件中,各个发音人的每一语音段的起始时刻、结束时刻进行标注,同时还需标注与该语音段内语音对应的语料文本。在实际制作过程中,常常会出现各种各样的问题导致音频质量较低,例如:语音段内存在大段无效静音段的现象,严重时,语音段甚至完全不存在有效语音内容,又或者,某语音段标注的语料文本与其实际发生的音频内容不符,例如:相比于该语音段实际发生的音频内容,标注的语料文本存在明显缺失等等。因此,需要对长音频文件对应语音段的音频质量进行评估。现有技术中,采用人工抽查的方式对音频文件进行音频质量评估。具体表现为:抽查人员在音频文件对应的多个语音段进行抽样,对抽样的语音段进行二次听查,将语音段的语音内容与标注的语料文本进行对比,从而评估整个音频文件的音频质量。但是,采用上述方法需要人工进行,费时费力,导致音频质量评估效率较低,且人工抽查的方式是听查人在多个语音段中进行抽样,抽取的样本数量有限,导致检测样本的覆盖率较低。
技术实现思路
本专利技术提供一种音频质量评估方法、装置、电子设备及存储介质,以提高音频质量评估效率,且提高检测样本的覆盖率。第一方面,本专利技术提供一种音频质量评估方法,包括:根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本,获取每个所述语音段对应的发音人的语速值;根据所述语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果;根据所述统计结果 ...
【技术保护点】
1.一种音频质量评估方法,其特征在于,包括:根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本,获取每个所述语音段对应的发音人的语速值;根据所述语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果;根据所述统计结果以及预设条件,获取音频文件的质量评估结果。
【技术特征摘要】
1.一种音频质量评估方法,其特征在于,包括:根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本,获取每个所述语音段对应的发音人的语速值;根据所述语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果;根据所述统计结果以及预设条件,获取音频文件的质量评估结果。2.根据权利要求1所述的方法,其特征在于,所述根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本,获取每个所述语音段对应的发音人的语速值之前,还包括:调用语音活动检测VAD工具对所述音频文件对应所有语音段进行检测,获取每个所述语音段的有效语音时长。3.根据权利要求1所述的方法,其特征在于,所述语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果,包括:根据预设语速层级范围以及所述语音段对应的发音人的语速值,获取分组结果;根据预设聚合策略以及所述分组结果,获取聚合结果,所述聚合结果包括第一聚类集和第二聚类集,其中,第一聚类集中包含的语音段均为正常类型,所述第二聚类集中包含的语音段均为异常类型;根据所述第一聚类集中语音段的数量、所述第二聚类集中语音段的数量以及语音段的总数,获取所述统计结果。4.根据权利要求1所述的方法,其特征在于,所述统计结果包括:正常类型语音段的数量、异常类型语音段的数量、正常类型语音段的数量与语音段的总数的比值以及异常类型语音段的数量与语音段的总数的比值中的一项或多项。5.根据权利要求4所述的方法,其特征在于,若所述统计结果为正常类型语音段的数量与语音段的总数的比值;相应地,所述根据所述统计结果以及预设条件,获取音频质...
【专利技术属性】
技术研发人员:刘永辉,曹琼,郝玉峰,
申请(专利权)人:北京海天瑞声科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。