音频质量评估方法、装置、电子设备及存储介质制造方法及图纸

技术编号:21249253 阅读:27 留言:0更新日期:2019-06-01 08:29
本发明专利技术提供一种音频质量评估方法、装置、电子设备及存储介质,其中,该方法包括:根据音频文件对应的每个语音段的有效语音时长以及每个语音段对应的语料文本,获取每个语音段对应的发音人的语速值;根据语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果;根据统计结果以及预设条件,获取音频文件的质量评估结果。本发明专利技术提供的方法根据发音人语速预设规则进行工程性的自动化分析,能够有效提高音频质量评估效率,且有效提高检测样本的覆盖率。

Audio quality assessment methods, devices, electronic devices and storage media

The invention provides an audio quality assessment method, device, electronic equipment and storage medium, in which the method includes: acquiring the speaker's speech speed corresponding to each speech segment according to the effective speech time of each speech segment corresponding to the audio file and the corpus text corresponding to each speech segment; integrating the speaker's speech speed value corresponding to the speech segment and preset rules. The quality evaluation results of audio files are obtained according to the statistical results and presupposed conditions. The method provided by the invention carries out engineering automatic analysis according to the preset rules of the speaker's speech speed, which can effectively improve the efficiency of audio quality evaluation and the coverage rate of test samples.

【技术实现步骤摘要】
音频质量评估方法、装置、电子设备及存储介质
本专利技术涉及计算机处理
,尤其涉及一种音频质量评估方法、装置、电子设备及存储介质。
技术介绍
长自由对话语料库在制作的过程中,需要对长音频文件中,各个发音人的每一语音段的起始时刻、结束时刻进行标注,同时还需标注与该语音段内语音对应的语料文本。在实际制作过程中,常常会出现各种各样的问题导致音频质量较低,例如:语音段内存在大段无效静音段的现象,严重时,语音段甚至完全不存在有效语音内容,又或者,某语音段标注的语料文本与其实际发生的音频内容不符,例如:相比于该语音段实际发生的音频内容,标注的语料文本存在明显缺失等等。因此,需要对长音频文件对应语音段的音频质量进行评估。现有技术中,采用人工抽查的方式对音频文件进行音频质量评估。具体表现为:抽查人员在音频文件对应的多个语音段进行抽样,对抽样的语音段进行二次听查,将语音段的语音内容与标注的语料文本进行对比,从而评估整个音频文件的音频质量。但是,采用上述方法需要人工进行,费时费力,导致音频质量评估效率较低,且人工抽查的方式是听查人在多个语音段中进行抽样,抽取的样本数量有限,导致检测样本的覆盖率较低。
技术实现思路
本专利技术提供一种音频质量评估方法、装置、电子设备及存储介质,以提高音频质量评估效率,且提高检测样本的覆盖率。第一方面,本专利技术提供一种音频质量评估方法,包括:根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本,获取每个所述语音段对应的发音人的语速值;根据所述语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果;根据所述统计结果以及预设条件,获取音频文件的质量评估结果。可选地,所述根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本,获取每个所述语音段对应的发音人的语速值之前,还包括:调用语音活动检测VAD工具对所述音频文件对应所有语音段进行检测,获取每个所述语音段的有效语音时长。可选地,所述语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果,包括:根据预设语速层级范围以及所述语音段对应的发音人的语速值,获取分组结果;根据预设聚合策略以及所述分组结果,获取聚合结果,所述聚合结果包括第一聚类集和第二聚类集,其中,第一聚类集中包含的语音段均为正常类型,所述第二聚类集中包含的语音段均为异常类型;根据所述第一聚类集中语音段的数量、所述第二聚类集中语音段的数量以及语音段的总数,获取所述统计结果。可选地,所述统计结果包括:正常类型语音段的数量、异常类型语音段的数量、正常类型语音段的数量与语音段的总数的比值以及异常类型语音段的数量与语音段的总数的比值中的一项或多项。可选地,若所述统计结果为正常类型语音段的数量与语音段的总数的比值;相应地,所述根据所述统计结果以及预设条件,获取音频质量评估结果,包括:若所述正常类型语音段的数量与语音段的总数的比值大于或等于第一预设阈值,确定所述音频文件的音频质量达标;若所述正常类型语音段的数量与语音段的总数的比值小于第一预设阈值,确定所述音频文件的音频质量不达标。可选地,若所述统计结果为异常类型语音段的数量与语音段的总数的比值;相应地,所述根据所述统计结果以及预设条件,获取音频质量评估结果,包括:若所述异常类型语音段的数量与语音段的总数的比值小于第二预设阈值,确定所述音频文件的音频质量达标;若所述异常类型语音段的数量与语音段的总数的比值大于或等于第二预设阈值,确定所述音频文件的音频质量不达标。可选地,所述根据预设语速层级范围以及所述语音段对应的发音人的语速值,获取分组结果之前,还包括:根据语言种类、所述发音人的语音习惯设置预设语速层级范围。第二方面,本专利技术提供一种音频质量评估装置,该装置包括:第一获取模块,用于根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本,获取每个所述语音段对应的发音人的语速值;统计分析模块,用于根据所述语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果;评估模块,用于根据所述统计结果以及预设条件,获取音频文件的质量评估结果。第三方面,本专利技术提供一种电子设备,该电子设备包括:存储器和处理器;所述存储器用于存储程序指令;所述程序指令在被所述处理器执行时,以执行第一方面所述的方法。第四方面,本专利技术提供一种可读存储介质,包括:程序;所述程序在被处理器执行时,以执行第一方面所述的方法。本专利技术提供一种音频质量评估方法、装置、电子设备及存储介质,其中,该方法包括:根据音频文件对应的每个语音段的有效语音时长以及每个语音段对应的语料文本,获取每个语音段对应的发音人的语速值;根据语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果;根据统计结果以及预设条件,获取音频文件的质量评估结果。本专利技术提供的方法根据发音人语速以及预设规则进行工程性的自动化分析,能够有效提高音频质量评估效率,且能够有效提高检测样本的覆盖率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的音频质量评估方法实施例一的流程示意图;图2为本专利技术提供的音频质量评估方法实施例二的流程示意图;图3为本专利技术提供的音频质量评估装置实施例一的结构示意图;图4为本专利技术提供的音频质量评估装置实施例二的结构示意图;图5为本专利技术提供的电子设备实施例一的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。专业术语释义:语料库:是以电子计算机为载体承载语言知识的基础资源,且语料库中存放的是在语言实际使用中真实出现过的语言材料。语音活动检测(VoiceActivityDetection,简称:VAD):又称为语音端点检测或语音边界检测,是指在噪声环境中检测语音的存在与否,通常用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。语速:文字或人类表达意义的语言符号在单位时间内所呈现的词汇速度。在不同语言文化中,同等语速下信息容量存在差异。由于在长自由对话语料库制作的过程中,常常由于音频切割等原因会导致语音段内存在大段无效静音段、甚至语音段内完全不存在有效语音内容或者,标注的语料文本与语音段内实际发生的音频内容不符等现象出现,从而使得音频文件质量存在缺陷。现有技术中,常采用人工抽查的方式对音频文件进行音频质量评估,但是,人工抽查的方式费时费力,导致效率较低,且人工抽查的方式是在多个语音段中随机进行抽样,通常抽取的样本数量有限,导致检测样本覆盖率较低。若抽取的样本数量较多,听查人员工作量较大,检测效率较低,若抽取的样本数量较少,则难以保证检测结果的准确度。另外,人工抽查的过程中本文档来自技高网...

【技术保护点】
1.一种音频质量评估方法,其特征在于,包括:根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本,获取每个所述语音段对应的发音人的语速值;根据所述语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果;根据所述统计结果以及预设条件,获取音频文件的质量评估结果。

【技术特征摘要】
1.一种音频质量评估方法,其特征在于,包括:根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本,获取每个所述语音段对应的发音人的语速值;根据所述语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果;根据所述统计结果以及预设条件,获取音频文件的质量评估结果。2.根据权利要求1所述的方法,其特征在于,所述根据音频文件对应的每个语音段的有效语音时长以及每个所述语音段对应的语料文本,获取每个所述语音段对应的发音人的语速值之前,还包括:调用语音活动检测VAD工具对所述音频文件对应所有语音段进行检测,获取每个所述语音段的有效语音时长。3.根据权利要求1所述的方法,其特征在于,所述语音段对应的发音人的语速值以及预设规则进行统计分析,获取统计结果,包括:根据预设语速层级范围以及所述语音段对应的发音人的语速值,获取分组结果;根据预设聚合策略以及所述分组结果,获取聚合结果,所述聚合结果包括第一聚类集和第二聚类集,其中,第一聚类集中包含的语音段均为正常类型,所述第二聚类集中包含的语音段均为异常类型;根据所述第一聚类集中语音段的数量、所述第二聚类集中语音段的数量以及语音段的总数,获取所述统计结果。4.根据权利要求1所述的方法,其特征在于,所述统计结果包括:正常类型语音段的数量、异常类型语音段的数量、正常类型语音段的数量与语音段的总数的比值以及异常类型语音段的数量与语音段的总数的比值中的一项或多项。5.根据权利要求4所述的方法,其特征在于,若所述统计结果为正常类型语音段的数量与语音段的总数的比值;相应地,所述根据所述统计结果以及预设条件,获取音频质...

【专利技术属性】
技术研发人员:刘永辉曹琼郝玉峰
申请(专利权)人:北京海天瑞声科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1