音频质量综合评测方法及系统技术方案

技术编号：20007008 阅读：75 留言：0更新日期：2019-01-05 18:38

本发明专利技术公开了一种音频质量综合评测方法及系统，其中方法包括：接收待测音频数据；对所述待测音频数据进行语音识别，得到识别文本；分别从所述待测音频数据和所述识别文本获取质量评测特征，所述质量评测特征包括声学特征和语义特征；利用所述质量评测特征以及预先训练的音频质量评测模型，对所述待测音频数据进行评价，得到音频质量评测结果。本发明专利技术通过分析音频数据的声学及语义两个层面的信息，弥补了现有的评测方案标准单一的问题，在实际评测过程中不仅大大节省人工工作量，并且还具有较高的评价准确度，使得评价结果更为客观、全面。

Comprehensive Evaluation Method and System of Audio Quality

The invention discloses an audio quality comprehensive evaluation method and system, which includes: receiving the audio data to be tested; recognizing the audio data to be tested by speech recognition and obtaining the recognition text; obtaining the quality evaluation features from the audio data to be tested and the recognition text respectively, and the quality evaluation features include acoustic features and semantic features; and utilizing the quality evaluation features. The features and the pre-trained audio quality evaluation model are used to evaluate the audio data to be tested, and the audio quality evaluation results are obtained. By analyzing the acoustic and semantic information of audio data, the present method makes up for the single standard of the existing evaluation scheme. In the actual evaluation process, it not only saves manual work greatly, but also has high evaluation accuracy, making the evaluation result more objective and comprehensive.

全部详细技术资料下载

【技术实现步骤摘要】
音频质量综合评测方法及系统
本专利技术涉及自然语言理解及语音信号处理领域，尤其是一种音频质量综合评测方法及系统。
技术介绍
语音识别被广泛地应用在各种领域，如工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等。尤其是随着深度神经网络等新技术的应用以及硬件计算能力的飞速提升，语音识别的效率与效果都在逐年提升，因而在可预期的未来，语音识别必然会获得更加广泛的应用。音频作为语音识别系统的输入，其质量好坏直接影响到语音识别的正确率，同时音频质量对于语音识别模型训练也起到至关重要的作用，所以有必要对音频质量进行评测。但是音频资源浩如烟海，完全用人工进行评价不切实际，同时音频资源种类繁多，单一的评价特征往往不能得到全面可靠的评测结果。所以有必要提出一种音频质量的自动评测方法及系统，能够对大量、多类的音频实现高效的自动评测，得到可靠的评测结果。现有音频质量评测方法一般包含主观评测方法及客观评测方法两大类。主观评测方法需要人工听音频数据给出主观打分，所述人工一般为专家或专业人士，当音频时长较长或者音频较多时，人工评测的工作量较大，成本也较高，不具有实用性；客观评测方法并不...

【技术保护点】
1.一种音频质量综合评测方法，其特征在于，包括：接收待测音频数据；对所述待测音频数据进行语音识别，得到识别文本；分别从所述待测音频数据和所述识别文本获取质量评测特征，所述质量评测特征包括声学特征和语义特征；利用所述质量评测特征以及预先训练的音频质量评测模型，对所述待测音频数据进行评价，得到音频质量评测结果。

【技术特征摘要】
1.一种音频质量综合评测方法，其特征在于，包括：接收待测音频数据；对所述待测音频数据进行语音识别，得到识别文本；分别从所述待测音频数据和所述识别文本获取质量评测特征，所述质量评测特征包括声学特征和语义特征；利用所述质量评测特征以及预先训练的音频质量评测模型，对所述待测音频数据进行评价，得到音频质量评测结果。2.根据权利要求1所述的音频质量综合评测方法，其特征在于，所述分别从所述待测音频数据和所述识别文本获取质量评测特征包括：从所述待测音频数据中获取所述声学特征，所述声学特征包括：流畅度特征和/或完整性特征；从所述识别文本中获取语义特征，所述语义特征包括：语义置信度特征和/或语法准确性特征。3.根据权利要求2所述的音频质量综合评测方法，其特征在于，从所述待测音频数据中获取所述流畅度特征的方法为：根据所述待测音频数据的响度异常状态的占比，得到所述流畅度特征；从所述待测音频数据中获取所述完整性特征的方法为：根据所述待测音频数据中的异常静音的占比，得到所述完整性特征。4.根据权利要求3所述的音频质量综合评测方法，其特征在于，所述根据所述待测音频数据的响度异常状态的占比，得到所述流畅度特征具体包括：设置固定时长的抽样窗口；通过所述抽样窗口随机且重复截取所述待测音频数据的响度曲线；根据每个所述抽样窗口中的响度最大值和响度最低值，计算各所述抽样窗口中的响度差；将所述响度差大于或等于预设响度阈值的抽样窗口标记为异常窗口；将所述异常窗口的数量占比作为所述流畅度特征；所述根据所述待测音频数据中的异常静音的占比，得到所述完整性特征具体包括：获取所述待测音频数据中的各静音段的持续时长；将所述持续时长大于或等于预设时长阈值的静音段标记为异常静音段；将所有异常静音段的持续时长累加，得到异常静音总时长；将异常静音总时长的占比作为所述完整性特征。5.根据权利要求2所述的音频质量综合评测方法，其特征在于，从所述识别文本中获取所述语义置信度特征的方法为：根据所述识别文本的单词置信度计算语句置信度；根据语句置信度计算所述识别文本的语义置信度特征；从所述识别文本中获取所述语法准确性特征的方法为：对所述识别文本中的语句进行语法修正，确定语法异常语句；根据语法异常语句的占比，得到所述语法准确性特征。6.根据权利要求5所述的音频质量综合评测方法，其特征在于，从所述识别文本中获取所述语义置信度特征的方法具体为：以所述识别文本中的语句为单位，计算语句内各单词的单词置信度；将一个语句内的单词置信度的均值作为该语句的语句置信度；计算语句置信度的均值，得到所述识别文本的语义置信度特征；从所述识别文本中获取所述语法准确性特征的方法具体为：以所述识别文本中的语句为单位进行语法修正，得到各语句的字符串编辑距离；计算所述字符串编辑距离与相应语句的句子长度的比值；将所述比值大于或等于预设比值阈值的语句标记为语法异常语句；将所述语法异常语句的数量占比作为所述语法准确性特征。7.根据权利要求1～6任一项所述的音频质量综合评测方法，其特征在于，所述音频质量评测模型的训练方式包括：对所述音频质量评测模型的音频训练样本的音频质量，按预设的主观分级标准进行评测。8.一种音频质量综合评测系统，其特征在于，包括：接收模块，用于接收待测音频数据；识别模块，用于对所述待测音频数据进行语音识别，得到识别文本；评测特征获取模块，用于分别从所述待测音频数据和所述识别文本获取质...

【专利技术属性】
技术研发人员：郑抗，李兰影，胡尹，王金钖，
申请(专利权)人：安徽听见科技有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人