语音质量评价方法和装置制造方法及图纸

技术编号:14893209 阅读:107 留言:0更新日期:2017-03-29 02:32
本申请提出一种语音质量评价方法和装置,该语音质量评价方法包括:接收待评价语音数据;提取所述待评价语音数据的评价特征;根据所述待评价语音数据的评价特征和已构建的语音质量评价模型,对所述待评价语音数据进行质量评价,其中,所述语音质量评价模型用于表明单端语音数据的评价特征与所述单端语音数据的质量信息之间的关系。该方法能够扩展语音质量评价的应用范围。

【技术实现步骤摘要】

本申请涉及通信
,尤其涉及一种语音质量评价方法和装置
技术介绍
随着技术的不断发展,通信在人们生活中的地位越来越重要,如采用通信网络进行语音数据的传输。语音质量是评价通信网络质量的一个重要因素。为了达到评价语音质量的目的,开发有效的语音质量评价算法是必须的。相关技术中,通信网络中的语音质量评价算法包括语音质量的感知评价(PerceptualEvaluationofSpeechQuality,PESQ)算法和感知客观语音质量评价(PerceptualObjectiveListeningQualityAnalysis,POLQA)算法。这些算法在实现时需要获取输入语音数据和输出语音数据,输入语音数据一般为干净语音数据,输出语音数据一般为经过通信网络后的退化语音数据,通过对输入语音数据和输出语音数据进行分析,对输出语音数据进行质量评价。输入语音数据一般是采用运营商的路测车采集的,但是,在小区楼层或商场等室内条件下,无法通过路测车进行采集,因此无法获取到输入语音数据,也就不能通过输入语音数据进行语音质量评价,使得上述基于输入语音数据和输出语音数据对输出语音数据进行语音质量评价的算法存在应用局限性。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种语音质量评价方法,该方法可以在对待评价语音数据进行语音质量评价时,不需要相应的输入语音数据,实现仅依赖单端语音数据的语音质量评价,从而扩展应用范围。本申请的另一个目的在于提出一种语音质量评价装置。为达到上述目的,本申请第一方面实施例提出的语音质量评价方法,包括:接收待评价语音数据;提取所述待评价语音数据的评价特征;根据所述待评价语音数据的评价特征和已构建的语音质量评价模型,对所述待评价语音数据进行质量评价,其中,所述语音质量评价模型用于表明单端语音数据的评价特征与所述单端语音数据的质量信息之间的关系。本申请第一方面实施例提出的语音质量评价方法,通过采用语音质量评价模型对待评价语音数据进行质量评价,可以在语音质量评价时仅需要单端语音数据,避免依赖双端语音数据造成的应用受限问题,从而扩展应用范围。为达到上述目的,本申请第二方面实施例提出的语音质量评价装置,包括:接收模块,用于接收待评价语音数据;提取模块,用于提取所述待评价语音数据的评价特征;评价模块,用于根据所述待评价语音数据的评价特征和已构建的语音质量评价模型,对所述待评价语音数据进行质量评价,其中,所述语音质量评价模型用于表明单端语音数据的评价特征与所述单端语音数据的质量信息之间的关系。本申请第二方面实施例提出的语音质量评价装置,通过采用语音质量评价模型对待评价语音数据进行质量评价,可以在语音质量评价时仅需要单端语音数据,避免依赖双端语音数据造成的应用受限问题,从而扩展应用范围。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本申请一个实施例提出的语音质量评价方法的流程示意图;图2是本申请另一个实施例提出的语音质量评价方法的流程示意图;图3是本申请一个实施例提出的语音质量评价装置的结构示意图;图4是本申请另一个实施例提出的语音质量评价装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。为了解决PESQ算法的问题以及更好的适应4G/LTE时代的语音质量评价需求,ITU-T于2006年开始了POLQA算法的开发工作,2011年初正式发布为ITU-TP.863标准。主要特点可以覆盖最新的语音编码和网络传输技术,在用于3G,4G/LTE,VoIP网络时具有更高的准确性支持超宽带(50Hz~14KHz)语音传输,高质量语音传输。因此,POLQA算法是目前评价通信网络的语音质量的通常被选择的算法。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。目前深度学习的应用领域主要包括:计算机视觉、语音识别的声学模型训练、机器翻译和语义挖掘等自然语言处理领域。由于深度学习是新出现的技术,依然在不断发展中,因此目前比较成功的应用领域仅如上所示的有限领域。依据专利技术人所知,在通信领域,特别是通信领域的语音质量评价并未应用。本申请的专利技术人作为通信领域的技术人员,在需要完成语音质量评价时,之前也通常采用POLQA算法,但是,专利技术人发现POLQA算法需要双端的语音数据,即在评价输出语音数据的语音质量时,不仅需要输出语音数据还需要输入语音数据,由于在一些情况下难以获取输入语音数据,就会使得POLQA算法的应用受限。为了避免应用受限问题,需要提出新的解决方案。专利技术人通过进一步分析发现,深度学习构建的模型具有优良的性能,因此可以将深度学习引入到语音质量评价算法中。进一步的,为了避免双端语音数据存在的应用局限性问题,在通过深度学习构建模型时,可以仅采用单端语音数据作为样本进行训练,从而在采用已构建的模型进行语音质量评价时,可以仅需要待评价语音数据这一单端语音数据。因此,本申请的主要思路是将深度学习引入到语音质量评价,特别是通信领域的语音质量评价中。将为通信领域的语音质量评价提供仅依赖单端语音数据的新的解决方案,并且在仅依赖单端语音数据时,采用深度学习方式构建模型,可以保证模型的优良性能,从而解决受限更少性能更优的语音质量评价的技术问题。进一步的,需要说明的是,虽然上述对本申请的主要思路进行了说明,但是,具体的技术方案不限于上述的主要思路,还可以与其他特征相互结合,这些不同技术特征之间的结合依然属于本申请的保护范围。进一步的,需要说明的是,虽然上述给出了主要解决的技术问题,但是,本申请并不限于仅能解决上述技术问题,应用本申请还可以解决的其他技术问题依然属于本申请的保护范围。进一步的,需要说明的是,虽然上述给出了本申请的主要思路,以及后续实施例会对一些特别点进行说明。但是,本申请的创新点并不限于上述的主要思路及特别点所涉及的内容,并不排除本申请中一些并未特殊说明的内容依然可能会包含本申请的创新点。可以理解的是,虽然上述进行了一些说明,但依然不排除其他可能方案,因此,与后续本申请给出的实施例相同、相似、等同等情况的技术方案依然属于本申请的保护范围。下面将结合具体实施例对本申请的技术方案进行说明。图1是本申请一个实施例提出的语音质量评价方法的流程示意图。如图1所示,本实施例的方法包括:S11:接收待评价语音数据。以通信领域为例,待评价语音数据可以具体是指通信网络的输出语音数据,即输入语音数据经过通信网络后的退化语音数据。输入语音数据一般是指干净语音数据或者称为原始语音数据,而退化语音数据一般是指相对于原始语音数据存在清楚度退化、本文档来自技高网...
语音质量评价方法和装置

【技术保护点】
一种语音质量评价方法,其特征在于,包括:接收待评价语音数据;提取所述待评价语音数据的评价特征;根据所述待评价语音数据的评价特征和已构建的语音质量评价模型,对所述待评价语音数据进行质量评价,其中,所述语音质量评价模型用于表明单端语音数据的评价特征与所述单端语音数据的质量信息之间的关系。

【技术特征摘要】
1.一种语音质量评价方法,其特征在于,包括:接收待评价语音数据;提取所述待评价语音数据的评价特征;根据所述待评价语音数据的评价特征和已构建的语音质量评价模型,对所述待评价语音数据进行质量评价,其中,所述语音质量评价模型用于表明单端语音数据的评价特征与所述单端语音数据的质量信息之间的关系。2.根据权利要求1所述的方法,其特征在于,所述待评价语音数据包括:经过通信网络后的退化语音数据。3.根据权利要求2所述的方法,其特征在于,还包括:构建语音质量评价模型,所述构建语音质量评价模型包括:获取语音数据,所述语音数据包括干净语音数据和退化语音数据;根据所述干净语音数据获取待处理的干净语音数据,以及,根据所述退化语音数据获取待处理的退化语音数据;根据待处理的干净语音数据和待处理的退化语音数据,计算待处理的退化语音数据的评价得分;提取待处理的退化语音数据的评价特征;根据所述待处理的退化语音数据的评价特征和所述待处理的退化语音数据的评价得分进行训练,构建语音质量评价模型。4.根据权利要求1或3所述的方法,其特征在于,所述语音质量评价模型是采用深度学习方式进行训练后构建的。5.根据权利要求4所述的方法,其特征在于,所述根据所述待处理的退化语音数据的评价特征和所述待处理的退化语音数据的评价得分进行训练,构建语音质量评价模型,包括:如果采用回归模型描述所述语音质量评价模型,则将所述待处理的退化语音数据的评价特征和所述待处理的退化语音数据的评价得分,分别作为模型输入和模型输出,训练模型参数,构建语音质量评价模型;或者,如果采用分类型描述所述语音质量评价模型,则将所述待处理的退化语音数据的评价特征作为模型输入,对所述待处理的退化语音数据的评价得分进行量化,得到评价类别,将评价得分类别作为模型输出,训练模型参数,构建语音质量评价模型。6.根据权利要求3所述的方法,其特征在于,所述根据所述干净语音数据获取待处理的干净语音数据,包括:将获取的干净语音数据直接作为待处理的干净语音数据;或者,提取获取的干净语音数据的有效语音段,将干净语音数据的有效语音段作为待处理的干净语音数据。7.根据权利要求3所述的方法,其特征在于,所述根据所述退化语音数据获取待处理的退化语音数据,包括:将获取的退化语音数据直接作为待处理的退化语音数据;或者,提取获取的退化语音数据的有效语音段,将退化语音数据的有效语音段作为待处理的退化语音数据;或者,对获取的退化语音数据进行聚类,将聚类中心对应的退化语音数据作为待处理的退化语音数据;或者,提取获取的退化语音数据的有效语音段,对退化语音数据的有效语音段进行聚类,将聚类中心对应的退化语音数据的有效语音段作为待处理的退化语音数据。8.一种语音质量评价装置,其特征在于,包括:接...

【专利技术属性】
技术研发人员:殷兵魏思胡国平程甦
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1