语音特征提取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:25273976 阅读:33 留言:0更新日期:2020-08-14 23:06
本发明专利技术实施例提供一种语音特征提取方法、装置、电子设备和存储介质,其中方法包括:确定语音数据;将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。本发明专利技术实施例提供的方法、装置、电子设备和存储介质,对语音数据进行编码即可实现针对语音数据的隐层特征的深度挖掘和表达,对隐层特征进行非线性空间映射即可优化语音特征对于语音数据的拟合效果,且节省了大量计算,避免了由于人为降维带来的高维特征损失。

【技术实现步骤摘要】
语音特征提取方法、装置、电子设备和存储介质
本专利技术涉及智能语音
,尤其涉及一种语音特征提取方法、装置、电子设备和存储介质。
技术介绍
智能语音技术作为人工智能重要的组成部分,其应用通过标注大量的有监督数据,重新训练语音模型或者在原始语音模型上进行优化,其过程会消耗大量的人力和时间成本。特别地,在一些特殊行业,受限于行业的机密性,无法利用互联网平台进行大规模的标注工作。因此,无监督的语音特征提取方法应用而生。目前无监督的语音特征提取方法主要包括主成分分析方法和基于混合高斯模型的方法两种,上述两种方法的设置前提均是语音数据服从高斯分布,且在执行过程中仅需要进行人为降维,然而语音数据不一定符合高斯分布,且人为降维会无可避免地导致高维特征的损失,这些都导致语音特征的无监督提取偏离真实情况,影响后续语音识别、说话人识别、语种识别等应用的可靠性和准确性。
技术实现思路
本专利技术实施例提供一种语音特征提取方法、装置、电子设备和存储介质,用以解决现有的无监督语音特征提取的准确性和可靠性低的问题。第一方面,本专利技术实施例提供一种语音特征提取方法,包括:确定语音数据;将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。优选地,所述将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征,具体包括:将所述语音数据输入至所述语音特征提取模型的隐层特征提取层,得到所述隐层特征提取层输出的隐层特征;将所述隐层特征输入至所述语音特征提取模型的空间映射层,得到所述空间映射层输出的语音特征。优选地,所述语音特征提取模型是基于同一正向语音数据对中两个样本语音数据的样本语音特征之间的相关性,和/或不同正向语音数据对中样本语音数据的样本语音特征之间的差异性训练得到的;任一正向语音数据对中两个样本语音数据分别为原始语音数据和增强语音数据,所述增强语音数据是对所述原始语音数据进行数据增强得到的。优选地,所述语音特征提取模型的损失函数是基于每一样本语音数据的对内特征相似度和对间特征相似度确定的;其中,任一样本语音数据的对内特征相似度为所述任一样本语音数据的样本语音特征与所属正向语音数据对中另一样本语音数据的样本语音特征之间的相似度,所述任一样本语音数据的对间特征相似度为所述任一样本语音数据的样本语音特征与所属正向语音数据对之外的每一样本语音数据的样本语音特征之间的相似度。优选地,所述语音特征提取模型的损失函数是基于每一样本语音数据的单样本损失函数确定的;其中,任一样本语音数据的单样本损失函数是基于所述任一样本语音数据的对内特征得分与整体特征得分的比值确定的;所述任一样本语音数据的对内特征得分是基于所述任一样本语音数据的对内特征相似度确定的,所述任一样本语音数据的整体特征得分是基于所述任一样本语音数据的对内特征相似度和对间特征相似度确定的。优选地,所述将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征,之后还包括:对多个语音数据的语音特征进行聚类,得到聚类结果。优选地,所述语音特征为说话人特征、语种特征或发音音素特征。第二方面,本专利技术实施例提供一种语音特征提取装置,包括:语音确定单元,用于确定语音数据;特征提取单元,用于将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。第三方面,本专利技术实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑命令,以执行如第一方面所提供的方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。本专利技术实施例提供的一种语音特征提取方法、装置、电子设备和存储介质,通过无监督训练得到的语音特征提取模型对语音数据进行编码和非线性空间映射,从而实现语音特征的准确表征。在此过程中,对语音数据进行编码即可实现针对语音数据的隐层特征的深度挖掘和表达,对隐层特征进行非线性空间映射即可优化语音特征对于语音数据的拟合效果,且节省了大量计算,避免了由于人为降维带来的高维特征损失。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的语音特征提取方法的流程示意图;图2为本专利技术实施例提供的语音特征提取模型运行方法的流程示意图;图3为本专利技术实施例提供的语音特征提取模型训练方法的流程示意图;图4为本专利技术实施例提供的语音特征提取装置的结构示意图;图5为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。目前的智能语音技术尚无法同时适用于所有语种、口音或者领域,这无疑给智能语音技术的应用带来了很多限制。因此,需要通过大量的有监督数据重新训练语音模型或者在原始语音模型上进行优化,然而有监督数据的获取需要消耗大量的人力和时间成本,且一些特殊行业由于其本身机密性的影响,无法进行大规模的标注,因此无法通过有监督训练实现智能语音技术的应用。为了解决这一问题,无监督的语音特征提取方法应用而生。目前无监督的语音特征提取方法主要包括主成分分析方法和基于混合高斯模型的方法两种,其中主成分分析方法通过数据维度降低的方式,查找数据在低维空间的关联,并通过这一原理进行语音数据的表示,从而达到预设语音数据分布的目的。基于混合高斯模型的方法即使用多个高斯模型对数据分布进行表示,其中每个高斯模型均表示语音数据中一个维度的特征分布。然而无论是主成分分析方法,还是基于混合高斯模型的方法,均存在下述问题:其一是两种方法的设置前提均为语音数据服从高斯分布,当语音数据不服从高斯分布时,会造成无法避免的尺度偏移;其二是设定混合高斯模型数量的过程也可以看作是人为降维的过程,即两本文档来自技高网...

【技术保护点】
1.一种语音特征提取方法,其特征在于,包括:/n确定语音数据;/n将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;/n其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。/n

【技术特征摘要】
1.一种语音特征提取方法,其特征在于,包括:
确定语音数据;
将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征;
其中,所述语音特征提取模型是基于样本语音数据无监督训练得到的;所述语音提取模型用于将所述语音数据编码得到隐层特征,并将所述隐层特征进行非线性空间映射,得到所述语音特征。


2.根据权利要求1所述的语音特征提取方法,其特征在于,所述将所述语音数据输入至语音特征提取模型中,得到所述语音特征提取模型输出的语音特征,具体包括:
将所述语音数据输入至所述语音特征提取模型的隐层特征提取层,得到所述隐层特征提取层输出的所述隐层特征;
将所述隐层特征输入至所述语音特征提取模型的空间映射层,得到所述空间映射层输出的所述语音特征。


3.根据权利要求1所述的语音特征提取方法,其特征在于,所述语音特征提取模型是基于同一正向语音数据对中两个样本语音数据的样本语音特征之间的相关性,和/或不同正向语音数据对中样本语音数据的样本语音特征之间的差异性训练得到的;
任一正向语音数据对中两个样本语音数据分别为原始语音数据和增强语音数据,所述增强语音数据是对所述原始语音数据进行数据增强得到的。


4.根据权利要求3所述的语音特征提取方法,其特征在于,所述语音特征提取模型的损失函数是基于每一样本语音数据的对内特征相似度和对间特征相似度确定的;
其中,任一样本语音数据的对内特征相似度为所述任一样本语音数据的样本语音特征与所属正向语音数据对中另一样本语音数据的样本语音特征之间的相似度,所述任一样本语音数据的对间特征相似度为所述任一样本语音数据的样本语音特征与所属正向语音数据对之外的每一样本语音数据的样本语音特征之间的相似度。


5.根据...

【专利技术属性】
技术研发人员:杨帆方磊方四安
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1