The invention provides a method for establishing an acoustic feature extraction model and a method and a device for extracting acoustic characteristics. The method includes to establish acoustic feature extraction model: the first acoustic features were extracted from the speech data of each user ID in the corresponding, as training data; using the training data to train the depth of the neural network, get the acoustic feature extraction model; wherein the depth of the neural network training objectives: the similarity between second acoustic features between the second acoustic features of the same user to maximize and minimize the similarity of different users. The acoustic feature extraction model of the invention can learn from itself the optimal acoustic characteristics of the training target. Compared with the existing acoustic features extraction methods of preset feature types and transformation modes, the method is more flexible and accurate.
【技术实现步骤摘要】
建立声学特征提取模型的方法、提取声学特征的方法、装置
本专利技术涉及计算机应用
,特别涉及一种建立声学特征提取模型的方法、提取声学特征的方法及对应装置。
技术介绍
随着人工智能的不断发展,语音交互已经成为最自然的交互方式之一得到日益推广,语音识别技术也越来越得到人们的重视。在语音识别技术中,声学特征的提取是核心技术,其可以用于用户识别、验证或分类等。现有声学特征提取方式,主要是依据预设的特征类型,对语音数据进行预设方式的变换后,从中提取对应类型的特征。这种声学特征提取方式很大程度上依靠特征类型的设置和变换方式的设置,准确性和灵活性较低。
技术实现思路
本专利技术提供了一种建立声学特征提取模型的方法、提取声学特征的方法、装置、设备和计算机存储介质,以便于提高所提取声学特征的准确性和灵活性。具体技术方案如下:本专利技术提供了一种建立声学特征提取模型的方法,该方法包括:将从各用户标识对应的语音数据中分别提取的第一声学特征,作为训练数据;利用所述训练数据训练深度神经网络,得到声学特征提取模型;其中所述深度神经网络的训练目标为:最大化相同用户的第二声学特征之间 ...
【技术保护点】
一种建立声学特征提取模型的方法,其特征在于,该方法包括:将从各用户标识对应的语音数据中分别提取的第一声学特征,作为训练数据;利用所述训练数据训练深度神经网络,得到声学特征提取模型;其中所述深度神经网络的训练目标为:最大化相同用户的第二声学特征之间的相似度且最小化不同用户的第二声学特征之间的相似度。
【技术特征摘要】
1.一种建立声学特征提取模型的方法,其特征在于,该方法包括:将从各用户标识对应的语音数据中分别提取的第一声学特征,作为训练数据;利用所述训练数据训练深度神经网络,得到声学特征提取模型;其中所述深度神经网络的训练目标为:最大化相同用户的第二声学特征之间的相似度且最小化不同用户的第二声学特征之间的相似度。2.根据权利要求1所述的方法,其特征在于,所述第一声学特征包括:FBank64声学特征。3.根据权利要求1所述的方法,其特征在于,所述深度神经网络包括:卷积神经网络CNN、残差卷积神经网络ResCNN或者门控递归单元GRU。4.根据权利要求1所述的方法,其特征在于,利用所述训练数据训练深度神经网络,得到声学特征提取模型包括:利用深度神经网络对各语音数据的第一声学特征进行学习,输出各语音数据的第二声学特征;利用所述各语音数据的第二声学特征计算三元组损失,利用所述三元组损失对所述深度神经网络进行调参,以最小化所述三元组损失;其中,所述三元组损失体现不同用户的第二声学特征之间的相似度与相同用户的第二声学特征之间的相似度的差值状况。5.根据权利要求4所述的方法,其特征在于,所述利用深度神经网络对各语音数据的第一声学特征进行学习,输出各语音数据的第二声学特征包括:利用深度神经网络对各语音数据的第一声学特征进行学习,输出帧级别的第二声学特征;对帧级别的第二声学特征进行池化和语句标准化处理,输出句子级别的第二声学特征;在计算三元组损失时利用的所述各语音数据的第二声学特征为各语音数据的句子级别的第二声学特征。6.一种提取声学特征的方法,其特征在于,该方法包括:提取待处理语音数据的第一声学特征;将所述第一声学特征输入声学特征提取模型,得到待处理语音数据的第二声学特征;其中所述声学特征提取模型是采用如权利要求1至5任一权利要求所述方法预先建立的。7.根据权利要求6所述的方法,其特征在于,该方法还包括:利用所述待处理语音数据的第二声学特征,注册所述待处理语音数据所对应用户标识的声纹模型;或者,将所述待处理语音数据的第二声学特征与已注册的各用户标识的声纹模型进行匹配,确定所述待处理语音数据对应的用户标识。8.一种建立声学特征提取模型的装置,其特征在于,该装置包括:数据获取单元,用于将从各用户标识对应的语音数据中分别提取的第一声学特征,作为训练数据;模型训练单元,用于利用所述训练数据训练深度神经网络,得到声学特征提取模型;其中所述深...
【专利技术属性】
技术研发人员:李超,马啸空,蒋兵,李先刚,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。