The invention provides a speech recognition method, device, electronic equipment and readable storage medium, which includes: acquiring multiple voice frames divided by preset frame length of the corresponding voice files of the target person; generating the feature vectors of the voice frames for each voice frame; clustering the feature vectors of the voice frames to generate the feature center vectors; and according to the reference noise. The feature center vector of the voice frame determines the feature center vector containing voice information from the feature center vector of each voice frame, and generates the target voice feature center vector. The reference noise frame is the noise frame in the plurality of voice frames, and the target voice feature center vector is used to determine the identity information of the target person. It solves the problem of slow recognition caused by denoising and low accuracy of speech recognition caused by the inability to remove all noise. It can extract features directly, weaken the noise and improve the speed and accuracy of recognition.
【技术实现步骤摘要】
语音识别方法、装置、电子设备及可读存储介质
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别方法、装置、电子设备及可读存储介质。
技术介绍
随着语音识别技术的迅速发展,语音作为身份识别的有效手段逐渐成熟。现有技术中,专利申请CN107610707A提出了一种声纹识别方法、装置、电子设备及可读存储介质:首先,通过预处理对语音数据进行去噪,得到有效语音数据;然后,从有效语音数据中提取MFCC(Mel-frequencycepstralcoefficients,梅尔频率倒谱系数)声学特征,得到MFCC维度及语音分帧数的特征矩阵;最后,根据特征矩阵从预设特征矩阵集中确定语音数据的说话人。然而,去噪处理运算复杂度较大,导致语音识别速度较慢,且去噪处理具有针对性,无法保证去掉所有噪声,导致语音识别准确率较低。
技术实现思路
本专利技术提供一种语音识别方法、装置、电子设备及可读存储介质,以解决现有技术语音识别的上述问题。根据本专利技术的第一方面,提供了一种语音识别方法,所述方法包括:获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;对于各语音帧,生成所述语音帧的特征 ...
【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;对于各语音帧,生成所述语音帧的特征向量;对所述各语音帧的特征向量进行聚类,生成特征中心向量;根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。
【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取目标人物对应的语音文件按照预设帧长划分的多个语音帧;对于各语音帧,生成所述语音帧的特征向量;对所述各语音帧的特征向量进行聚类,生成特征中心向量;根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量,所述参考噪声帧为所述多个语音帧中的噪声帧,所述目标语音特征中心向量用于确定所述目标人物的身份信息。2.根据权利要求1所述的方法,其特征在于,还包括,根据所述目标语音特征中心向量确定所述目标人物的身份信息,所述根据所述目标语音特征中心向量确定所述目标人物的身份信息的步骤,包括:获取参考语音特征中心向量,所述参考语音特征中心向量对应预设参考人物;计算所述参考语音特征中心向量与所述目标语音特征中心向量的距离;若所述距离小于预设第一距离阈值,则所述目标人物为所述参考人物;若所述距离大于或等于预设第一距离阈值,则所述目标人物不为所述参考人物。3.根据权利要求1所述的方法,其特征在于,所述根据参考噪声帧的特征中心向量,从所述各语音帧的特征中心向量中确定包含语音信息的特征中心向量,并生成目标语音特征中心向量的步骤,包括:从所述各语音帧的特征中心向量中确定参考噪声帧的特征中心向量;计算所述参考噪声帧对应的特征中心向量与每个语音帧的特征中心向量的距离;若所述距离大于或等于预设第二距离阈值,则将所述语音帧的特征中心向量拼接至目标语音特征中心向量中。4.根据权利要求1所述的方法,其特征在于,所述生成所述语音帧的特征向量的步骤,包括:确定所述语音帧的梅尔频谱;根据所述语音帧的梅尔频谱生成所述语音帧的特征向量。5.根据权利要求4所述的方法,其特征在于,所述确定所述语音帧的梅尔频谱的步骤,包括:确定所述语音帧的功率谱;根据所述语音帧的功率谱,计算所述语音帧的梅尔频谱。6.根据权利要求5所述的方法,其特征在于,在根据所述语音帧的功率谱,计算所述语音帧的梅尔频谱的步骤之后,还包括:根据所述语音帧的功率谱,计算所述语音帧的离散余弦系数及梅尔频率倒谱系数;所述根据所述语音帧的梅尔频谱生成所述语音帧的特征向量的步骤,包括:将所述语音帧的梅尔频谱、离散余弦系数及梅尔频率倒谱系数拼接成为所述语音帧的特征向量。7.根据权利要求5所述的方法,其特征在于,所述确...
【专利技术属性】
技术研发人员:辛颖,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。