【技术实现步骤摘要】
一种基于ArcFace的语音识别方法及装置
本专利技术实施例涉及语音处理
,具体涉及一种基于ArcFace的语音识别方法及装置。
技术介绍
随着数字音频数据的爆炸式增长,通过语音识别技术,从而识别出说话人也逐渐受到越来越多的关注。目前在说话人识别中应用最为广泛的i-vector系统,其基于的GMM-UBM(混合高斯模型-背景模型模型)和GSV-SVM(高斯均值超向量-支持向量机模型)都是建立在统计模型理论上的,因此要求训练和测试语音必须达到一定的长度,否则识别准确性将大幅度下降。另一方面,虽然ArcFace在人脸识别领域得到了广泛的应用,但是,目前尚没有将ArcFace应用在语音识别领域的方法。因此,如何避免上述缺陷,基于ArcFace准确地对各种类型的语音(包括长语音和短语音)进行识别,成为亟须解决的问题。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供一种基于ArcFace的语音识别方法及装置。第一方面,本专利技术实施例提供一种基于ArcFace的语音识别方法,所述方法包括:获取待识别语音,并提取所述待识别语音的低层帧级特征;根据所述低层帧级特征 ...
【技术保护点】
1.一种基于ArcFace的语音识别方法,其特征在于,包括:获取待识别语音,并提取所述待识别语音的低层帧级特征;根据所述低层帧级特征,提取身份特征向量;从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。
【技术特征摘要】
1.一种基于ArcFace的语音识别方法,其特征在于,包括:获取待识别语音,并提取所述待识别语音的低层帧级特征;根据所述低层帧级特征,提取身份特征向量;从预设语音库中获取与所述身份特征向量相似的目标身份特征向量,所述预设语音库预先存储有预设身份特征向量与预设身份信息之间的对应关系;其中,所述对应关系是根据预先训练过的预设模型得到的;所述预设模型是通过基于ArcFace的算法表达式获取的预设损失函数进行训练的;根据所述对应关系,确定与所述目标身份特征向量对应的目标身份信息,并将所述目标身份信息作为所述待识别语音的识别结果。2.根据权利要求1所述的方法,其特征在于,所述预设损失函数包括最大边缘约束损失因子,所述最大边缘约束损失因子的表达式为:其中,Cmax_mar为所述最大边缘约束损失因子、N为分批训练的样本子集、y为样本类别、C为样本类别总数、t为预设阈值、fyi为大于所述预设阈值的表示样本向量所归属类的后验概率、δy为最大边界项惩罚函数。3.根据权利要求2所述的方法,其特征在于,所述δy的表达式为:其中,当j≠yi时,fj表示小于所述预设阈值的表示所述样本向量所归属其他类的后验概率。4.根据权利要求2或3所述的方法,其特征在于,所述预设损失函数的表达式为:L=L3+λCmax_mar其中,L为所述预设损失函数、L3为基于ArcFace的算法表达式、λ为权重系数,数值为0.1~10。5.根据权利要求1所述的方法,其特征在于,所述根据所述低层帧级特...
【专利技术属性】
技术研发人员:李鹏,吉瑞芳,蔡新元,
申请(专利权)人:北京中科智加科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。