一种目标语种检测的方法和装置制造方法及图纸

技术编号:22645742 阅读:36 留言:0更新日期:2019-11-26 17:06
本申请公开了一种目标语种检测的方法和装置,该方法包括:将待识别语音数据的语种特征切分为多个语种特征段;针对每个语种特征段,利用多语种分类模型获得每一帧的C维语种得分向量,将每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值组成向量α;比较每个向量α与全1向量β的相似度和相似度阈值,确定待识别语音数据是否包括目标语种。切分获得较短的语种特征段输入多语种分类模型,获得准确稳定的每一帧的C维语种得分向量,各帧目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值形成向量α,其与全1向量β的相似度和相似度阈值,衡量语种特征段是否包括目标语种。

A method and device of target language detection

The application discloses a method and device for detecting the target language, the method includes: dividing the language features of the speech data to be recognized into multiple language feature segments; for each language feature segment, using the multi language classification model to obtain the C-dimensional language score vector of each frame, and averaging the score difference between the target language and each other language in the C-dimensional language score vector of each frame The vector \u03b1 is composed of the median value of score difference or the minimum value of score difference; the similarity and similarity threshold between each vector \u03b1 and all 1 vector \u03b2 are compared to determine whether the speech data to be recognized includes the target language. The short language feature segment is input into the multi language classification model, and the accurate and stable c-dimension language score vector of each frame is obtained. The average, median or minimum score difference between the target language and other languages of each frame forms the vector \u03b1, and the similarity and similarity threshold of the whole 1 vector \u03b2 are measured to determine whether the language feature segment includes the target language.

【技术实现步骤摘要】
一种目标语种检测的方法和装置
本申请涉及语音数据处理
,尤其涉及一种目标语种检测的方法和装置。
技术介绍
随着智能识别技术的快速发展,语种识别技术越来越受到人们的关注。某些应用场景下,一段语音数据包括多个不同语种,即,多个不同语种混合在同一语音数据中;面对检测该语音数据是否包括目标语种的需求,语种识别技术的性能至关重要。目前,语种识别方法主要是基于全变量因子分析技术,具体地,提取待识别语音数据中反映语种信息的语种特征;通过前向-后向算法(Baum-Welch算法)按时序计算每帧待识别语音数据的语种特征在混合高斯模型每个高斯成分中的后验占有率;利用预先训练的全变量空间进行线性投影获得待识别语音数据的语种向量;基于该语种向量与各类语种的语种标准向量的相似度确定待识别语音数据的语种类别。但是,采用上述语种识别方法,当待识别语音数据包括多个不同语种时,获得的语种向量仅仅表征整个待识别语音数据的语种信息,仅基于该语种向量与各类语种的语种标准向量的相似度,识别整个待识别语音数据的类别,导致语种识别不准确、不稳定,从而无法准确稳定地检测待识别语音数据是否包括目标语种。
技术实现思路
本申请所要解决的技术问题是,提供一种目标语种检测的方法和装置,能够准确稳定地检测待识别语音数据是否包括目标语种。第一方面,本申请实施例提供了一种目标语种检测的方法,该方法包括:切分待识别语音数据的语种特征,获得多个语种特征段;将每个所述语种特征段输入多语种分类模型,获得每个所述语种特征段每一帧的C维语种得分向量;针对每个所述语种特征段,获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α,所述得分差统计值包括得分差平均值、得分差中位值或得分差最小值;基于每个所述向量α与全1向量β的相似度和相似度阈值,确定所述待识别语音数据是否包括所述目标语种。可选的,所述切分待识别语音数据的语种特征,获得多个语种特征段,具体为:基于预设窗长L和预设窗移S切分所述待识别语音数据的语种特征,获得多个L帧语种特征段,S<L。可选的,所述针对每个所述语种特征段,获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值组成向量α,包括:针对每个所述语种特征段,基于所述每一帧的C维语种得分向量中目标语种得分与各个其他语种得分,获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值;将所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值按照帧顺序组成所述向量α。可选的,所述基于每个所述向量α与全1向量β的相似度和相似度阈值,确定所述待识别语音数据是否包括所述目标语种,包括:若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值,确定所述待识别语音数据包括目标语种;若各个所述向量α与全1向量β的相似度均小于所述相似度阈值,确定所述待识别语音数据不包括目标语种。可选的,还包括:若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值,将所述至少一个所述向量α对应的语种特征段确定为目标语种特征段;基于所述目标语种特征段的切分信息,确定所述目标语种在所述待识别语音数据的位置。可选的,当待识别语音数据包括多个目标语种特征段,所述切分信息为切分起止边界时,所述基于所述目标语种特征段的切分信息,确定所述目标语种在所述待识别语音数据的位置,具体为:若多个所述目标语种特征段中至少两个所述目标语种特征段对应的切分起止边界重叠,基于多个所述目标语种特征段对应的切分起止边界,合并至少两个所述目标语种特征段对应的切分起止边界,确定所述目标语种在所述待识别语音数据的位置。可选的,所述多语种分类模型训练步骤,包括:基于C个不同语种的训练语音数据,获得每个所述训练语音数据的语种特征和对应的C维语种标签,C为正整数,C≥2,所述C维语种标签中每一维表示一个语种;基于每个所述训练语音数据的语种特征和对应的C维语种标签,训练循环神经网络获得多语种分类模型。可选的,所述基于每个所述训练语音数据的语种特征和对应的C维语种标签,训练循环神经网络获得多语种分类模型,包括:将每个所述训练语音数据的语种特征输入所述循环神经网络获得每个所述训练语音数据的语种特征每一帧的C维预测语种得分向量;针对每个所述训练语音数据的语种特征,将各帧的C维预测语种得分向量进行帧平均处理,获得每个所述训练语音数据的语种特征的C维预测语种标签;基于每个C维预测语种标签和对应的所述C维语种标签,获得所述循环神经网络的损失函数;基于所述循环神经网络的损失函数更新所述循环神经网络的网络参数,获得所述多语种分类模型。可选的,所述语种特征为瓶颈特征,所述瓶颈特征是通过瓶颈特征提取模型获得的;所述瓶颈特征提取模型是基于语音数据的底层声学特征和音素状态训练包括瓶颈层的深度神经网络获得的。第二方面,本申请实施例提供了一种目标语种检测的装置,该装置包括:语种特征段获得单元,用于切分待识别语音数据的语种特征,获得多个语种特征段;C维语种得分向量获得单元,用于将每个所述语种特征段输入多语种分类模型,获得每个所述语种特征段每一帧的C维语种得分向量;向量α获得单元,用于针对每个所述语种特征段,获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α,所述得分差统计值包括得分差平均值、得分差中位值或得分差最小值;目标语种确定单元,用于基于每个所述向量α与全1向量β的相似度和相似度阈值,确定所述待识别语音数据是否包括所述目标语种。可选的,所述语种特征段获得单元,具体用于:基于预设窗长L和预设窗移S切分所述待识别语音数据的语种特征,获得多个L帧语种特征段,S<L。可选的,所述向量α获得单元,包括:得分差获得子单元,用于针对每个所述语种特征段,基于所述每一帧的C维语种得分向量中目标语种得分与各个其他语种得分,获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值;向量α获得子单元,用于将所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值按照帧顺序组成所述向量α。可选的,所述目标语种确定单元,包括:第一确定子单元,用于若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值,确定所述待识别语音数据包括目标语种;第二确定子单元,用于若各个所述向量α与全1向量β的相似度均小于所述相似度阈值,确定所述待识别语音数据不包括目标语种。可选的,所述装置还包括:目标语种特征段确定单元,用于若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值,将所述至少一个所述向量α对应的语种特征段确定为目标语种特征段;目标语种位置确定单元,用于基于所述目标语种特征段的切分信息,确定所述目标语种在所述待识别语音数据的位本文档来自技高网...

【技术保护点】
1.一种目标语种检测的方法,其特征在于,包括:/n切分待识别语音数据的语种特征,获得多个语种特征段;/n将每个所述语种特征段输入多语种分类模型,获得每个所述语种特征段每一帧的C维语种得分向量;/n针对每个所述语种特征段,获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α,所述得分差统计值包括得分差平均值、得分差中位值或得分差最小值;/n基于每个所述向量α与全1向量β的相似度和相似度阈值,确定所述待识别语音数据是否包括所述目标语种。/n

【技术特征摘要】
1.一种目标语种检测的方法,其特征在于,包括:
切分待识别语音数据的语种特征,获得多个语种特征段;
将每个所述语种特征段输入多语种分类模型,获得每个所述语种特征段每一帧的C维语种得分向量;
针对每个所述语种特征段,获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α,所述得分差统计值包括得分差平均值、得分差中位值或得分差最小值;
基于每个所述向量α与全1向量β的相似度和相似度阈值,确定所述待识别语音数据是否包括所述目标语种。


2.根据权利要求1所述的方法,其特征在于,所述切分待识别语音数据的语种特征,获得多个语种特征段,具体为:
基于预设窗长L和预设窗移S切分所述待识别语音数据的语种特征,获得多个L帧语种特征段,S<L。


3.根据权利要求1所述的方法,其特征在于,所述针对每个所述语种特征段,获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值组成向量α,包括:
针对每个所述语种特征段,基于所述每一帧的C维语种得分向量中目标语种得分与各个其他语种得分,获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值;
将所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值按照帧顺序组成所述向量α。


4.根据权利要求1所述的方法,其特征在于,所述基于每个所述向量α与全1向量β的相似度和相似度阈值,确定所述待识别语音数据是否包括所述目标语种,包括:
若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值,确定所述待识别语音数据包括目标语种;
若各个所述向量α与全1向量β的相似度均小于所述相似度阈值,确定所述待识别语音数据不包括目标语种。


5.根据权利要求4所述的方法,其特征在于,还包括:
若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值,将所述至少一个所述向量α对应的语种特征段确定为目标语种特征段;
基于所述目标语种特征段的切分信息,确定所述目标语种在所述待识别语音数据的位置。


6.根据权利要求5所述的方法,其特征在于,当待识别语音数据包括多个目标语种特征段,所述切分信息为切分起止边界时,所述基于所述目标语种特征段的切分信息,确定所述目标语种在所述待识别语音数据...

【专利技术属性】
技术研发人员:阿里木·赛买提褚繁李晋方昕柳林卡哈尔·卡迪尔段雪明彭小露
申请(专利权)人:新疆科大讯飞信息科技有限责任公司
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1