一种目标语种检测的方法和装置制造方法及图纸

技术编号：22645742 阅读：36 留言：0更新日期：2019-11-26 17:06

本申请公开了一种目标语种检测的方法和装置，该方法包括：将待识别语音数据的语种特征切分为多个语种特征段；针对每个语种特征段，利用多语种分类模型获得每一帧的C维语种得分向量，将每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值组成向量α；比较每个向量α与全1向量β的相似度和相似度阈值，确定待识别语音数据是否包括目标语种。切分获得较短的语种特征段输入多语种分类模型，获得准确稳定的每一帧的C维语种得分向量，各帧目标语种与各个其他语种的得分差平均值、得分差中位值或得分差最小值形成向量α，其与全1向量β的相似度和相似度阈值，衡量语种特征段是否包括目标语种。

A method and device of target language detection

The application discloses a method and device for detecting the target language, the method includes: dividing the language features of the speech data to be recognized into multiple language feature segments; for each language feature segment, using the multi language classification model to obtain the C-dimensional language score vector of each frame, and averaging the score difference between the target language and each other language in the C-dimensional language score vector of each frame The vector \u03b1 is composed of the median value of score difference or the minimum value of score difference; the similarity and similarity threshold between each vector \u03b1 and all 1 vector \u03b2 are compared to determine whether the speech data to be recognized includes the target language. The short language feature segment is input into the multi language classification model, and the accurate and stable c-dimension language score vector of each frame is obtained. The average, median or minimum score difference between the target language and other languages of each frame forms the vector \u03b1, and the similarity and similarity threshold of the whole 1 vector \u03b2 are measured to determine whether the language feature segment includes the target language.

全部详细技术资料下载

【技术实现步骤摘要】
一种目标语种检测的方法和装置
本申请涉及语音数据处理
，尤其涉及一种目标语种检测的方法和装置。
技术介绍
随着智能识别技术的快速发展，语种识别技术越来越受到人们的关注。某些应用场景下，一段语音数据包括多个不同语种，即，多个不同语种混合在同一语音数据中；面对检测该语音数据是否包括目标语种的需求，语种识别技术的性能至关重要。目前，语种识别方法主要是基于全变量因子分析技术，具体地，提取待识别语音数据中反映语种信息的语种特征；通过前向-后向算法(Baum-Welch算法)按时序计算每帧待识别语音数据的语种特征在混合高斯模型每个高斯成分中的后验占有率；利用预先训练的全变量空间进行线性投影获得待识别语音数据的语种向量；基于该语种向量与各类语种的语种标准向量的相似度确定待识别语音数据的语种类别。但是，采用上述语种识别方法，当待识别语音数据包括多个不同语种时，获得的语种向量仅仅表征整个待识别语音数据的语种信息，仅基于该语种向量与各类语种的语种标准向量的相似度，识别整个待识别语音数据的类别，导致语种识别不准确、不稳定，从而无法准确稳定地检测待识别语音数据是否包括目标语种。
技术实现思路
本申请所要解决的技术问题是，提供一种目标语种检测的方法和装置，能够准确稳定地检测待识别语音数据是否包括目标语种。第一方面，本申请实施例提供了一种目标语种检测的方法，该方法包括：切分待识别语音数据的语种特征，获得多个语种特征段；将每个所述语种特征段输入多语种分类模型，获得每个所述语种特征段...

【技术保护点】
1.一种目标语种检测的方法，其特征在于，包括：/n切分待识别语音数据的语种特征，获得多个语种特征段；/n将每个所述语种特征段输入多语种分类模型，获得每个所述语种特征段每一帧的C维语种得分向量；/n针对每个所述语种特征段，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α，所述得分差统计值包括得分差平均值、得分差中位值或得分差最小值；/n基于每个所述向量α与全1向量β的相似度和相似度阈值，确定所述待识别语音数据是否包括所述目标语种。/n

【技术特征摘要】
1.一种目标语种检测的方法，其特征在于，包括：
切分待识别语音数据的语种特征，获得多个语种特征段；
将每个所述语种特征段输入多语种分类模型，获得每个所述语种特征段每一帧的C维语种得分向量；
针对每个所述语种特征段，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值组成向量α，所述得分差统计值包括得分差平均值、得分差中位值或得分差最小值；
基于每个所述向量α与全1向量β的相似度和相似度阈值，确定所述待识别语音数据是否包括所述目标语种。

2.根据权利要求1所述的方法，其特征在于，所述切分待识别语音数据的语种特征，获得多个语种特征段，具体为：
基于预设窗长L和预设窗移S切分所述待识别语音数据的语种特征，获得多个L帧语种特征段，S＜L。

3.根据权利要求1所述的方法，其特征在于，所述针对每个所述语种特征段，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差平均值组成向量α，包括：
针对每个所述语种特征段，基于所述每一帧的C维语种得分向量中目标语种得分与各个其他语种得分，获得所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值；
将所述每一帧的C维语种得分向量中目标语种与各个其他语种的得分差统计值按照帧顺序组成所述向量α。

4.根据权利要求1所述的方法，其特征在于，所述基于每个所述向量α与全1向量β的相似度和相似度阈值，确定所述待识别语音数据是否包括所述目标语种，包括：
若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值，确定所述待识别语音数据包括目标语种；
若各个所述向量α与全1向量β的相似度均小于所述相似度阈值，确定所述待识别语音数据不包括目标语种。

5.根据权利要求4所述的方法，其特征在于，还包括：
若至少一个所述向量α与全1向量β的相似度大于等于所述相似度阈值，将所述至少一个所述向量α对应的语种特征段确定为目标语种特征段；
基于所述目标语种特征段的切分信息，确定所述目标语种在所述待识别语音数据的位置。

6.根据权利要求5所述的方法，其特征在于，当待识别语音数据包括多个目标语种特征段，所述切分信息为切分起止边界时，所述基于所述目标语种特征段的切分信息，确定所述目标语种在所述待识别语音数据...

【专利技术属性】
技术研发人员：阿里木·赛买提，褚繁，李晋，方昕，柳林，卡哈尔·卡迪尔，段雪明，彭小露，
申请(专利权)人：新疆科大讯飞信息科技有限责任公司，
类型：发明
国别省市：新疆;65

全部详细技术资料下载我是这个专利的主人