【技术实现步骤摘要】
一种语种识别方法、装置、设备及存储介质
本申请涉及语种识别
,尤其涉及一种语种识别方法、装置、设备及存储介质。
技术介绍
语种识别是判断语音内容所属语言种类的过程。语种识别是语音识别类技术发展最为成熟、应用最为广泛的方向之一,同时也是语音识别的重要前期处理,对语音识别的性能有着重要的影响。目前主流的语种识别技术的思想是提取待识别语音的声学特征,将待识别语音的声学特征与预先建立的各语种类别的声学特征模型进行相似度比对,从而判断待识别语音的语种类别。该语种识别技术目前只能对单一语种的语音进行语种识别,对于包含多种语种的混合语种语音则无法准确识别其中的语种类别。
技术实现思路
基于上述现有技术的缺陷和不足,本申请提出一种语种识别方法、装置、设备及存储介质,能够实现对多语种语音的语种识别。一种语种识别方法,包括:获取待识别语音的每一语音单元的语音特征;根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别;根据所述每一语音单元的语种类别,确定所述待识别语音中包
【技术保护点】
1.一种语种识别方法,其特征在于,包括:/n获取待识别语音的每一语音单元的语音特征;/n根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别;/n根据所述每一语音单元的语种类别,确定所述待识别语音中包含的各个语种。/n
【技术特征摘要】
1.一种语种识别方法,其特征在于,包括:
获取待识别语音的每一语音单元的语音特征;
根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别;
根据所述每一语音单元的语种类别,确定所述待识别语音中包含的各个语种。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过将所述待识别语音中的语种类别相同的相邻语音单元进行合并,确定所述待识别语音中的各个语种片段。
3.根据权利要求1所述的方法,其特征在于,所述每一语音单元具体为每一语音帧;
所述获取待识别语音的每一语音单元的语音特征,包括:
分别提取待识别语音的每一语音帧的瓶颈特征,作为每一语音帧的语音特征。
4.根据权利要求3所述的方法,其特征在于,所述提取待识别语音的每一语音帧的瓶颈特征,包括:
对待识别语音进行预处理;其中,所述预处理包括格式转换处理、降噪增强处理和端点检测处理中的至少一种;
提取预处理后的待识别语音的每一语音帧的FilterBank特征;
分别将所述每一语音帧的FilterBank特征输入预先训练的瓶颈特征提取模型,得到所述每一语音帧的瓶颈特征;
其中,所述瓶颈特征提取模型至少通过由语音样本的FilterBank特征提取语音样本的瓶颈特征训练得到。
5.根据权利要求1所述的方法,其特征在于,所述根据所述每一语音单元的语音特征,识别所述每一语音单元的语种类别,包括:
将所述每一语音单元的语音特征输入预先训练的语种识别模型,确定所述每一语音单元的语种类别;
其中,所述语种识别模型至少通过根据语音单元样本的语音特征识别语音单元样本的语种类别训练得到,所述语种识别模型根据语音单元的语音特征确定语音单元的语种类别的具体过程为:
将语音单元的语音特征输入双向长短期记忆网络,得到该语音单元的高维空间特征;
将该语音单元的高维空间特征输入随机森林分类器,确定该语音单元的语种类别。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述待识别语音中的各个语种片段的时长,对所述待识别语音中的语种片段进行平滑处理。
7.根据权利要求6所述的方法,其特征在于,所述根据所述待识别语音中的各个语种片段的时长,对所述待识别语音中的语种片段进行平滑处理,包括:
分别确定与所述待识别语音中的各个语种片段对应的语音时长阈值,其中,属于相同语种类别的语种片段对应的语音时长阈值相同;
根据与待识别语音中的各个语种片段对应的语音时长阈值,从所述待识别语音中筛选出毛刺语种片段;其中,所述毛刺语种片段的时长满足预设的根据语种片段时长识别毛刺语种片段的条件;
通过对比所述毛刺语种片段的左右两侧相邻语种片段的语种类别,和/或对比所述毛刺语种片段和所述毛刺语种片段的左右两侧相邻语种片段的语音特征,确定所述毛刺语种片段的待修改语种类别;
将所述毛刺语种片段的语种类别修改为所述待修改语种类别。
8.根据权利要求7所述的方法,其特征在于,在从所述待识别语音中筛选出毛刺语种片段后,所述方法还包括:
将所述待识别语音中的相邻的毛刺语种片段合并为一个毛刺语种片段。
9.根据权利要求7所述的方法,其特征在于,所述分别确定与所述待识别语音中的各个语种片段对应的语音时长阈值,包括:
对应于...
【专利技术属性】
技术研发人员:何雪,方磊,方四安,吴明辉,杨帆,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。