语音识别方法、装置及电子设备制造方法及图纸

技术编号:22058729 阅读:38 留言:0更新日期:2019-09-07 16:35
本公开是关于一种语音识别方法、装置及电子设备,属于音频处理领域。所述方法包括:对语音数据进行特征提取,得到所述语音数据的语音特征;将所述语音特征输入声学模型,通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层,确定所述语音特征对应的音节数据,其中,所述声学模型用于将语音特征转化为音节数据;根据语言模型、发音词典以及所述音节数据,确定所述语音数据对应的文本数据,输出所述文本数据,其中,所述发音词典用于将音节数据转化为对应的文本数据,所述语言模型用于对转化得到的文本数据进行评估。采用本公开,可以提高语音识别的准确性。

Speech Recognition Method, Device and Electronic Equipment

【技术实现步骤摘要】
语音识别方法、装置及电子设备
本公开涉及音频处理领域,尤其涉及一种语音识别方法、装置及电子设备。
技术介绍
自动语音识别技术(AutomaticSpeechRecognition,ASR)是通过算法将人类的语音转化成相应文本的过程。随着互联网的兴起、电子商务的快速发展以及全球一体化的加剧,不同语言之间的碰撞越来越频繁,这导致人们在日常交流过程中不可避免会使用多语言混杂。在中国,日常用语中掺杂其它语种的语言进行表述已经是很常见的表述方式,例如,“我今天晚上要赶我的project,你不要等我回宿舍了”、“我不是很sure,也许有些term不好translate,或者要showoff自己的外语level”等。以外语为英语为例,目前的对中英混合的语音数据进行识别的语音识别系统,通常是将语音数据利用语种识别技术识别出哪段语音数据属于中文语种,哪段语音数据属于英文语种,然后将语音数据切分开,将中文语种的语音数据输入现有的中文语音识别系统,将英文语种的语音数据输入现有的英文语音识别系统,分别得到识别结果,然后将得到的识别结果拼接起来,得到中英混合的语音数据的识别结果。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:中英混合的语音数据中英文语种的语音较短,比如,语音数据为“你这件大衣好fashion啊”,其中英文语种的语音数据长度较短,导致语种识别的准确性较低,进而导致语音识别的准确性较低。
技术实现思路
本公开提供一种语音识别方法、装置及电子设备,可以解决语音识别的准确性较低的问题。根据本公开实施例的第一方面,提供一种语音识别方法,包括:对语音数据进行特征提取,得到所述语音数据的语音特征;将所述语音特征输入声学模型,通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层,确定所述语音特征对应的音节数据,其中,所述声学模型用于将语音特征转化为音节数据;根据语言模型、发音词典以及所述音节数据,确定所述语音数据对应的文本数据,输出所述文本数据,其中,所述发音词典用于将音节数据转化为对应的文本数据,所述语言模型用于对转化得到的文本数据进行评估。可选地,所述通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层,确定所述语音特征对应的音节数据,包括:将所述语音特征输入声学模型,通过所述声学模型的多个特征抽取层对所述语音特征进行抽取,得到中间语音特征;通过柔性最大值传输函数softmax确定所述中间语音特征对应于每个音节数据的概率,将最大概率对应的音节数据确定为所述语音特征对应的音节数据。可选地,所述将所述语音特征输入声学模型之前,还包括:获取至少一个样本数据,每个样本数据包括样本语音特征、所述样本语音特征对应的真值音节数据;将每个样本语音特征输入初始声学模型中,根据所述初始声学模型输出的预测音节数据与对应的真值音节数据,对初始声学模型进行训练,得到所述声学模型。可选地,所述获取至少一个样本数据,包括:获取第一语种的第一语音特征与第一文本数据的对应关系、第二语种的第二语音特征与第二文本数据的对应关系、以及第一文本子数据与第二文本数据的对应关系,其中,所述第一文本子数据为第一文本数据的部分数据;在每个第一文本数据中,随机选取多个第一文本子数据,根据所述第一文本子数据与第二文本数据的对应关系,确定每个第一文本子数据对应的第二文本数据;对于每个第一文本数据,采用第二文本数据替换对应的第一文本子数据,将得到的混合文本数据确定为样本文本数据;对于每个第一文本数据对应的第一语音特征,采用第二文本数据对应的第二语音特征替换对应的第一文本子数据对应的第一语音子特征,将得到的混合语音特征确定为样本语音特征;确定每个样本文本数据对应的真值音节数据,将每个样本文本数据对应的真值音节数据和样本文本数据对应的样本语音特征组成一个样本数据。可选地,所述根据语言模型、发音词典以及所述音节数据,确定所述语音数据对应的文本数据,包括:根据发音词典中的音节数据与文本数据的对应关系,确定所述音节数据对应的预设文本数据;根据语言模型确定每个预设文本数据的可能性概率,将可能性概率最大的预设文本数据确定为所述音节数据对应的文本数据。可选地,所述根据语言模型、发音词典以及所述音节数据,确定所述语音数据对应的文本数据之前,还包括:获取样本文本语料,所述样本文本语料包括第一语种的文本语料与第二语种的文本语料;根据预设分词算法对所述样本文本语料进行分词处理,得到多个样本词语;确定每个样本词语在所述样本文本语料中的出现概率,将每个样本词语与对应的出现概率存储到初始语言模型中,得到所述语言模型。可选地,所述获取样本文本语料,包括:获取第一语种的第一文本语料、第二语种的第二文本语料、以及第一文本语料与第二文本语料的对应关系;在每个第一文本语料中选取至少一个第一文本子语料,确定第一文本子语料与第二文本语料的对应关系;根据所述第一文本子语料与第二文本语料的对应关系,采用第一文本子语料对应的第二文本语料替换第一文本子语料,将得到的混合第一文本语料确定文样本文本语料。可选地,所述发音词典包括第一语种的发音词典和第二语种的发音词典。根据本公开实施例的第二方面,提供一种语音识别装置,包括:提取模块,用于对语音数据进行特征提取,得到所述语音数据的语音特征;确定模块,用于将所述语音特征输入声学模型,通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层,确定所述语音特征对应的音节数据,其中,所述声学模型用于将语音特征转化为音节数据;所述确定模块,还用于根据语言模型、发音词典以及所述音节数据,确定所述语音数据对应的文本数据,输出所述文本数据,其中,所述发音词典用于将音节数据转化为对应的文本数据,所述语言模型用于对转化得到的文本数据进行评估。可选地,所述确定模块,用于:将所述语音特征输入声学模型,通过所述声学模型的多个特征抽取层对所述语音特征进行抽取,得到中间语音特征;通过柔性最大值传输函数softmax确定所述中间语音特征对应于每个音节数据的概率,将最大概率对应的音节数据确定为所述语音特征对应的音节数据。可选地,所述装置还包括:获取模块,用于将所述语音特征输入声学模型之前,获取至少一个样本数据,每个样本数据包括样本语音特征、所述样本语音特征对应的真值音节数据;训练模块,用于将每个样本语音特征输入初始声学模型中,根据所述初始声学模型输出的预测音节数据与对应的真值音节数据,对初始声学模型进行训练,得到所述声学模型。可选地,所述获取模块,用于:获取第一语种的第一语音特征与第一文本数据的对应关系、第二语种的第二语音特征与第二文本数据的对应关系、以及第一文本子数据与第二文本数据的对应关系,其中,所述第一文本子数据为第一文本数据的部分数据;在每个第一文本数据中,随机选取多个第一文本子数据,根据所述第一文本子数据与第二文本数据的对应关系,确定每个第一文本子数据对应的第二文本数据;对于每个第一文本数据,采用第二文本数据替换对应的第一文本子数据,将得到的混合文本数据确定为样本文本数据;对于每个第一文本数据对应的第一语音特征,采用第二文本数据对应的第二语音特征替换对应的第一文本子数据对应的第一语音子特征,将得到的混合语音特征确定为样本语音特征;确定本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:对语音数据进行特征提取,得到所述语音数据的语音特征;将所述语音特征输入声学模型,通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层,确定所述语音特征对应的音节数据,其中,所述声学模型用于将语音特征转化为音节数据;根据语言模型、发音词典以及所述音节数据,确定所述语音数据对应的文本数据,输出所述文本数据,其中,所述发音词典用于将音节数据转化为对应的文本数据,所述语言模型用于对转化得到的文本数据进行评估。

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:对语音数据进行特征提取,得到所述语音数据的语音特征;将所述语音特征输入声学模型,通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层,确定所述语音特征对应的音节数据,其中,所述声学模型用于将语音特征转化为音节数据;根据语言模型、发音词典以及所述音节数据,确定所述语音数据对应的文本数据,输出所述文本数据,其中,所述发音词典用于将音节数据转化为对应的文本数据,所述语言模型用于对转化得到的文本数据进行评估。2.根据权利要求1所述的语音识别方法,其特征在于,所述通过所述声学模型包括的多个特征抽取层和柔性最大值传输函数softmax层,确定所述语音特征对应的音节数据,包括:通过所述声学模型的多个特征抽取层对所述语音特征进行抽取,得到中间语音特征;通过柔性最大值传输函数softmax确定所述中间语音特征对应于每个音节数据的概率,将最大概率对应的音节数据确定为所述语音特征对应的音节数据。3.根据权利要求1所述的语音识别方法,其特征在于,所述将所述语音特征输入声学模型之前,还包括:获取至少一个样本数据,每个样本数据包括样本语音特征、所述样本语音特征对应的真值音节数据;将每个样本语音特征输入初始声学模型中,根据所述初始声学模型输出的预测音节数据与对应的真值音节数据,对初始声学模型进行训练,得到所述声学模型。4.根据权利要求3所述的语音识别方法,其特征在于,所述获取至少一个样本数据,包括:获取第一语种的第一语音特征与第一文本数据的对应关系、第二语种的第二语音特征与第二文本数据的对应关系、以及第一文本子数据与第二文本数据的对应关系,其中,所述第一文本子数据为第一文本数据的部分数据;在每个第一文本数据中,随机选取多个第一文本子数据,根据所述第一文本子数据与第二文本数据的对应关系,确定每个第一文本子数据对应的第二文本数据;对于每个第一文本数据,采用第二文本数据替换对应的第一文本子数据,将得到的混合文本数据确定为样本文本数据;对于每个第一文本数据对应的第一语音特征,采用第二文本数据对应的第二语音特征替换对应的第一文本子数据对应的第一语音子特征,将得到的混合语音特征确定为样本语音特征;确定每个样本文本数据对应的真值音节数据,将每个样本文本数据对应的真值音节数据和样本文本数据对应的样本语音特征...

【专利技术属性】
技术研发人员:李杰王晓瑞李岩
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1