语音识别方法及装置制造方法及图纸

技术编号:15393061 阅读:209 留言:0更新日期:2017-05-19 05:37
本申请公开了一种语音识别方法,包括:利用预设的语音知识源,生成包含客户端预设信息的、用于对语音信号进行解码的搜索空间;提取待识别语音信号的特征矢量序列;计算特征矢量对应于搜索空间基本单元的概率;以所述概率为输入、在所述搜索空间中执行解码操作,得到与所述特征矢量序列对应的词序列。本申请同时提供一种语音识别装置,以及另一种语音识别方法及装置。采用本申请提供的方法,由于在生成用于解码的搜索空间时包含了客户端预设信息,因此在对客户端采集的语音信号进行识别时能够相对准确地识别出与客户端相关的信息,从而可以提高语音识别的准确率,提升用户的使用体验。

Speech recognition method and apparatus

The invention discloses a method of speech recognition, including: the use of phonetic knowledge source of presupposition, presupposition and generation including client information for decoding the search space of speech signal feature extraction; vector sequence for speech signal recognition; feature vector is computed correspond to the probability of the basic unit in the search space; the probability of input in the search decoding operation space, get the word sequence corresponding to the feature vector sequence. The present application also provides a speech recognition device and another speech recognition method and apparatus. The application provides a method for decoding, because the search space when generating the client contains preset information, so the recognition in speech signal acquisition of the client can relatively accurately identify the client related information, which can improve the speech recognition accuracy, improve the user experience.

【技术实现步骤摘要】
语音识别方法及装置
本申请涉及语音识别技术,具体涉及一种语音识别方法及装置。本申请同时涉及另一种语音识别方法及装置。
技术介绍
语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段,也是人类思维的一种依托。自动语音识别(AutomaticSpeechRecognition—ASR)通常是指让计算机等设备通过对语音的识别和理解,把人的口语转化为相应的输出文本或者命令的过程。其核心框架是:在利用统计模型建模的基础上,根据从待识别语音信号中提取的特征序列O,利用下述贝叶斯决策准则来求解与待识别语音信号对应的最佳词序列W*:W*=argmaxP(O|W)P(W)在具体实施中,上述求解最佳词序列的过程称为解码过程(实现解码功能的模块通常称为解码器),即:在由发音词典、语言模型等多种知识源组成的搜索空间中搜索出上式所示的最佳词序列。随着技术的发展,硬件的计算能力和存储容量有了很大的进步,语音识别系统已经逐步在业界得以应用,在客户端设备上也出现了各种用语音作为人机交互媒介的应用,例如智能手机上的拨打电话应用,用户只需发出语音指示(如:“给张三打电话”),即可自动实现电话拨打功能。目前的语音识别应用通常采用两种模式,一种是基于客户端和服务器的模式,即:客户端采集语音,经由网络上传至服务器,服务器通过解码将语音识别为文本,然后回传到客户端。之所以采用这样的模式,是因为客户端的计算能力相对较弱,其内存空间也比较有限,而服务器在这两方面都具有明显的优势;但是采用这种模式,如果没有网络接入环境,客户端则无法完成语音识别功能。针对上述问题出现了仅依赖于客户端的第二种语音识别应用模式,在该模式下,通过缩减规模,将原本存放在服务器上的模型和搜索空间放在客户端设备本地,由客户端自行完成采集语音以及解码的操作。在实际应用中,无论是第一种模式还是第二种模式,在采用上述通用框架进行语音识别时,通常无法有效识别语音信号中与客户端设备本地信息相关的内容,例如:通讯录中的联系人名称,从而导致识别准确率低,给用户的使用带来不便,影响用户的使用体验。
技术实现思路
本申请实施例提供一种语音识别方法和装置,以解决现有的语音识别技术对客户端本地相关信息的识别准确率低的问题。本申请实施例还提供另一种语音识别方法和装置。本申请提供一种语音识别方法,包括:利用预设的语音知识源,生成包含客户端预设信息的、用于对语音信号进行解码的搜索空间;提取待识别语音信号的特征矢量序列;计算特征矢量对应于搜索空间基本单元的概率;以所述概率为输入、在所述搜索空间中执行解码操作,得到与所述特征矢量序列对应的词序列。可选的,所述搜索空间包括:加权有限状态转换器。可选的,所述搜索空间基本单元包括:上下文相关的三音素;所述预设的知识源包括:发音词典、语言模型、以及三音素状态绑定列表。可选的,所述利用预设的语音知识源生成包含客户端预设信息的、用于对语音信号进行解码的搜索空间,包括:通过替换标签的方式,向预先生成的至少基于语言模型的加权有限状态转换器中添加与预设主题类别对应的客户端预设信息,并得到基于三音素状态绑定列表、发音词典以及语言模型的单一加权有限状态转换器;其中,所述语言模型是采用如下方式预先训练得到的:将用于训练语言模型的文本中的预设命名实体替换为与预设主题类别对应的标签,并利用所述文本训练语言模型。可选的,所述通过替换标签的方式,向预先生成的至少基于语言模型的加权有限状态转换器中添加与预设主题类别对应的客户端预设信息,并得到基于三音素状态绑定列表、发音词典以及语言模型的单一加权有限状态转换器,包括:通过替换标签的方式,向预先生成的基于语言模型的加权有限状态转换器中添加与预设主题类别对应的客户端预设信息;将添加了客户端预设信息的所述加权有限状态转换器、与预先生成的基于三音素状态绑定列表和发音词典的加权有限状态转换器进行合并,得到所述单一加权有限状态转换器。可选的,所述用于训练语言模型的文本是指,针对所述预设主题类别的文本。可选的,所述预设主题类别的数目至少为2个;所述语言模型的数目、以及所述至少基于语言模型的加权有限状态器的数目分别与预设主题类别的数目一致;所述通过替换标签的方式,向预先生成的至少基于语言模型的加权有限状态转换器中添加与预设主题类别对应的客户端预设信息,包括:确定待识别语音信号所属的预设主题类别;选择预先生成的、与所述预设主题类别相对应的所述至少基于语言模型的加权有限状态转换器;通过用与所述预设主题类别对应的客户端预设信息替换相应标签的方式,向所选的加权有限状态转换器中添加客户端预设信息。可选的,所述确定待识别语音信号所属的预设主题类别,采用如下方式实现:根据采集所述语音信号的客户端类型、或应用程序确定所述所属的预设主题类别。可选的,所述预设主题类别包括:拨打电话或发送短信,播放乐曲,或者,设置指令;相应的客户端预设信息包括:通讯录中的联系人名称,曲库中的乐曲名称,或者,指令集中的指令。可选的,所述合并操作包括:采用基于预测的方法进行合并。可选的,预先训练所述语言模型所采用的词表与所述发音词典包含的词一致。可选的,所述计算特征矢量对应于搜索空间基本单元的概率,包括:采用预先训练的DNN模型计算特征矢量对应于各三音素状态的概率;根据特征矢量对应于所述各三音素状态的概率,采用预先训练的HMM模型计算特征矢量对应于各三音素的概率。可选的,通过如下方式提升所述采用预先训练的DNN模型计算特征矢量对应于各三音素状态的概率的步骤的执行速度:利用硬件平台提供的数据并行处理能力。可选的,所述提取待识别语音信号的特征矢量序列,包括:按照预先设定的帧长度对待识别语音信号进行分帧处理,得到多个音频帧;提取各音频帧的特征矢量,得到所述特征矢量序列。可选的,所述提取各音频帧的特征矢量包括:提取MFCC特征、PLP特征、或者LPC特征。可选的,在所述得到与所述特征矢量序列对应的词序列后,执行下述操作:通过与所述客户端预设信息进行文字匹配验证所述词序列的准确性,并根据验证结果生成相应的语音识别结果。可选的,所述通过与所述客户端预设信息进行文字匹配验证所述词序列的准确性,并根据验证结果得到相应的语音识别结果,包括:从所述词序列中选择对应于所述客户端预设信息的待验证词;在所述客户端预设信息中查找所述待验证词;若找到,则判定通过所述准确性验证,并将所述词序列作为语音识别结果;否则通过基于拼音的模糊匹配方式修正所述词序列,并将修正后的词序列作为语音识别结果。可选的,所述通过基于拼音的模糊匹配方式修正所述词序列,包括:将所述待验证词转换为待验证拼音序列;将所述客户端预设信息中的各个词分别转换为比对拼音序列;依次计算所述待验证拼音序列与各比对拼音序列之间的相似度,并从所述客户端预设信息中选择按照所述相似度从高到低排序靠前的词;用所选词替换所述词序列中的待验证词,得到所述修正后的词序列。可选的,所述相似度包括:基于编辑距离计算的相似度。可选的,所述方法在客户端设备上实施;所述客户端设备包括:智能移动终端、智能音箱、或者机器人。相应的,本申请还提供一种语音识别装置,包括:搜索空间生成单元,用于利用预设的语音知识源,生成包含客户端预设信息的、用于对语音信号进行解码的搜索空间本文档来自技高网
...
语音识别方法及装置

【技术保护点】
一种语音识别方法,其特征在于,包括:利用预设的语音知识源,生成包含客户端预设信息的、用于对语音信号进行解码的搜索空间;提取待识别语音信号的特征矢量序列;计算特征矢量对应于搜索空间基本单元的概率;以所述概率为输入、在所述搜索空间中执行解码操作,得到与所述特征矢量序列对应的词序列。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:利用预设的语音知识源,生成包含客户端预设信息的、用于对语音信号进行解码的搜索空间;提取待识别语音信号的特征矢量序列;计算特征矢量对应于搜索空间基本单元的概率;以所述概率为输入、在所述搜索空间中执行解码操作,得到与所述特征矢量序列对应的词序列。2.根据权利要求1所述的语音识别方法,其特征在于,所述搜索空间包括:加权有限状态转换器。3.根据权利要求2所述的语音识别方法,其特征在于,所述搜索空间基本单元包括:上下文相关的三音素;所述预设的知识源包括:发音词典、语言模型、以及三音素状态绑定列表。4.根据权利要求3所述的语音识别方法,其特征在于,所述利用预设的语音知识源生成包含客户端预设信息的、用于对语音信号进行解码的搜索空间,包括:通过替换标签的方式,向预先生成的至少基于语言模型的加权有限状态转换器中添加与预设主题类别对应的客户端预设信息,并得到基于三音素状态绑定列表、发音词典以及语言模型的单一加权有限状态转换器;其中,所述语言模型是采用如下方式预先训练得到的:将用于训练语言模型的文本中的预设命名实体替换为与预设主题类别对应的标签,并利用所述文本训练语言模型。5.根据权利要求4所述的语音识别方法,其特征在于,所述通过替换标签的方式,向预先生成的至少基于语言模型的加权有限状态转换器中添加与预设主题类别对应的客户端预设信息,并得到基于三音素状态绑定列表、发音词典以及语言模型的单一加权有限状态转换器,包括:通过替换标签的方式,向预先生成的基于语言模型的加权有限状态转换器中添加与预设主题类别对应的客户端预设信息;将添加了客户端预设信息的所述加权有限状态转换器、与预先生成的基于三音素状态绑定列表和发音词典的加权有限状态转换器进行合并,得到所述单一加权有限状态转换器。6.根据权利要求4所述的语音识别方法,其特征在于,所述用于训练语言模型的文本是指,针对所述预设主题类别的文本。7.根据权利要求4所述的语音识别方法,其特征在于,所述预设主题类别的数目至少为2个;所述语言模型的数目、以及所述至少基于语言模型的加权有限状态器的数目分别与预设主题类别的数目一致;所述通过替换标签的方式,向预先生成的至少基于语言模型的加权有限状态转换器中添加与预设主题类别对应的客户端预设信息,包括:确定待识别语音信号所属的预设主题类别;选择预先生成的、与所述预设主题类别相对应的所述至少基于语言模型的加权有限状态转换器;通过用与所述预设主题类别对应的客户端预设信息替换相应标签的方式,向所选的加权有限状态转换器中添加客户端预设信息。8.根据权利要求7所述的语音识别方法,其特征在于,所述确定待识别语音信号所属的预设主题类别,采用如下方式实现:根据采集所述语音信号的客户端类型、或应用程序确定所述所属的预设主题类别。9.根据权利要求8所述的语音识别方法,其特征在于,所述预设主题类别包括:拨打电话或发送短信,播放乐曲,或者,设置指令;相应的客户端预设信息包括:通讯录中的联系人名称,曲库中的乐曲名称,或者,指令集中的指令。10.根据权利要求5所述的语音识别方法,其特征在于,所述合并操作包括:采用基于预测的方法进行合并。11.根据权利要求4所述的语音识别方法,其特征在于,预先训练所述语言模型所采用的词表与所述发音词典包含的词一致。12.根据权利要求3所述的语音识别方法,其特征在于,所述计算特征矢量对应于搜索空间基本单元的概率,包括:采用预先训练的DNN模型计算特征矢量对应于各三音素状态的概率;根据特征矢量对应于所述各三音素状态的概率,采用预先训练的HMM模型计算特征矢量对应于各三音素的概率。13.根据权利要求12所述的语音识别方法,其特征在于,通过如下方式提升所述采用预先训练的DNN模型计算特征矢量对应于各三音素状态的概率的步骤的执行速度:利用硬件平台提供的数据并行处理能力。14.根据权利要求1-13任一项所述的语音识别方法,其特征在于,所述提取待识别语音信号的特征矢量序列,包括:按照预先设定的帧长度对待识别语音信号进行分帧处理,得到多个音频帧;提取各音频帧的特征矢量,得到所述特征矢量序列。15.根据权利要求14所述的语音识别方法,其特征在于,所述提取各音频帧的特征矢量包括:提取MFCC特征、PLP特征、或者LPC特征。16.根据权利要求1-13任一项所述的语音识别方法,其特征在于,在所述得到与所述特征矢量序列对应的词序列后,执行下述操作:通过与所述客户端预设信息进行文字匹配验证所述词序列的准确性,并根据验证结果生成相应的语音识别结果。17.根据权利要求16所述的语音识别方法,其特征在于,所述通过与所述客户端预设信息进行文字匹配验证所述词序列的准确性,并根据验证结果得到相应的语音识别结果,包括:从所述词序列中选择对应于所述客户端预设信息的待验证词;在所述客户端预设信息中查找所述待验证词;若找到,则判定通过所述准确性验证,并将所述词序列作为语音识别结果;否则通过基于拼音的模糊匹配方式修正所述词序列,并将修正后的词序列作为语音识别结果。18.根据权利要求17所述的语音识别方法,其特征在于,所述通过基于拼音的模糊匹配方式修正所述词序列,包括:将所述待验证词转换为待验证拼音序列;将所述客户端预设信息中的各个词分别转换为比对拼音序列;依次计算所述待验证拼音序列与各比对拼音序列之间的相似度,并从所述客户端预设信息中选择按照所述相似度从高到低排序靠前的词;用所选词替换所述词序列中的待验证词,得到所述修正后的词序列。19.根据权利要求18所述的语音识别方法,其特征在于,所述相似度包括:基于编辑距离计算的相似度。20.根据权利要求1-13任一项所述的语音识别方法,其特征在于,所述方法在客户端设备上实施;所述客户端设备包括:智能移动终端、智能音箱、或者机器人。21.一种语音识别装置,其特征在于,包括:搜索空间生成单元,用于利用预设的语音知识源,生成包含客户端预设信息的、用于对语音信号进行解码的搜索空间;特征矢量提取单元,用于提取待识别语音信号的特征矢量序列;概率计算单元,用于计算特征矢量对应于搜索空间基本单元的概率;解码搜索单元,用于以所述概率为输入、在所述搜索空间中执行解码操作,得到与所述特征矢量序列对应的词序列。22.根据权利要求21所述的语音识别装置,其特征在于,所述搜索空间生成单元具体用于,通过替换标签的方式,向预先生成的至少基于语言模型的加权有限状态转换器中添加与预设主题类别对应的客户端预设信息,并得到基于三音素状态绑定列表、发音词典、以及语言模型的单一加权有限状态转换器;...

【专利技术属性】
技术研发人员:李晓辉李宏言
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1