基于移动终端设备的离线语音识别方法以及实现方法技术

技术编号：10075927 阅读：369 留言：0更新日期：2014-05-24 07:08

本发明专利技术提供一种基于移动终端设备的离线语音识别方法，包括：获取语音信号并提取语音信号对应的语音特征向量；基于移动终端设备中预置的声学模型对语音特征向量进行匹配，获得语音特征向量相应的语言字符串；并基于移动终端设备中预置的语言模型和字典对语言字符串进行匹配，获得语音特征向量相应的匹配文本数据；计算语音特征向量在声学模型中的输出概率，并基于输出概率中最大的输出概率，获取对应语音特征向量相应的匹配文本数据，得到语音信号的最终识别结果。本发明专利技术利用移动终端设备中预置的声学模型、语言模型和字典实现针对特定领域的语音信号的匹配，将语音信号转化为文本数据，得到最终识别结果，最终实现离线语音识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及移动终端的语音识别领域，尤其是提供一种基于移动终端设备的离线语音识别方法及基于移动终端设备离线语音识别的实现方法。
技术介绍
基于移动终端的野外数据采集程序是指运行在移动智能设备（平板、智能手机、便携式电脑等）上，为野外调查工作提供计算机技术支持的嵌入式应用程序。为简化外业数据的采集方式，缩短数据采集周期，增强数据录入标准化程度以及数据录入、管理效率，目前存在着许多野外数据采集程序，在农业、林业、气象学、地质学、昆虫学、生态学等众多行业应用广泛。野外数据采集程序构建与应用研究开始于20世纪90年代，现在的野外采集系统一般都采用利用键盘输入的方式录入数据，但是智能手机的键盘比较小，人的手指头比较大，输入数据时经常出现按错键的情况，而且录入数据时双手都被占用，这样就导致录入数据的效率比较低，这样就影响了野外数据采集系统的进一步广泛应用。语音识别技术的应用，将会成为打破制约传统键盘输入数据效率低下的有力武器。语音识别技术是一门涉及信号处理、模式识别、概率论和信息论、发声听觉机理、人工智能等等的交叉学科，其目标是将人类语音中的词汇内容转换为计算机可读的输入，从而达到更自然地人机交互的目标。目前比较主流的语音识别软件都是基于互联网云端处理的技术，即客户端输入语音，服务器端语音识别，识别结果返回给客户端，这种技术的优点是能够利用服务器端的强大语音处理能力；节省了客户>端存储语言模型、声学模型以及字典的空间；可以识别大量通用词汇量语音，但是它不能识别出特定应用行业的生僻词汇，而且需要连网，在网络型号不好时不能保证处理速度，所以不适合在环境条件不是太好的野外使用的野外采集系统，因此需要一种基于离线的语音识别技术来支持野外采集系统显得极为重要和迫切。
技术实现思路
（一）要解决的技术问题本专利技术的目的是，提供一种基于移动终端设备的离线语音识别方法，从而实现在离线的情况下实现语音识别。（二）技术方案为解决上述技术问题，本专利技术提供一种基于移动终端设备的离线语音识别方法，包括：获取语音信号并提取所述语音信号对应的语音特征向量；基于所述移动终端设备中预置的声学模型对所述语音特征向量进行匹配，获得所述语音特征向量相应的语言字符串；并基于所述移动终端设备中预置的语言模型和字典对所述语言字符串进行匹配，获得所述语音特征向量相应的匹配文本数据；计算所述语音特征向量在所述声学模型中的输出概率，并基于所述输出概率中最大的输出概率，获取对应语音特征向量相应的匹配文本数据，得到所述语音信号的最终识别结果。其中，所述基于移动终端设备的语音识别方法还包括：对所述最终识别结果进行分词。具体的，对所述最终识别结果进行分词包括：S501、设置一个分词字典中最大词条包含的汉字数n；其中，所述最终识别结果对应的匹配文本数据为中文字符串；S502、取所述中文字符串序列中的前n个字符作为匹配字段，查找所述分词字典；若所述分词字典中存有与所述匹配字段对应的字词，则匹配成功，所述匹配字段作为一个词被切分出来，并被存入另一个字符串newString，且通过间隔符与其他词分开；若所述分词字典中找不到与所述匹配字段对应的一个字词，则匹配失败，进入步骤S503；S503、将n变成n-1，然后将步骤S502取出的用于匹配的匹配字段去掉最后一个汉字，作为新的匹配字段，查找所述分词字典，如果所述分词字典中存有与新匹配字段对应的字词，则匹配成功，所述新匹配字段作为一个词被切分出来，并被存入字符串newString中；如果匹配失败，则重复步骤S502-S503，至到所述新匹配字段被匹配成功为止；S504、重复步骤S503，直至所述中文字符串中所有带匹配字段的字符被匹配成功，完成对所述中文字符串的分词。其中，所述基于移动终端设备的语音识别方法还包括：将所述最终识别结果显示到界面二维表。具体的，将所述最终识别结果显示到界面二维表包括：S601、确定所述界面二维表需要采集的字段，并且把这些采集地字段存到字符串数组KeyWordString中；S602、把分词后的字符串，利用split函数以间隔符为标志分割成多个字段，存入字符串数组InputString中；S603、从字符串数组InputString中取出一个字段，与KeyWordString中的字段逐项比较，如果有匹配的，把该字段在数组InputString中对应的下标i存贮数组PointKeyWord中；如果不匹配，则不进行任何操作；其中，1=<i<=n，n为字符串数组InputString中字段的个数，i、n均为正整数；S604、从InputString中取出下一个字段，与keyWordString中的字段逐项进行比较，如果匹配成功，则把该字段在InputString中对应的下标i+1存入PointKeyWord中，把数组ValueString[i]设置为空，如果不匹配，则把ValueString[i]的值设置为该字段；S605、重复步骤S603和步骤S604，至到InputString中的所有字段都匹配完毕；S606、把匹配的结果以键值对的方式存贮Hashmap中，利用键值对的Key与二维表的表头进行比较，并将键值对中的value存入界面的二维表。具体的，所述基于移动终端设备的语音识别方法通过维比特算法对所述语音特征向量进行匹配。具体的，所述基于移动终端设备的语音识别方法通过NGram算法对所述语言字符串进行匹配。为解决上述技术问题，本专利技术还提供一种基于移动终端设备离线语音识别的实现方法，包括：采集项目词汇；基于所述项目词汇利用HMM模型训练声学模型数据和语言模型数据；基于完成训练的声学模型数据建立声学模型，基于完成训练的语言模型数据建立语言模型，并利用文本编辑器创建字典；将所述声学模型、语言模型和字典存贮在所述移动终端设备。其中，所述声学模型数据是基于分段K均值算法的HMM参数优化算法训练的。其中，所述语言模型数据是基于NGram算法训练的。（三）有益效果区别于
技术介绍
，本专利技术主要原理是将语音信号转化为文本数据，得到最终识别结果，其主要实现过程是利用移动终端设备中预置的声学模型、语言模型和字典实现针对特定领域的语音信号的匹配，最终实现离线语音识别。进一步的，本专利技术实现本文档来自技高网...

【技术保护点】
一种基于移动终端设备的离线语音识别方法，其特征在于，包括：获取语音信号并提取所述语音信号对应的语音特征向量；基于所述移动终端设备中预置的声学模型对所述语音特征向量进行匹配，获得所述语音特征向量相应的语言字符串；并基于所述移动终端设备中预置的语言模型和字典对所述语言字符串进行匹配，获得所述语音特征向量相应的匹配文本数据；计算所述语音特征向量在所述声学模型中的输出概率，并基于所述输出概率中最大的输出概率，获取对应语音特征向量相应的匹配文本数据，得到所述语音信号的最终识别结果。

【技术特征摘要】
1.一种基于移动终端设备的离线语音识别方法，其特征在于，包
括：
获取语音信号并提取所述语音信号对应的语音特征向量；
基于所述移动终端设备中预置的声学模型对所述语音特征向量进
行匹配，获得所述语音特征向量相应的语言字符串；并基于所述移动
终端设备中预置的语言模型和字典对所述语言字符串进行匹配，获得
所述语音特征向量相应的匹配文本数据；
计算所述语音特征向量在所述声学模型中的输出概率，并基于所
述输出概率中最大的输出概率，获取对应语音特征向量相应的匹配文
本数据，得到所述语音信号的最终识别结果。
2.根据权利要求1所述的离线语音识别方法，其特征在于，还包
括：对所述最终识别结果进行中文分词。
3.根据权利要求2所述的离线语音识别方法，其特征在于，对所
述最终识别结果进行分词包括：
S501、设置一个分词字典中最大词条包含的汉字数n；其中，所述
最终识别结果对应的匹配文本数据为中文字符串；
S502、取所述中文字符串序列中的前n个字符作为匹配字段，查
找所述分词字典；
若所述分词字典中存有与所述匹配字段对应的字词，则匹配成功，
所述匹配字段作为一个词被切分出来，并被存入另一个字符串
newString，且通过间隔符与其他词分开；
若所述分词字典中找不到与所述匹配字段对应的一个字词，则匹
配失败，进入步骤S503；
S503、将n变成n-1，然后将步骤S502取出的用于匹配的匹配字
段去掉最后一个汉字，作为新的匹配字段，查找所述分词字典，如果
所述分词字典中存有与新匹配字段对应的字词，则匹配成功，所述新

\t匹配字段作为一个词被切分出来，并被存入字符串newString中；
如果匹配失败，则重复步骤S503，至到所述新匹配字段被匹配成
功为止；
S504、重复步骤S502-S503，直至所述中文字符串中所有带匹配字
段的字符被匹配成功，完成对所述中文字符串的分词。
4.根据权利要求2所述的离线语音识别方法，其特征在于，还包
括：将所述最终识别结果显示到界面二维表。
5.根据权利要求4所述的离线语音识别方法，其特征在于，所述
将所述最终识别结果显示到界面二维表包括：
S601、确定所述界面二维表需要采集...

【专利技术属性】
技术研发人员：李林，徐礼奎，呼延正勇，方帅，张晓东，叶思菁，姚晓闯，刘哲，
申请(专利权)人：中国农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人