当前位置: 首页 > 专利查询>同济大学专利>正文

语音识别装置、模型训练方法、及交通信息服务平台制造方法及图纸

技术编号:3044377 阅读:238 留言:0更新日期:2012-04-11 18:40
本发明专利技术揭示了一种语音识别装置,包括数据采集管理模块、语音识别模块、模型训练模块,数据采集管理模块、模型训练模块分别与语音识别模块连接;模型训练模块用于产生可供识别器识别的HMM模型,其包括训练配置信息单元、语音编码转换单元、训练过程控制单元、训练强度控制单元;数据采集管理模块包括录制单元、数据存储整理单元;语音识别模块包括数据预处理单元、语音回放单元、识别单元。由于本发明专利技术不但提供语音识别模块,还提供了配套的数据采集管理模块和模型训练模块,因此可方便地根据不同城市的交通路名情况配置相应识别装置,达到通行性的效果。在训练数据充足的情况下,使用本发明专利技术训练过程得到的HMM模型识别正确率也将得到保证。

【技术实现步骤摘要】

本专利技术属于语音信号处理
,涉及一种智能交通信息服务应用系统,尤其涉及一 种语音识别装置,此外,本专利技术还涉及一种上述语音识别装置的模型训练方法,同时还涉及 使用上述语音识别装置的交通智能信息服务平台。
技术介绍
智能交通信息服务应用领域中,手机、PDA等信息服务手持终端由于环境、使用者自身素 质等条件限制,使得人机信息交互及为不便,于是通过语音识别完成客户端向服务器端信息 输入成为了交通信息服务应用的重要功能之一。语音识别当前的应用焦点集中在大词汇量非特定人连续语音识别上。 一般来说,较为可 靠的音识别系统都只能应用在小词汇量(< 1000)范围内, 一但词汇条目数量增加,语音识 别的正确率和正确速度都将有明显下降。随着语音技术的发展和成熟,语音识别的词汇量, 正确率已有了明显提高。以语音合成、语音识别、语音编解码为代表的智能语音技术正逐渐 开始向其他应用领域渗透,特别的,在交通信息服务应用领域中,用户通过语音完成人机信 息交流方式,大大简化了原本复杂的操作过程,使得交通信息服务更具人性化魅力和个性化 特色。该技术已引起国内外计算机、消费电子业界的广泛关注,尤其在美国、欧洲、日本等 工业发达国家,都在不断加大研究和产业化的力度。
技术实现思路
本专利技术所要解决的技术问题是提供一种可以方便用户与城市交通智能信息服务平台信 息交互的语音识别装置。另外,本专利技术还提供了使用上述语音识别装置的交通智能信息服务平台。 另外,本专利技术还提供了上述语音识别装置的模型训练方法。为解决上述技术问题,本专利技术采用如下技术方案一种语音识别装置,包括数据采集管理模块、语音识别模块,所述语音识别装置还包括 模型训练模块,所述数据采集管理模块、模型训练模块分别与所述语音识别模块连接; 所述模型训练模块用于产生可供识别器识别的HMM模型;所述数据采集管理模块包括数据存储命名规则单元、数据拆分单元;数据存储命名规则单元用于制定特定的数据存储命名格式规范;数据拆分单元用于将录制的完整语音数据实体 根据命名格式规范以具体每一条路名为单位拆分成对应的小的语音单位;所述数据存储整理 单元根据设定的规则,将所述数据拆分单元拆分完毕的小语音单元保存在数据库对应位置中;语音识别模块包括数据预处理单元、识别单元、汉字与拼音字母转换争元;数据预处理 单元用于为待识别人实时语音录制,同时实现语音编码转换;识别单元通过HMM模型,得到 识别概率,并列举出概率较大的若干项条目作为识别结果;汉字与拼音字母转换单元用于将 识别出的一系列字母按照拼音和声调规则映射到对应汉字,并向用户呈现最终结果。作为本专利技术的一种优选方案,所述模型训练模块包括-训练配置信息单元,用于为训练准备必要的初始化数据,包括交通路名字典文件、发音 文件、HMM模型原形文件、屮文拼音转换文件、训练计划文件;语音编码转换单元,用于将音频的时域波形转换为用于描述语音频域特征参数,将WAV 格式音频转换为MFCC、 一阶、二阶差分MFCC系数,用于描述语音信号频域特征;训练过程控制单元,用于控制实施训练具体步骤流程,包括初始化MHH模型过程、字间 音素停顿训练过程、音素组合训练过程、添加复合转移概率训练过程、加入声调训练过程;训练强度控制单元,用于控制训练过程中重复叠代训练次数,通过训练模块各单元配合 最终产生可供识别器使用的HMM模型。作为本专利技术的一种优选方案,所述语音识别模块还包括语音回放单元,用于实时采集的语音数据并向客户回放。作为本专利技术的一种优选方案,所述语音识别模块还包括有限状态自动机,语音识别装置在识别过程中,按照所述有限状态自动机设定的路线判别;识别单元根据HMM模型得出对应由音素组合而成的字概率并按照自动机模型设计的识别路线得到最终识别概率输出,并列举出概率较大的若干项条目作为识别结果。作为本专利技术的一种优选方案,所述识别单元通过FMM模型和自动机模型,得到识别概率, 并列举出概率较大的前五项条目作为识别结果。作为本专利技术的一种优选方案,所述数据采集管理模块还包括录制单元,以便录音人员 根据软件给出的相应提示朗读对应词条,记录对应语音数据;数据存储整理单元,用于记录 语音数据存放信息,并根据该信息将数据存储在数据库相应位置中。作为本专利技术的一种优选方案,所述数据存储整理单元记录的语音数据存放信息至少包括 录音人姓名、性别、录制时间、数据存储路径、完成路名条目、录音人发音是否标准等信息。作为本专利技术的一种优选方案,所述语音识别装置用于智能交通信息服务平台中,所述录制单元用于保存待录音者录制的城市交通路名语音信息,以WAV音频格式作为训练样本,录 制过程中录制单元提供待对应路名的中文提示,录制者按照提示使用麦克风朗读,系统自动 保存朗读结果,所有路名的音频数据保存在一个完整的WAV文件中。作为本专利技术的 -种优选方案,所述语音编码转换单元将WAV波形数据转换到频域的Mel 频率倒谱系数MFCC,并求得其一阶和二阶差分和频域能量,以供训练和识别使用。一种交通智能信息服务平台,使用上述的语音识别装置。一种语音识别装置的模型训练方法,包括如下步骤-步骤SIO、读入交通路名字典文件、发音文件、HMM模型原形文件、中文与汉语拼音转换文件、训练计划文件并配置基本数据;步骤ll,将WAV音频数据转换成MFCC系数,并求得其一阶和二阶差分和频域能量;步骤S12,根据H醒模型原形文件,计算音频编码后MFCC系数的均值和方差初始化HMM模型;步骤S13,根据强度设定要求进行指定次数训练;步骤SOO,训练结束,产生最终可供识别的H顧模型。作为本专利技术的一种优选方案,所述方法在步骤S00前还包括如下步骤步骤S14,判断是否已经达到训练计划要求,如果是则转入S00结束训练,得到最终的HMM模型;否则进入S15;步骤S15,在字与字之间加入停顿符号sp,并且在每一句话结束后加入结束符号sil,并且在S5得到的训练模型中在停顿状态和结束状态之间加入转移概率; 步骤S16,根据强度设定要求进行指定次数训练。步骤S17,判断是否己经达到训练计划要求,如果是则转入S00结束训练,得到最终的 H腿模型,否则进入S18;步骤S18,为加快识别速度,需尽可能减少音素数量, 一些因素是可以组合形成一个整体;步骤S19,在H應中音素组合后添加可转移状态的转移概率; 步骤S20,根据强度设定要求进行指定次数训练。步骤S21,判断是否已经达到训练计划要求,如果是则转入SOO结束训练,得到最终的 H醒模型,否则进入S22;步骤S22,但是为了能更进一步减少音素数量,把不影响发音的因素组合在一起; 步骤S23,在H廳中第二次音素组合后添加可转移状态的转移概率; 步骤S24,根据强度设定要求进行指定次数训练。步骤S25,判断是否已经达到训练计划要求,如果是则转入S00结束训练,得到最终的 H薩模型,否则进入S26;步骤S26,在HMM中每个字发音音素最后加入拼音声调; 步骤S27,根据强度设定要求进行指定次数训练。本专利技术的有益效果在于由于本专利技术不但提供语音识别模块,还提供了配套的数据采集 管理模块和模型训练模块,因此可以方便的根据不同城市的交通路名情况配置相应识别装置, 达到通行性的效果。并且在训练数据充足的情况下,使用本专利技术训练过程得到本文档来自技高网...

【技术保护点】
一种语音识别装置,包括数据采集管理模块、语音识别模块,其特征在于:所述语音识别装置还包括模型训练模块,所述数据采集管理模块、模型训练模块分别与所述语音识别模块连接;    所述模型训练模块用于产生可供识别器识别的HMM模型;    所述数据采集管理模块包括数据存储命名规则单元、数据拆分单元;数据存储命名规则单元用于制定特定的数据存储命名格式规范;数据拆分单元用于将语音数据实体根据命名格式规范以具体每一条路名为单位拆分成对应的小的语音单位;    语音识别模块包括数据预处理单元、识别单元、汉字与拼音字母转换单元;数据预处理单元用于为待识别人实时语音录制,同时实现语音编码转换;识别单元通过HMM模型,得到识别概率,并列举出概率较大的若干项条目作为识别结果;汉字与拼音字母转换单元用于将识别出的一系列字母按照拼音和声调规则映射到对应汉字,并向用户呈现最终结果。

【技术特征摘要】
1. 一种语音识别装置,包括数据采集管理模块、语音识别模块,其特征在于所述语音识别装置还包括模型训练模块,所述数据采集管理模块、模型训练模块分别与所述语音识别模块连接;所述模型训练模块用于产生可供识别器识别的HMM模型;所述数据采集管理模块包括数据存储命名规则单元、数据拆分单元;数据存储命名规则单元用于制定特定的数据存储命名格式规范;数据拆分单元用于将语音数据实体根据命名格式规范以具体每一条路名为单位拆分成对应的小的语音单位;语音识别模块包括数据预处理单元、识别单元、汉字与拼音字母转换单元;数据预处理单元用于为待识别人实时语音录制,同时实现语音编码转换;识别单元通过HMM模型,得到识别概率,并列举出概率较大的若干项条目作为识别结果;汉字与拼音字母转换单元用于将识别出的一系列字母按照拼音和声调规则映射到对应汉字,并向用户呈现最终结果。2、 根据权利要求1所述的语音识别装置,其特征在于所述模型训练模块包括 训练配置信息单元,用于为训练准备必要的初始化数据;语音编码转换单元,用于将音频的时域波形转换为用于描述语音频域特征参数; 训练过程控制单元,用于控制实施训练具体步骤流程; 训练强度控制单元,用于控制训练过程中重复叠代训练次数。3、 根据权利要求1所述的语音识别装置,其特征在于所述语音识别模块还包括语音回 放单元,用于实时采集的语音数据并向客户回放。4、 根据权利要求1所述的语音识别装置,其特征在于所述语音识别模块还包括有限状 态自动机,语音识别装置在识别过程中,按照所述有限状态自动机设定的路线判别;识别单 元通过MM模型和自动机模型,得到识别概率,并列举出概率较大的若干项条目作为识别结 果。5、 根据权利要求4所述的语音识别装置,其特征在于所述识别单元根据HMM模型得出 对应由音素组合而成的字概率并按照自动机模型设计的识别路线得到最终识别概率输出,并 列举出概率较大的前五项条目作为识别结果。6、 根据权利要求1所述的语音识别装置,其特征在于所述数据采集管理模块还包括 录制单元,用于在录音人员朗读词条时记录对应语音数据;数据存储整理单元,用于记录语音数据存放信息,并根据设定的规则,将所述数据拆分 单元拆分完毕的小语音单元保存在数据库对应位置中:。7、 根据权利要求6所述的语音识别装置,其特征在于所述数据存储整理单元记录的语音数据存放信息至少包括录音人姓名、性别、录制时间、数据存储路径、完成路名条目、录 音人发音是否标准等信息。8、 根据权利要求1所述的语音识别装置,其特征在于所述语音识别装置用于智能交通 信息服务平台中,所述录制单元用于保存待录音者录制的城市交通路名语音信息,以WAV音 频格式作为训练样本,录制过程中录制单元提...

【专利技术属性】
技术研发人员:蒋昌俊曾国荪陈闳中苗夺谦闫春钢方钰吴俊伟白星振
申请(专利权)人:同济大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利