一种基于计算机应用场景语义理解的语音识别系统技术方案

技术编号:14483223 阅读:123 留言:0更新日期:2017-01-26 02:36
本发明专利技术公开了一种基于计算机应用场景语义理解的语音识别系统,包括语音采集模块、语音处理模块、语音识别模块、用户识别模块、语义理解模块以及命令执行模块;本发明专利技术使用语音采集模块采集用户语音指令,经语音处理模块形成音频文件,使用语音识别模块将音频文件转换为文字信息,使用身份识模块识别用户身份,经语义理解模块对文字信息进行理解,采用命令执行模块执行相关操作,通过设计基于计算机应用场景的语义理解模块,大大提高了语音识别的智能化程度,让用户获得更加自然的交互体验,提高了语音识别的准确率。

【技术实现步骤摘要】

本专利技术属于语音识别
,涉及一种语音识别系统,具体是一种基于计算机应用场景语义理解的语音识别系统
技术介绍
场景应用,是指“现场的、互动的、有生命力的场景移动应用”。据悉,场景应用(LiveApp)由云来团队于2012年初自主创新研发而成,它是基于移动互联网的连接引擎技术,是移动互联网一种全新基于用户场景的信息连接方式。鉴于移动互联网用户思维的产品设计理念,场景应用迎合了手机用户的使用习惯,为用户提供极致简单的连接和体验方式。场景应用(LiveApp)从传播属性来说,它以社交网络为传播路径,极速连接用户,重构企业与用户之间的商业关系。可以连接微信、微博、来往、易信、百度、浏览器、UC、Line、whatsapp、facebook、googlemobile,同时通过二维码、图形二维码、声波识别无缝连接用户和商品。场景应用主要体现在针对特定客户、特定时间点,出于某一特定情感诉求而产生的应用访问和体验。而计算机应用场景语义理解则是针对特定用户、特定时间点,出于某一特定目的而产生的语音指令,对用户语音的文本信息进行理解。
技术实现思路
本专利技术的目的在于提供一种智能程度和准确率高的基于计算机应用场景语义理解的语音识别系统。本专利技术的目的可以通过以下技术方案实现:基于计算机应用场景语义理解的语音识别系统,包括语音采集模块、语音处理模块、语音识别模块、用户识别模块、语义理解模块以及命令执行模块;所述的语音采集模块,安装在用户鼠标内,用于采集用户说话的声音信号,并通过USB输出到语音处理模块;所述的语音处理模块,安装在本地计算机内,用于将接收到用户说话的声音信号转换为数字信号,生成音频文件,通过以太网输出到语音识别模块和用户识别模块;所述的语音识别模块,安装在线语音识别服务器内,用于将接收到的音频文件转换为文字信息,并发送到语义理解模块,同时获取音频文件中话音的声纹特征发送给用户身份识别单元;所述的用户识别模块,安装在在线语音识别服务器内,用于根据声纹特征识别出对应的用户身份,并发送给语义理解模块;所述的语义理解模块,安装在在线语音识别服务器内,根据接收到的文字信息和用户身份信息,基于计算机应用场景,根据特定用户、特定时间点、出于某一特定目的而产生的语音命令判断文字的内涵,理解用户的真实意图,通过以太网输出语义分析信息包到命令执行模块;其中,所述的语义分析信息包包含操作域和内容域;所述的命令执行模块,安装在本地计算机内,根据接收到语义分析信息包里的操作域,执行不同的操作动作,并将语义分析信息包里的内容域作为该操作动作的参数。进一步地,所述的语音采集使用麦克风采集用户声音信号,所述的麦克风通过安装在鼠标上的语音按键控制启动和关闭。本专利技术的有益效果:本专利技术使用语音采集模块采集用户语音指令,经语音处理模块形成音频文件,使用语音识别模块将音频文件转换为文字信息,使用身份识模块识别用户身份,经语义理解模块对文字信息进行理解,采用命令执行模块执行相关操作,通过设计基于计算机应用场景的语义理解模块,大大提高了语音识别的智能化程度,让用户获得更加自然的交互体验,提高了语音识别的准确率。附图说明下面结合附图和具体实施例对本专利技术作进一步详细描述。图1是本专利技术的系统示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。如图1所示,本专利技术提供了一种基于计算机应用场景语义理解的语音识别系统,包括语音采集模块、语音处理模块、语音识别模块、用户识别模块、语义理解模块以及命令执行模块。语音采集模块,安装在用户鼠标内,用于采集用户说话的声音信号,并通过USB输出到语音处理模块。其中,语音采集使用麦克风采集用户声音信号,通过安装在鼠标上的语音按键控制麦克风启动和关闭。语音处理模块,安装在本地计算机内,用于将接收到用户说话的声音信号转换为数字信号,生成音频文件,通过以太网输出到语音识别模块和用户识别模块。语音识别模块,安装在线语音识别服务器内,用于将接收到的音频文件转换为文字信息,并发送到语义理解模块,同时获取音频文件中话音的声纹特征发送给用户身份识别单元。语音识别模块通过抽取音频文件中话音所具有的频谱等物理特征,与预先存储的母音、子音或单词的物理特征模型进行比较,从而将语音转换为文字信息。用户识别模块,安装在在线语音识别服务器内,用于根据声纹特征识别出对应的用户身份,并发送给语音理解模块。而对于语音识别的身份确认技术,其原理是每个人的生物特征不同,用户识别模块工作原理为:每个人发音特征各不相同,因此可利用人的发音特点、即通话话音来提取话音声纹特征(声纹特征也可称为特征码,是能够反映该话音生物特征的标识,可能是一串数字或是一个数字及其他符号的组合系列或是用来描述变化趋势的数字或坐标点的组合等),通过不同用户的不同声纹特征区别不同的用户。语义理解模块,安装在在线语音识别服务器内,根据接收到的文字信息和用户身份信息,基于计算机应用场景,根据特定用户、特定时间点、出于某一特定目的而产生的语音命令判断文字的内涵,理解用户的真实意图,通过以太网输出语义分析信息包到命令执行模块。例如:“听音乐”背后的意图是:打开音乐播放器,并播放音乐。其中,语义分析信息包包含分析出来的操作域和内容域,操作域包含针对用户语音命令形成的操作指令,内容域包含该操作指令的参数信息。通过设计基于计算机应用场景的语义理解模块,大大提高了语音识别的智能化程度,让用户获得更加自然的交互体验。这主要体现在以下几个方面:1、不同的语音口令,指向相同的计算机控制动作;例如:“关闭计算机”、“关计算机”“关机”等语音口令,经过语义理解模块处理后,都指向关机操作;2、简单的口令可以快速实现原本复杂的计算机操作;例如:计算机要实现卸载程序,需要这样操作:开始菜单-控制面板-卸载更改程序,现在可以语音口令“卸载程序”,一步到位。3、根据计算机应用场景理解用户语音命令的方式引导用户操作计算机;例如:突然网络掉线了,用户可以说口令:“网络掉线了”,计算机根据这个口令,打开网络设置界面,并引导用户检查网络。命令执行模块,安装在本地计算机内,根据接收到语义分析信息包里的操作域,执行不同的操作动作,并将语义分析信息包里的内容域作为该操作动作的参数,实现相关功能。本专利技术工作流程:用户在操作计算机时,突然想打开“控制面板”进行设置,此时,按住鼠标上的语音按键,说:“控制面板”,语音采集模块将采集到的声音信号发送到语音处理模块,形成音频文件,语音识别模块将音频文件转换为文字信息,用户识别模块识别用户身份,语义理解模块基于计算机应用场景对文字信息进行理解,输出语义分析信息包,命令执行模块控制打开“控制面板”。在用语音控制时,用户无需做任何退出现在正在执行的操作界面。用户在浏览互联网时,想在百度上搜索框里输入:“什么是计算机应用场景?”,用户除了用键盘输入方式,还可用这样操作,按住鼠标上的语音按键,说:“什么是计算机应用场景?”,语音采集模块将采集到的声音信号发送到语音处理模块,形成音频文件,本文档来自技高网...
一种基于计算机应用场景语义理解的语音识别系统

【技术保护点】
基于计算机应用场景语义理解的语音识别系统,其特征在于:包括语音采集模块、语音处理模块、语音识别模块、用户识别模块、语义理解模块以及命令执行模块;所述的语音采集模块,安装在用户鼠标内,用于采集用户说话的声音信号,并通过USB输出到语音处理模块;所述的语音处理模块,安装在本地计算机内,用于将接收到用户说话的声音信号转换为数字信号,生成音频文件,通过以太网输出到语音识别模块和用户识别模块;所述的语音识别模块,安装在线语音识别服务器内,用于将接收到的音频文件转换为文字信息,并发送到语义理解模块,同时获取音频文件中话音的声纹特征发送给用户身份识别单元;所述的用户识别模块,安装在在线语音识别服务器内,用于根据声纹特征识别出对应的用户身份,并发送给语义理解模块;所述的语义理解模块,安装在在线语音识别服务器内,根据接收到的文字信息和用户身份信息,基于计算机应用场景,根据特定用户、特定时间点、出于某一特定目的而产生的语音命令判断文字的内涵,理解用户的真实意图,通过以太网输出语义分析信息包到命令执行模块;其中,所述的语义分析信息包包含操作域和内容域;所述的命令执行模块,安装在本地计算机内,根据接收到语义分析信息包里的操作域,执行不同的操作动作,并将语义分析信息包里的内容域作为该操作动作的参数。...

【技术特征摘要】
1.基于计算机应用场景语义理解的语音识别系统,其特征在于:包括语音采集模块、语音处理模块、语音识别模块、用户识别模块、语义理解模块以及命令执行模块;所述的语音采集模块,安装在用户鼠标内,用于采集用户说话的声音信号,并通过USB输出到语音处理模块;所述的语音处理模块,安装在本地计算机内,用于将接收到用户说话的声音信号转换为数字信号,生成音频文件,通过以太网输出到语音识别模块和用户识别模块;所述的语音识别模块,安装在线语音识别服务器内,用于将接收到的音频文件转换为文字信息,并发送到语义理解模块,同时获取音频文件中话音的声纹特征发送给用户身份识别单元;所述的用户识别模块,安装在在线语音识别服务器内,用于根据声纹特征识别出对应的用户身...

【专利技术属性】
技术研发人员:冯海洪毛德平
申请(专利权)人:安徽咪鼠科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1