用于浏览器的语音识别处理方法和浏览器技术

技术编号:10824647 阅读:112 留言:0更新日期:2014-12-26 13:19
本发明专利技术公开了一种用于浏览器的语音识别处理方法和浏览器。该方法包括接收用户指令设置浏览器的声控模式为命令输入模式或者文本输入模式;接收语音输入,并转换为语音数据;调用浏览器侧本地语音识别引擎对语音数据进行识别,接收本地语音识别结果,如果完全识别成功,则依据本地语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理;否则,调用WEB语音识别引擎对未成功识别的语音数据进行识别,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。采用本发明专利技术,综合本地语音识别引擎和WEB语音识别引擎对语音数据进行识别,提高了识别效率和准确度。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种用于浏览器的语音识别处理方法和浏览器。该方法包括接收用户指令设置浏览器的声控模式为命令输入模式或者文本输入模式;接收语音输入,并转换为语音数据;调用浏览器侧本地语音识别引擎对语音数据进行识别,接收本地语音识别结果,如果完全识别成功,则依据本地语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理;否则,调用WEB语音识别引擎对未成功识别的语音数据进行识别,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。采用本专利技术,综合本地语音识别引擎和WEB语音识别引擎对语音数据进行识别,提高了识别效率和准确度。【专利说明】用于浏览器的语音识别处理方法和浏览器
本专利技术涉及互联网通信
,特别涉及一种用于浏览器的语音识别处理方法和浏览器。
技术介绍
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 浏览器是指可以显示网页服务器或者文件系统的HTML(Hypertext MarkupLanguage,超文本标记语言)文件内容,并让用户与这些文件交互的一种软件。网页浏览器主要通过HTTP (Hypertext transfer protocol,超文本传递协议)协议与网页服务器交互并获取网页,这些网页由URL (Uniform/Universal Resource Locator,统一资源定位符)指定,文件格式通常为 HTML,并由 MIME (Multipurpose Internet Mail Extens1ns,多功能互联网邮件扩充服务)在HTTP协议中指明。 现有的浏览器大多没有集成语音识别功能,即是个别浏览器集成了语音识别功能,一般只基于本地语音识别引擎或只基于WEB (网络)语音识别引擎,识别效率低、准确性差。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种用于浏览器的语音识别处理方法和浏览器。 依据本专利技术的一个方面,提供了一种浏览器,其包括: 处理器,适于接收用户输入指令设置浏览器的声控模式为命令输入模式或者文本输入模式; 语音接收器,适于接收用户的语音输入,并转换为语音数据; 本地识别单元,适于调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理; WEB识别单元,适于在所述本地识别单元识别失败的情况下,调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理; 其中,所述本地识别单元,还适于在对所述语音数据部分识别成功的情况下,将未成功识别的语音数据发送给所述WEB识别单元; 所述WEB识别单元,还适于调用WEB语音识别引擎对未成功识别的语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。 可选地,所述本地识别单元包括: 本地调用模块,适于调用本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果; 本地判断模块,适于判断所述本地语音识别结果是否为空,如果是,认为识别失败,向WEB识别单元发送启动通知;否则,判断当前声控模式是否是文本输入模式,如果是,认为识别成功,在所述浏览器中输入所述本地语音识别结果对应的输入文本,否则,向本地匹配模块发送本地匹配指令; 所述本地匹配模块,适于根据所述本地匹配指令,将所述本地语音识别结果与所述浏览器的命令集进行匹配,如果匹配成功,按照所述本地语音识别结果执行相应的浏览器操作,否则,认为识别失败,向WEB识别单元发送启动通知。 可选地,所述WEB识别单元包括: 通知接收模块,适于接收所述本地识别单元发送的启动通知; WEB调用模块,适于调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果; WEB判断模块,适于判断当前声控模式是否是文本输入模式,如果是,在所述浏览器中输入所述WEB语音识别结果对应的输入文本,否则,向WEB匹配模块发送WEB匹配指令; WEB匹配模块,适于根据所述WEB匹配指令将所述WEB语音识别结果与所述浏览器的命令集进行匹配,并按照所述WEB语音识别结果执行相应的浏览器操作。 可选地,所述命令集包括所述浏览器的操作命令。 可选地,所述浏览器还包括:训练语音识别单元; 所述训练语音识别单元包括: 训练语音库建立模块,适于预先对用户的语音数据进行训练,生成包含训练语音及相应的输入文本或相应的所述操作命令的训练语音库; 训练语音匹配模块,适于将所述语音数据与所述训练语音库中的训练语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作。 可选地,所述训练语音识别单元还包括:提示模块; 所述提示模块,适于提示用户对常用操作命令、地址栏中常用地址和/或搜索栏中常用搜索关键字进行语音训练。 可选地,所述训练语音识别单元还包括:建表模块和查表模块; 所述建表模块,适于生成地址栏中输入和推荐的常用地址的URL与相应的网页标题的对应关系表; 其中,所述网页标题还作为所述训练语音库中的输入文本与相应的训练语音相对应; 所述训练语音匹配模块,还适于当用户在地址栏中进行语音输入时,将用户输入的语音与所述训练语音相匹配获得对应的网页标题; 所述查表模块,适于根据匹配获得的网页标题查询所述对应关系表获得相应的URL,并将获得的URL输入至所述浏览器的地址栏中。 可选地,所述浏览器还包括:历史语音识别单元; 所述历史语音识别单元包括: 历史语音库建立模块,适于将所述系统已经识别的历史语音及相应的输入文本或相应的所述操作命令进行存储生成历史语音库; 历史语音匹配模块,适于将所述语音数据与所述历史语音库中的历史语音相匹配,如果匹配成功,在文本输入模式下,在所述浏览器中输入相应的输入文本,或者,在命令输入模式下,按照相应的操作命令执行相应的浏览器操作。 可选地,所述训练语音库和/或历史语音库与相应的浏览器用户绑定,并作为相应的浏览器用户的个人信息存储在浏览器侧或者网络服务器侧的数据库中。 本专利技术还提供一种用于浏览器的语音识别处理方法,其包括步骤: 接收用户输入指令设置浏览器的声控模式为命令输入模式或者文本输入模式; 接收用户的语音输入,并转换为语音数据; 调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语本文档来自技高网
...

【技术保护点】
一种浏览器,其包括:处理器,适于接收用户输入指令设置浏览器的声控模式为命令输入模式或者文本输入模式;语音接收器,适于接收用户的语音输入,并转换为语音数据;本地识别单元,适于调用浏览器侧本地语音识别引擎对所述语音数据进行识别,接收本地语音识别结果,如果识别成功,则依据本地语音识别结果在所述命令输入模式或者文本输入模式下进行相应的浏览器侧处理;WEB识别单元,适于在所述本地识别单元识别失败的情况下,调用WEB语音识别引擎对所述语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,依据WEB语音识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理;其中,所述本地识别单元,还适于在对所述语音数据部分识别成功的情况下,将未成功识别的语音数据发送给所述WEB识别单元;所述WEB识别单元,还适于调用WEB语音识别引擎对未成功识别的语音数据进行识别,接收来自WEB语音识别引擎的WEB语音识别结果,整合本地语音识别结果和WEB语音识别结果得到最终识别结果,依据最终识别结果在命令输入模式或者文本输入模式下进行相应的浏览器侧处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨东任寰
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1