一种语音识别设备及方法技术

技术编号:16429337 阅读:35 留言:0更新日期:2017-10-22 02:07
本发明专利技术涉及一种语音识别设备及方法,用以解决目前语音识别过程中,对于嘈杂环境中多人讲话时,却无法提升语音识别效果的问题。该设备包括:语音识别模块,采集音频信息并进行语音识别;环境判断模块,当语音识别模块识别出的语义内容无法与语义库中的内容匹配时,判断音频信息是否包括环境嘈杂音频信息与用户音频信息;主控制模块,当音频信息包括环境嘈杂音频信息与用户音频信息时,根据音频信息的输入音量和电压幅值,确定采集音频信息的条件,进而可以优化下一次采集到的音频信息,并在语音识别模块采集音频信息,启动下一次语音识别过程时,提高语音识别的效果。

A speech recognition device and method

The invention relates to a speech recognition device and method, which can solve the problem that the speech recognition effect can not be improved in the process of speech recognition for many people in a noisy environment. The apparatus includes: a voice recognition module, voice recognition and acquisition of audio information and environment; judgment module when the module identifies the semantic content of the speech recognition is not matched with the semantic database content, determine whether the information includes audio noisy audio information and user audio information; the main control module, when the audio information including the noisy environment audio audio information and user information, according to the input volume and the voltage amplitude of the audio information to determine the acquisition of audio information, and can optimize the audio information next to the collection, and information in speech recognition module collects audio, start a speech recognition process, improve the quality of speech recognition.

【技术实现步骤摘要】
一种语音识别设备及方法
本专利技术涉及语音识别
,尤其涉及一种语音识别设备及方法。
技术介绍
语音识别技术是指机器把音频输入转换为文字或命令的技术。在语音识别过程中,尤其是麦克风阵列具有远场识别功能时,音频信号采集的灵敏度会比较高。用户周围如果有其他不相干的人说话,麦克风会同时采集到多个人的声音,而且不相关部分的声音幅值也会高于语音识别门限,导致用户与设备的交互以及周围其他人之间的闲聊均被设备采集,使语音识别模块无法判断用户的意图,从而难以做出正确的响应。传统的音频信号处理方法有麦克风降噪,回声消除,主要是用来去除环境中喇叭或者设备产生的噪声;还有自动增益控制技术,主要用来稳定音频信号。但对于嘈杂环境中多人讲话时,却无法提升语音识别效果。
技术实现思路
本专利技术的目的是提供一种语音识别设备及方法,用以解决目前语音识别过程中,对于嘈杂环境中多人讲话时,却无法提升语音识别效果的问题。本专利技术实施例提供的一种语音识别设备,所述设备包括:语音识别模块、环境判断模块和主控制模块;所述语音识别模块,用于采集音频信息并进行语音识别;所述环境判断模块,用于当所述语音识别模块识别出的语义内容无法与语义库中的内容匹配时,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息;所述主控制模块,用于当所述音频信息包括环境嘈杂音频信息与用户音频信息时,根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并控制所述语音识别模块采集音频信息,启动下一次语音识别过程。较佳的,所述主控制模块具体用于:当所述音频信息包括环境嘈杂音频信息与用户音频信息时,判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量;当所述音频信息的输入音量未达到最大可接收音量时,提示用户提高输入用户音频信息的音量,重新输入音频信息;以及,控制所述语音识别模块降低采集音频信息的电压幅值,并采用降低后的电压幅值采集音频信息,启动下一次语音识别过程。较佳的,所述主控制模块还用于:在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后,在所述语音识别模块采集音频信息,启动下一次语音识别过程之前,当所述音频信息包括环境嘈杂音频信息与用户音频信息、且所述音频信息的输入音量达到最大可接收音量时,提示用户降低周围环境中的环境嘈杂音频信息,重新输入音频信息。较佳的,所述主控制模块还用于:在所述环境判断模块判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息之后,在所述语音识别模块采集音频信息,启动下一次语音识别过程之前,当所述音频信息不包括环境嘈杂音频信息时,提示用户重新输入音频信息。较佳的,所述环境判断模块具体用于:将所述语音识别过程中识别出的语义内容与语义库中的内容进行匹配;以及,判断所述音频信息的输入功率是否大于预设功率;当所述语义内容与所述语义库中的内容匹配失败时;以及,当所述音频信息的输入功率大于预设功率时;确定所述音频信息包括环境嘈杂音频信息与用户音频信息;否则,确定所述音频信息不包括环境嘈杂音频信息。本专利技术实施例还提供了一种语音识别的方法,所述方法包括:采集音频信息并进行语音识别;当所述语音识别过程中识别出的语义内容无法与语义库中的内容匹配时,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息;当所述音频信息包括环境嘈杂音频信息与用户音频信息时,根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并采集音频信息,启动下一次语音识别过程。较佳的,所述根据采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,包括:当所述音频信息包括环境嘈杂音频信息与用户音频信息时,判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量;当所述音频信息的输入音量未达到最大可接收音量时,提示用户提高输入用户音频信息的音量,重新输入音频信息;以及,降低采集音频信息的电压幅值,并采用降低后的电压幅值采集音频信息,启动下一次语音识别过程。较佳的,在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后,在采集音频信息,启动下一次语音识别过程之前,还包括:当所述音频信息的输入音量达到最大可接收音量时,提示用户降低周围环境中的环境嘈杂音频信息,重新输入音频信息。较佳的,在判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息之后,在采集音频信息,启动下一次语音识别过程之前,还包括:当所述音频信息不包括环境嘈杂音频信息时,提示用户重新输入音频信息。较佳的,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息,包括:判断所述语音识别过程中识别出的语义内容与语义库中的内容进行匹配;以及,判断所述音频信息的输入功率是否大于预设功率;当所述语义内容与所述语义库中的内容匹配失败时;以及,当所述音频信息的输入功率大于预设功率时;确定所述音频信息包括环境嘈杂音频信息与用户音频信息;否则,确定所述音频信息不包括环境嘈杂音频信息。本专利技术有益效果如下:本专利技术实施例提供的语音识别设备,在语音识别模块识别出的语义内容无法与语义库中的内容匹配时,通过环境判断模块来判断音频信息是否包括环境嘈杂音频信息与用户音频信息,在音频信息包括环境嘈杂音频信息与用户音频信息时,可以通过主控制模块根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,进而可以优化下一次采集到的音频信息,并在语音识别模块采集音频信息,启动下一次语音识别过程时,提高语音识别的效果。附图说明图1为本专利技术实施例提供的一种语音识别设备的结构示意图;图2a为本专利技术实施例提供的音频信息未能被识别时的电压幅值的示意图;图2b为本专利技术实施例提供的音频信息能够被识别时的电压幅值的示意图;图3为本专利技术实施例提供的语音识别的方法的流程图;图4为本专利技术实施例提供的语音识别方法的整体流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,并不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例中提供的语音识别设备,主要是针对具有远场识别功能的语音交互设备,例如,智能画框、智能家居等。当然,也可以根据需要应用到其它的语音识别场景中,在此不做限定。如图1所示,为本专利技术实施例提供的一种语音识别设备的结构示意图,该设备包括:语音识别模块101、环境判断模块102和主控制模块103;语音识别模块101,用于采集音频信息并进行语音识别;环境判断模块102,用于当语音识别模块101识别出的语义内容无法与语义库中的内容匹配时,判断音频信息是否包括环境嘈杂音频信息与用户音频信息;主控制模块103,当音频信息包括环境嘈杂音频信息与用户音频信息,根据语音识别模块101采集音频信息时音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并控制语音识别模块101采集音频信息,启动下一本文档来自技高网...
一种语音识别设备及方法

【技术保护点】
一种语音识别设备,其特征在于,所述设备包括:语音识别模块、环境判断模块和主控制模块;所述语音识别模块,用于采集音频信息并进行语音识别;所述环境判断模块,用于当所述语音识别模块识别出的语义内容无法与语义库中的内容匹配时,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息;所述主控制模块,用于当所述音频信息包括环境嘈杂音频信息与用户音频信息时,根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并控制所述语音识别模块采集音频信息,启动下一次语音识别过程。

【技术特征摘要】
1.一种语音识别设备,其特征在于,所述设备包括:语音识别模块、环境判断模块和主控制模块;所述语音识别模块,用于采集音频信息并进行语音识别;所述环境判断模块,用于当所述语音识别模块识别出的语义内容无法与语义库中的内容匹配时,判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息;所述主控制模块,用于当所述音频信息包括环境嘈杂音频信息与用户音频信息时,根据所述语音识别模块采集音频信息时所述音频信息的输入音量、以及采集音频信息的电压幅值,确定下一次采集音频信息的条件,并控制所述语音识别模块采集音频信息,启动下一次语音识别过程。2.如权利要求1所述的设备,其特征在于,所述主控制模块具体用于:当所述音频信息包括环境嘈杂音频信息与用户音频信息时,判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量;当所述音频信息的输入音量未达到最大可接收音量时,提示用户提高输入用户音频信息的音量,重新输入音频信息;以及,控制所述语音识别模块降低采集音频信息的电压幅值,并采用降低后的电压幅值采集音频信息,启动下一次语音识别过程。3.如权利要求2所述的设备,其特征在于,所述主控制模块还用于:在判断所述语音识别模块采集音频信息时所述音频信息的输入音量是否达到最大可接收音量之后,在所述语音识别模块采集音频信息,启动下一次语音识别过程之前,当所述音频信息的输入音量达到最大可接收音量时,提示用户降低周围环境中的环境嘈杂音频信息,重新输入音频信息。4.如权利要求1所述的设备,其特征在于,所述主控制模块还用于:在所述环境判断模块判断所述音频信息是否包括环境嘈杂音频信息与用户音频信息之后,在所述语音识别模块采集音频信息,启动下一次语音识别过程之前,当所述音频信息不包括环境嘈杂音频信息时,提示用户重新输入音频信息。5.如权利要求1-4任一项所述的设备,其特征在于,所述环境判断模块具体用于:将所述语音识别过程中识别出的语义内容与语义库中的内容进行匹配;以及,判断所述音频信息的输入功率是否大于预设功率;当所述语义内容与所述语义库中的内容匹配失败时;以及,当所述音频信息的输入功率大于预设功率时;确定所述音频信息包括环境嘈杂音频信息与用户音...

【专利技术属性】
技术研发人员:杨珣杨向东赵星星
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1