一种基于深度学习的智能语音交互设备制造技术

技术编号:25189105 阅读:30 留言:0更新日期:2020-08-07 21:15
本发明专利技术公开了一种基于深度学习的智能语音交互设备,其具有唤醒模式和非唤醒模式两种状态;其包括:语音获取模块用于实时获取声音信息;语音预处理模块与语音获取模块连接,对声音信息进行噪声滤除,得到目标语音;语音识别模块用于在唤醒模式下识别目标语音,获得目标内容;检索模块分别与语音识别模块、预存储有应答语句的存储模块连接,检索模块用于在唤醒模式下根据目标内容获取应答内容;输出模块与检索模块连接,输出模块用于在唤醒模式下获取应答内容,并将应答内容输出;智能语音交互设备在设定时间内无内容输出且无目标语音时,进入非唤醒模式。本发明专利技术能够实时进行拾音,能够使得在语音输出的过程中,也能够准确获得外部的有效语音。

【技术实现步骤摘要】
一种基于深度学习的智能语音交互设备
本专利技术涉及语音交互
,特别是一种基于深度学习的智能语音交互设备。
技术介绍
随着人工智能的不断发展,语音识别技术取得显著进步,开始从实验室走向市场。语音识别技术已经开始进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。现有技术中,智能音箱也不断走入人们的视野,如,siri系统、小米智能音箱、Nano智能音箱以及各种儿童语音交互玩具等。这些系统虽然能够完成基本的交互过程但往往存在以下缺陷,每次输入语音前,需要手动或通过特定的词语将系统调至特定获取语音的状态,才能够顺利识别语音。这就给交互过程带来了不便。
技术实现思路
本专利技术的一个目的是提供一种基于深度学习的智能语音交互设备,以解决现有技术中的不足,它能够实时进行拾音,能够使得在语音输出的过程中,也能够准确获得外部的有效语音。使语音交互过程更加智能化。本专利技术提供了一种基于深度学习的智能语音交互设备,其中,所述智能语音交互设备具有唤醒模式和非唤醒模式两种状态;该智能语音交互设备包括:语音获取模块,所述语音获取模块用于实时获取声音信息;语音预处理模块,所述语音预处理模块与所述语音获取模块连接,所述语音预处理模块用于获取所述声音信息,并对所述声音信息进行噪声滤除,得到目标语音;并在非唤醒模式下判断所述目标语音是否为设定的唤醒词,如果是,进入唤醒模式,如果否,保持非唤醒模式;语音识别模块,所述语音识别模块用于在唤醒模式下识别所述目标语音,获得目标内容;检索模块,所述检索模块分别与所述语音识别模块、预存储有应答语句的存储模块连接,所述检索模块用于在唤醒模式下根据所述目标内容从所述存储模块中、或根据所述目标内容从网络上获取应答内容;输出模块,所述输出模块与所述检索模块连接,所述输出模块用于在唤醒模式下获取所述应答内容,并将所述应答内容输出;所述智能语音交互设备在设定时间内无内容输出且无声音信息被获取时,进入非唤醒模式。如上所述的基于深度学习的智能语音交互设备,其中,可选的是,还包括模式控制模块,所述模式控制模块分别与所述语音预处理模块、所述语音识别模块、所述检索模块和所述输出模块电连接;所述模式控制模块用于获取模式信息,并将当前模式信息分别发送给所述语音预处理模块、所述语音识别模块、所述检索模块和所述输出模块;在非唤醒模式下,所述模式控制模块根据所述语音预处理模块的对于所述目标语音是否为设定的唤醒词的判断结果,并在所述目标语音是为设定的唤醒词的情况下,生成唤醒状态标识,并将该唤醒状态标识分别输出给所述语音预处理模块、所述语音识别模块、所述检索模块和所述输出模块;在唤醒模式下,所述模式控制模块获取所述应答内容输出完毕的时间节点,并实时监控所述语音预处理模块是否获取到目标内容;如在设定时间内,未获取到目标内容,则生成非唤醒状态标识,并将该非唤醒状态标识分别输出给所述语音预处理模块、所述语音识别模块、所述检索模块和所述输出模块。如上所述的基于深度学习的智能语音交互设备,其中,可选的是,还包括声纹处理模块和身份标记模块;所述声纹处理模块分别与所述语音预处理模块和所述身份标记模块电连接;所述身份标记模块与所述检索模块连接;所述声纹处理模块用于在获取到与预设的唤醒词内容相同的目标语音时,获取该目标语音的声纹信息,并查找所述身份标记模块中是否存在与该声纹信息相对应的身份文件,如果是,则将该身份文件与所述检索模块建立关联,以使输出的内容与该身份文件相适配,同时,将本次交互过程中所获取的涉及身份喜好的内容信息存储到对应该声纹的身份文件中,如果否,在所述身份标记模块中生成与该声纹信息相对应的身份文件。如上所述的基于深度学习的智能语音交互设备,其中,可选的是,所述语音获取模块,在获取声音信息时,当所述声音信息中的停顿达设定时间后,将该声音信息记为第一声音信息发送给所述语音预处理模块,并根据所述第一声音信息获取所述第一目标语音;所述语音获取模块断续获取后续声音信息记为第二声音信息;所述语音识别模块识别所述第一目标语音,获得第一目标内容,并判断所述第一目标内容是否为完整信息,如所述第一目标内容信息是否完整,如不完整,则将所述第一目标语音和所述第二目标语音组合成整体目标语音,并对该整目标语音进行识别,从而得到整体目标内容。如上所述的基于深度学习的智能语音交互设备,其中,可选的是,所述语音预处理模块还与所述输出模块电连接;在所述输出模块输出语音时:所述语音预处理模块从所述语音获取模块中获取声音信息、从所述输出模块获取中待滤除声音,所述语音预处理模块将所述待滤除声音从所述声音信息中滤除,得到第三声音信息,并对所述第三声音信息进行识别;判断所述第三声音信息是否为有效语音信息,如果是,控制所述输出模块停止输出语音,并控制所述输出模块输出以所述第三声音信息为基础得到的应答内容,如果否,继续输出正在输出的语音。如上所述的基于深度学习的智能语音交互设备,其中,可选的是,以所述第三声音信息为基础得到应答内容的方法为:所述语音识别模块识别所述第三声音信息,得到中断目标内容;检索模块根据所述中断目标内容,从所述存储模块中、或根据所述目标内容从网络上获取应答内容。如上所述的基于深度学习的智能语音交互设备,其中,可选的是,还包括历史关联模块;所述历史关联模块分别与所述检索模块、所述语音识别模块电连接;所述历史关联模块用于在进入唤醒模式时,清空;并在唤醒模式时获取所述检索模块检索到的应答内容,将该应答内容记录在所述历史关联模块中;所述检索模块根据从历史关联模块中获取与所述目标内容相关的历史信息,并根据所述历史信息和所述目标内容获取应答内容。如上所述的基于深度学习的智能语音交互设备,其中,可选的是,所述历史关联模块还用于在输出应答内容被打断后,将对应的所述应答内容从所述历史关联模块中删除。如上所述的基于深度学习的智能语音交互设备,其中,可选的是,所述语音获取模块包括麦克风,所述输出模块包括扬声器。如上所述的基于深度学习的智能语音交互设备,其中,可选的是,所述语音识别模块基于深度神经网络对语音进行识别。与现有技术相比,本专利技术通过将语音获取模块实时获取声音信息,使得交互设备无论在“唤醒模式”还是“非唤醒模式”均能够识别相应的有效语音信息。而在唤醒模式下,在交互的过程中,不需要使用者在每句话前都增加特定的唤醒词,从而能够使交互过程更加的自由和随意,从而提高了交互设备的智能化。另外,由于语音获取模块实时获取声音信息,即便是交互设备正在语音输出的过程中,也能够准确识别有效语音信息,从而允许交互设备在输出语音的过程中,可以被打断,使得交流更加的高效和顺畅。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并本文档来自技高网...

【技术保护点】
1.一种基于深度学习的智能语音交互设备,其特征在于,/n所述智能语音交互设备具有唤醒模式和非唤醒模式两种状态;所述智能语音交互设备包括:/n语音获取模块,所述语音获取模块用于实时获取声音信息;/n语音预处理模块,所述语音预处理模块与所述语音获取模块连接,所述语音预处理模块用于获取所述声音信息,并对所述声音信息进行噪声滤除,得到目标语音;并在非唤醒模式下判断所述目标语音是否为设定的唤醒词,如果是,进入唤醒模式,如果否,保持非唤醒模式;/n语音识别模块,所述语音识别模块用于在唤醒模式下识别所述目标语音,获得目标内容;/n检索模块,所述检索模块分别与所述语音识别模块、预存储有应答语句的存储模块连接,所述检索模块用于在唤醒模式下根据所述目标内容从所述存储模块中、或根据所述目标内容从网络上获取应答内容;/n输出模块,所述输出模块与所述检索模块连接,所述输出模块用于在唤醒模式下获取所述应答内容,并将所述应答内容输出;/n所述智能语音交互设备在设定时间内无内容输出且无声音信息被获取时,进入非唤醒模式。/n

【技术特征摘要】
1.一种基于深度学习的智能语音交互设备,其特征在于,
所述智能语音交互设备具有唤醒模式和非唤醒模式两种状态;所述智能语音交互设备包括:
语音获取模块,所述语音获取模块用于实时获取声音信息;
语音预处理模块,所述语音预处理模块与所述语音获取模块连接,所述语音预处理模块用于获取所述声音信息,并对所述声音信息进行噪声滤除,得到目标语音;并在非唤醒模式下判断所述目标语音是否为设定的唤醒词,如果是,进入唤醒模式,如果否,保持非唤醒模式;
语音识别模块,所述语音识别模块用于在唤醒模式下识别所述目标语音,获得目标内容;
检索模块,所述检索模块分别与所述语音识别模块、预存储有应答语句的存储模块连接,所述检索模块用于在唤醒模式下根据所述目标内容从所述存储模块中、或根据所述目标内容从网络上获取应答内容;
输出模块,所述输出模块与所述检索模块连接,所述输出模块用于在唤醒模式下获取所述应答内容,并将所述应答内容输出;
所述智能语音交互设备在设定时间内无内容输出且无声音信息被获取时,进入非唤醒模式。


2.根据权利要求1所述的基于深度学习的智能语音交互设备,其特征在于,还包括模式控制模块,所述模式控制模块分别与所述语音预处理模块、所述语音识别模块、所述检索模块和所述输出模块电连接;
所述模式控制模块用于获取模式信息,并将当前模式信息分别发送给所述语音预处理模块、所述语音识别模块、所述检索模块和所述输出模块;
在非唤醒模式下,所述模式控制模块根据所述语音预处理模块的对于所述目标语音是否为设定的唤醒词的判断结果,并在所述目标语音是为设定的唤醒词的情况下,生成唤醒状态标识,并将该唤醒状态标识分别输出给所述语音预处理模块、所述语音识别模块、所述检索模块和所述输出模块;
在唤醒模式下,所述模式控制模块获取所述应答内容输出完毕的时间节点,并实时监控所述语音预处理模块是否获取到目标内容;如在设定时间内,未获取到目标内容,则生成非唤醒状态标识,并将该非唤醒状态标识分别输出给所述语音预处理模块、所述语音识别模块、所述检索模块和所述输出模块。


3.根据权利要求1所述的基于深度学习的智能语音交互设备,其特征在于,还包括声纹处理模块和身份标记模块;
所述声纹处理模块分别与所述语音预处理模块和所述身份标记模块电连接;所述身份标记模块与所述检索模块连接;
所述声纹处理模块用于在获取到与预设的唤醒词内容相同的目标语音时,获取该目标语音的声纹信息,并查找所述身份标记模块中是否存在与该声纹信息相对应的身份文件,如果是,则将该身份文件与所述检索模块建立关联,以使输出的内容与该身份文件相适配,同时,将本次交互过程中所获取的涉及身份喜好的内容信息存储到对应该声纹的身份文件中,如果否,在所...

【专利技术属性】
技术研发人员:罗东华鲁娜董善志
申请(专利权)人:山东传媒职业学院
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1