System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种语音唤醒方法、装置、系统及可读介质制造方法及图纸_技高网

一种语音唤醒方法、装置、系统及可读介质制造方法及图纸

技术编号:40088481 阅读:6 留言:0更新日期:2024-01-23 15:50
本发明专利技术提供了一种语音唤醒方法、装置、系统及可读介质,涉及语音识别技术领域,应用于语音唤醒系统的前端,前端与语音唤醒系统的后端通信连接,方法包括:响应于语音交互发起操作,启动语音唤醒系统的前端的语音识别元件;获取语音数据,通过语音识别元件识别语音数据得到语音数据对应的文字数据;基于文字数据确定语音数据中是否存在预设唤醒词;若语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作,向后端发送语音唤醒指令以进行语音交互;若语音数据中不存在唤醒词,重新启动语音识别元件对语音数据进行识别,直至语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作,减少唤醒阶段中服务器负载压力,提高机器唤醒响应效率。

【技术实现步骤摘要】

本专利技术涉及语音识别,尤其是涉及一种语音唤醒方法、装置、系统及可读介质


技术介绍

1、近年来,具有语音操作功能的智能设备逐渐进入了人们的生活,这类设备在使用语音操作之前,一般需要通过特定的唤醒词来唤醒语音操作功能。现有语音服务的唤醒方法中,一般是将用户端采集的语音数据传输至云服务器或服务器进行语音识别,检测到识别文字中含有预设唤醒词则唤醒。但是,该唤醒方法中由于网络抖动、网络阻塞等问题的存在导致云服务器或服务器无法实时处理用户输入的语音数据,机器唤醒响应不及时。而且,通过云服务器或服务器进行语音识别,为了保证不错过对用户不定时输入唤醒指令的识别任务,云服务器或服务器需要独占一定数量的资源不间断的对语音数据进行实时的语音识别,不仅增大服务器的负载压力,还增加了不必要的资源消耗和系统开销,造成资源浪费和高耗能。因此,基于终端低功耗的唤醒技术方案显得尤为重要。

2、现阶段,基于终端低功耗的语音唤醒产品中较为典型的语音唤醒功能的实现主要包括两类,其中一类是基于嵌入式语音唤醒芯片实现,其需要在制作智能终端产品时预先将语音唤醒芯片内嵌于智能终端设备中并激活语音唤醒功能,如天猫精灵音箱、小度智能耳机、科沃斯扫地机等;另一类是将语音唤醒sdk嵌入app中并激活语音唤醒功能,如天猫精灵app、小爱同学app、百度语音助手app等。第一类基于嵌入式语音唤醒芯片实现语音唤醒由于芯片架构的不同导致其存在芯片软件适配度差的问题,而且针对那些出厂时没有嵌入语音唤醒芯片的智能终端来说,无法通过简单的处理手段将该芯片嵌入到原智能终端设备中故而无法实现语音唤醒功能。而第二类基于内嵌语音唤醒sdk的app,由于不同终端设备所支持的操作环境以及硬件架构具备一定的差异性,则对应的语音唤醒sdk需要做定制化的更改以满足其操作系统、硬件架构适配性的要求,导致其在不同操作系统下应用的语音唤醒软件之间可迁移性、灵活性不高。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种语音唤醒方法、装置及系统,以减小唤醒阶段的负载压力,同时解决现有技术中不同智能终端设备进行语音唤醒时遇到的适配性差的问题。

2、第一方面,本专利技术实施例提供了一种语音唤醒方法,应用于语音唤醒系统的前端,前端与语音唤醒系统的后端通信连接,方法包括:响应于语音交互发起操作,启动语音唤醒系统的前端的语音识别元件;获取语音数据,通过语音识别元件识别语音数据得到语音数据对应的文字数据;基于文字数据确定语音数据中是否存在预设的唤醒词;若语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作,向后端发送语音唤醒指令以进行语音交互;若语音数据中不存在唤醒词,重新启动语音识别元件对语音数据进行识别,直至语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作。

3、在本专利技术较佳的实施例中,在上述启动语音唤醒系统的前端的语音识别元件之前,方法还包括:若未开启语音数据的获取权限,对获取权限的开启进行请求;在语音数据的获取权限开启后,获取预先设置的配置信息;配置信息包括唤醒词、语种信息和语音识别函数;基于配置信息对语音识别元件进行初始化。

4、在本专利技术较佳的实施例中,上述通过语音识别元件识别语音数据得到语音数据对应的文字数据,包括:确定语音数据对应的语种;基于语种和语音识别函数将语音数据转化为文字数据。

5、在本专利技术较佳的实施例中,在上述停止语音识别元件识别语音数据的操作,向后端发送语音唤醒指令以进行语音交互之前,方法还包括基于唤醒词的字符占比数以及文字数据中是否含有预先设置的动作词集合中的任一动作词,确定唤醒词是否有效;若唤醒词无效,则重新启动语音识别元件对语音数据进行识别,直至唤醒词有效;其中,字符占比数用于确定唤醒词是否有效。

6、在本专利技术较佳的实施例中,上述确定唤醒词是否有效,包括:判断唤醒词所处位置后的文字数据中是否存在任一动作词;若唤醒词所处位置后的文字数据中不存在任一动作词,则确定唤醒词的字符占比数是否大于或等于预先设置的占比数阈值;若唤醒词的字符占比数大于或等于占比数阈值,则唤醒词有效。

7、在本专利技术较佳的实施例中,当语音数据对应的语种为中文时,上述基于文字数据确定语音数据中是否存在唤醒词,包括:确定唤醒词对应的第一拼音和文字数据对应的第二拼音;基于第一拼音和第二拼音进行正则比对;若第二拼音中包括第一拼音,语音数据中存在唤醒词。

8、在本专利技术较佳的实施例中,在向上述后端发送语音唤醒指令之后,方法还包括:基于预先设置的时间阈值确定语音交互是否结束;若语音交互结束,重新启动语音识别元件。

9、第二方面,本专利技术实施例还提供一种语音唤醒装置,应用于语音唤醒系统的前端,前端与语音唤醒系统的后端通信连接,装置包括用于执行上述的语音唤醒方法的各个模块,模块包括语音识别元件启动模块、语音数据识别模块、唤醒词判断模块和指令发送模块,其中:语音识别元件启动模块,用于响应于语音交互发起操作,启动语音唤醒系统的前端的语音识别元件;语音数据识别模块,用于获取语音数据,通过语音识别元件识别语音数据得到语音数据对应的文字数据;唤醒词判断模块,用于基于文字数据确定语音数据中是否存在预设的唤醒词;指令发送模块,用于若语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作,向后端发送语音唤醒指令以进行语音交互;若语音数据中不存在唤醒词,重新启动语音识别元件对语音数据进行识别,直至语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作。

10、第三方面,本专利技术实施例还提供一种语音唤醒系统,包括:前端和后端,前端和后端通信连接;前端用于,响应于语音交互发起操作,启动语音唤醒系统的前端的语音识别元件;获取语音数据,通过语音识别元件识别语音数据得到语音数据对应的文字数据;基于文字数据确定语音数据中是否存在预设的唤醒词;若语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作,向后端发送语音唤醒指令以进行语音交互;若语音数据中不存在唤醒词,重新启动语音识别元件对语音数据进行识别,直至语音数据中存在唤醒词,停止语音识别元件识别语音数据的操作。后端用于,对前端发送的语音唤醒指令进行响应;获取语音数据,基于语音数据进行语音交互。

11、第四方面,本专利技术实施例还提供一种计算机可读介质,计算机可读介质具有处理器可执行的非易失的程序代码,程序代码使处理器执行上述第一方面的语音唤醒方法。

12、本专利技术实施例带来了以下有益效果:

13、本专利技术实施例提供了一种语音唤醒方法、装置、系统及可读介质,相对于前端将采集的语音数据传输至后端进行识别并判断是否含有唤醒词的方法,本申请中利用前端轻量级的语音识别元件对语音数据进行识别,并基于是否在语音数据中识别出预设的唤醒词判断是唤醒后端进行语音交互,还是重启语音识别元件对用户后续输入的语音数据进行识别,直至识别到预设的唤醒词后停止工作。在语音识别元件的基础上通过重启机制和判断机制的双机制协同工作实现对后端的语音唤醒,如此在前端进行唤醒词的语音识别以减少在唤醒阶本文档来自技高网...

【技术保护点】

1.一种语音唤醒方法,其特征在于,应用于语音唤醒系统的前端,所述前端与所述语音唤醒系统的后端通信连接,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述启动所述语音唤醒系统的前端的语音识别元件之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述通过所述语音识别元件识别所述语音数据得到所述语音数据对应的文字数据,包括:

4.根据权利要求1所述的方法,其特征在于,在所述停止所述语音识别元件识别所述语音数据的操作,向所述后端发送语音唤醒指令以进行语音交互之前,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,确定所述唤醒词是否有效,包括:

6.根据权利要求1所述的方法,其特征在于,当所述语音数据对应的语种为中文时,所述基于所述文字数据确定所述语音数据中是否存在唤醒词,包括:

7.根据权利要求1所述的方法,其特征在于,在所述向所述后端发送语音唤醒指令之后,所述方法还包括:

8.一种语音唤醒装置,其特征在于,应用于语音唤醒系统的前端,所述前端与所述语音唤醒系统的后端通信连接,所述装置包括用于执行权利要求1至7任一项所述的语音唤醒方法的各个模块,所述模块包括语音识别元件启动模块、语音数据识别模块、唤醒词判断模块和指令发送模块,其中:

9.一种语音唤醒系统,其特征在于,包括:前端和后端,所述前端和后端通信连接;

10.一种计算机可读介质,其特征在于,所述计算机可读介质具有处理器可执行的非易失的程序代码,所述程序代码使所述处理器执行所述权利要求1至7任一项所述的语音唤醒方法。

...

【技术特征摘要】

1.一种语音唤醒方法,其特征在于,应用于语音唤醒系统的前端,所述前端与所述语音唤醒系统的后端通信连接,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述启动所述语音唤醒系统的前端的语音识别元件之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述通过所述语音识别元件识别所述语音数据得到所述语音数据对应的文字数据,包括:

4.根据权利要求1所述的方法,其特征在于,在所述停止所述语音识别元件识别所述语音数据的操作,向所述后端发送语音唤醒指令以进行语音交互之前,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,确定所述唤醒词是否有效,包括:

6.根据权利要求1所述的方法,其特征在于,当所述语音数据对应的语种为中文时...

【专利技术属性】
技术研发人员:王帅谭克强赵磊蒋维中周舒婷
申请(专利权)人:四川蜀天信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1