语音识别交互的实现方法及装置制造方法及图纸

技术编号:35681647 阅读:24 留言:0更新日期:2022-11-23 14:24
本发明专利技术涉及一种语音识别交互的实现方法及装置,所述方法包括获取待识别语音并发送至语音唤醒引擎中进行分析处理,输出唤醒结果和唤醒延时信息;将所述唤醒延时信息发送至语音识别引擎,输出识别结果。本发明专利技术通过语音唤醒引擎中设置的边界处理以及唤醒时延,能够识别多字或少字的问题,使得语音识别准确率更高,提高了智能语音助手的反应速度和准确度,使得智能语音变的更加智能。智能语音变的更加智能。智能语音变的更加智能。

【技术实现步骤摘要】
语音识别交互的实现方法及装置


[0001]本专利技术属于人工智能
,具体涉及一种语音识别交互的实现方法及装置。

技术介绍

[0002]随着人工智能及语音识别技术的不断发展,提高人机交互效率的需求日益增长,对机器的反应速度和准确度都有更高的要求。语音识别是将“语音”转换成对应的“文字”,语音唤醒是在连续的语音流中实时检测出说话人的特点片段。
[0003]Oneshot是将一句话唤醒并识别的交互方式,比如:唤醒词是“你好小意”,这时候可以说“你好小意,打开收音机”,这就是一个语音识别的交互。语音识别的交互方式需要语音唤醒引擎和语音识别引擎。最初的语音识别是将一句话完整的送给识别,由语音识别引擎进行处理,然后对识别结果进行切割。这种方式存在2个问题,其中一个问题是,唤醒词的识别率没有唤醒的关键词检查能力强,如果出现误识别,就不会对误识别的唤醒词进行切割,导致识别结果错误。另一个问题是在设计上可以更换唤醒词,如果更换了唤醒词,识别模型没有兼容新的唤醒词,会导致识别错误。
[0004]相关技术中,通过唤醒边界处理的方式,将唤醒部分的声音数据不送给语音识别引擎,虽然能够解决上述问题,但是又出现了新的问题,由于语音唤醒是存在时延的,进入识别引擎的部分语音就会丢失,导致无法识别正确,称这种现象为丢字问题。如果没有唤醒时延,缺失后验会导致误唤醒率严重升高,这就导致唤醒时延必须客观存在。如果将唤醒延时一起送给识别引擎,这样就能解决识别丢字的问题了,但是又出现了新的问题,唤醒的延时可能会包含唤醒词的尾音,这样就导致识别可能多字的问题,称这种现象为多字问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种语音识别交互的实现方法及装置,以解决现有技术中语音识别时丢字和多字的问题。
[0006]为实现以上目的,本专利技术采用如下技术方案:一种语音识别交互的实现方法,包括:
[0007]获取待识别语音并发送至语音唤醒引擎中进行分析处理,输出唤醒结果,确定唤醒结果后输出唤醒延时信息;
[0008]将所述唤醒延时信息发送至语音识别引擎,输出识别结果。
[0009]进一步的,所述语音唤醒引擎包括:数据处理单元和边界处理单元;所述输出唤醒结果和唤醒延时信息,包括:
[0010]所述数据处理单元对所述待识别语音进行分析,判断所述待识别语音中是否满足唤醒条件,根据判断结果输出唤醒结果;
[0011]所述边界处理单元对所述待识别语音进行处理,得到唤醒延时信息。
[0012]进一步的,判断所述待识别语音中是否满足唤醒条件,包括:
[0013]判断所述待识别语音中是否存在唤醒词,如果存在,则所述待识别语音满足唤醒
条件,否则所述待识别语音不满足唤醒条件。
[0014]进一步的,所述对所述待识别语音进行处理,得到唤醒延时信息,包括:
[0015]对所述待识别语音进行分析,根据预设时间段的区间采样点的值计算平均值,将所述平均值确定为语音能量值;
[0016]根据语音能量值判断是否保留所述区间的语音数据作为唤醒延时信息;其中,所述唤醒延时信息中存在唤醒词最后一个字的尾音。
[0017]进一步的,所述根据语音能量值判断是否保留所述区间的语音数据作为唤醒延时信息,包括:
[0018]如果唤醒延时信息的语音能量值小于所述唤醒延时信息中第一帧的能量值,则丢弃所述唤醒延时信息;
[0019]如果唤醒延时信息的语音能量值大于所述唤醒延时信息中第一帧的能量值,则保留所述换线延时信息。
[0020]进一步的,所述预设时间段为10s。
[0021]本申请实施例提供一种语音识别交互的实现装置,包括:
[0022]唤醒模块,用于获取待识别语音并发送至语音唤醒引擎中进行分析处理,输出唤醒结果,确定唤醒结果后输出唤醒延时信息;
[0023]识别模块,用于将所述唤醒延时信息发送至语音识别引擎,输出识别结果。
[0024]进一步的,所述唤醒模块,包括:
[0025]数据处理单元和边界处理单元;
[0026]所述数据处理单元用于对所述待识别语音进行分析,判断所述待识别语音中是否满足唤醒条件,根据判断结果输出唤醒结果;
[0027]所述边界处理单元用于对所述待识别语音进行处理,得到唤醒延时信息。
[0028]本申请实施例提供一种计算机设备,包括:存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述任一项语音识别交互的实现方法的步骤。
[0029]本申请实施例还提供一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述任一项语音识别交互的实现方法的步骤。
[0030]本专利技术采用以上技术方案,能够达到的有益效果包括:
[0031]本专利技术提供一种语音识别交互的实现方法及装置,所述方法包括获取待识别语音并发送至语音唤醒引擎中进行分析处理,输出唤醒结果和唤醒延时信息;将所述唤醒延时信息发送至语音识别引擎,输出识别结果。本专利技术通过语音唤醒引擎中设置的边界处理以及唤醒时延,能够识别多字或少字的问题,使得语音识别准确率更高,提高了智能语音助手的反应速度和准确度,使得智能语音变的更加智能。
附图说明
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1为本专利技术语音识别交互的实现方法的步骤示意图;
[0034]图2为本专利技术语音识别交互的实现方法的流程示意图;
[0035]图3为本专利技术语音识别交互的实现装置的结构示意图;
[0036]图4为本专利技术语音识别交互的实现方法的运行环境的硬件结构示意图。
具体实施方式
[0037]为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。
[0038]下面结合附图介绍本申请实施例中提供的一个具体的语音识别交互的实现方法及装置。
[0039]如图1所示,本申请实施例中提供的语音识别交互的实现方法,包括:
[0040]S101,获取待识别语音并发送至语音唤醒引擎中进行分析处理,输出唤醒结果,确定唤醒结果后输出唤醒延时信息;
[0041]一些实施例中,所述语音唤醒引擎包括:数据处理单元和边界处理单元;所述输出唤醒结果和唤醒延时信息,包括:
[0042]所述数据处理单元对所述待识别语音进行分析,判断所述待识别语音中是否满足唤醒条本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别交互的实现方法,其特征在于,包括:获取待识别语音并发送至语音唤醒引擎中进行分析处理,输出唤醒结果,确定唤醒结果后输出唤醒延时信息;将所述唤醒延时信息发送至语音识别引擎,输出识别结果。2.根据权利要求1所述的方法,其特征在于,所述语音唤醒引擎包括:数据处理单元和边界处理单元;所述输出唤醒结果和唤醒延时信息,包括:所述数据处理单元对所述待识别语音进行分析,判断所述待识别语音中是否满足唤醒条件,根据判断结果输出唤醒结果;所述边界处理单元对所述待识别语音进行处理,得到唤醒延时信息。3.根据权利要求2所述的方法,其特征在于,判断所述待识别语音中是否满足唤醒条件,包括:判断所述待识别语音中是否存在唤醒词,如果存在,则所述待识别语音满足唤醒条件,否则所述待识别语音不满足唤醒条件。4.根据权利要求2所述的方法,其特征在于,所述对所述待识别语音进行处理,得到唤醒延时信息,包括:对所述待识别语音进行分析,根据预设时间段的区间采样点的值计算平均值,将所述平均值确定为语音能量值;根据语音能量值判断是否保留所述区间的语音数据作为唤醒延时信息;其中,所述唤醒延时信息中存在唤醒词最后一个字的尾音。5.根据权利要求4所述的方法,其特征在于,所述根据语音能量值判断是否保留所述区间的语音数据作为唤醒延时信息,包括...

【专利技术属性】
技术研发人员:赵茂祥刘威李全忠何国涛蒲瑶
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1