语音识别交互的实现方法及装置制造方法及图纸

技术编号：35681647 阅读：24 留言：0更新日期：2022-11-23 14:24

本发明专利技术涉及一种语音识别交互的实现方法及装置，所述方法包括获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果和唤醒延时信息；将所述唤醒延时信息发送至语音识别引擎，输出识别结果。本发明专利技术通过语音唤醒引擎中设置的边界处理以及唤醒时延，能够识别多字或少字的问题，使得语音识别准确率更高，提高了智能语音助手的反应速度和准确度，使得智能语音变的更加智能。智能语音变的更加智能。智能语音变的更加智能。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别交互的实现方法及装置

[0001]本专利技术属于人工智能
，具体涉及一种语音识别交互的实现方法及装置。

技术介绍

[0002]随着人工智能及语音识别技术的不断发展，提高人机交互效率的需求日益增长，对机器的反应速度和准确度都有更高的要求。语音识别是将“语音”转换成对应的“文字”，语音唤醒是在连续的语音流中实时检测出说话人的特点片段。
[0003]Oneshot是将一句话唤醒并识别的交互方式，比如：唤醒词是“你好小意”，这时候可以说“你好小意，打开收音机”，这就是一个语音识别的交互。语音识别的交互方式需要语音唤醒引擎和语音识别引擎。最初的语音识别是将一句话完整的送给识别，由语音识别引擎进行处理，然后对识别结果进行切割。这种方式存在2个问题，其中一个问题是，唤醒词的识别率没有唤醒的关键词检查能力强，如果出现误识别，就不会对误识别的唤醒词进行切割，导致识别结果错误。另一个问题是在设计上可以更换唤醒词，如果更换了唤醒词，识别模型没有兼容新的唤醒词，会导致识别错误。
[0004]相关技术中，通过唤醒边界处理的方式，将唤醒部分的声音数据不送给语音识别引擎，虽然能够解决上述问题，但是又出现了新的问题，由于语音唤醒是存在时延的，进入识别引擎的部分语音就会丢失，导致无法识别正确，称这种现象为丢字问题。如果没有唤醒时延，缺失后验会导致误唤醒率严重升高，这就导致唤醒时延必须客观存在。如果将唤醒延时一起送给识别引擎，这样就能解决识别丢字的问题了，但是又出现了新的问题，唤醒的延时可能会包含唤醒词的尾音，这样就导致识...

【技术保护点】

【技术特征摘要】
1.一种语音识别交互的实现方法，其特征在于，包括：获取待识别语音并发送至语音唤醒引擎中进行分析处理，输出唤醒结果，确定唤醒结果后输出唤醒延时信息；将所述唤醒延时信息发送至语音识别引擎，输出识别结果。2.根据权利要求1所述的方法，其特征在于，所述语音唤醒引擎包括：数据处理单元和边界处理单元；所述输出唤醒结果和唤醒延时信息，包括：所述数据处理单元对所述待识别语音进行分析，判断所述待识别语音中是否满足唤醒条件，根据判断结果输出唤醒结果；所述边界处理单元对所述待识别语音进行处理，得到唤醒延时信息。3.根据权利要求2所述的方法，其特征在于，判断所述待识别语音中是否满足唤醒条件，包括：判断所述待识别语音中是否存在唤醒词，如果存在，则所述待识别语音满足唤醒条件，否则所述待识别语音不满足唤醒条件。4.根据权利要求2所述的方法，其特征在于，所述对所述待识别语音进行处理，得到唤醒延时信息，包括：对所述待识别语音进行分析，根据预设时间段的区间采样点的值计算平均值，将所述平均值确定为语音能量值；根据语音能量值判断是否保留所述区间的语音数据作为唤醒延时信息；其中，所述唤醒延时信息中存在唤醒词最后一个字的尾音。5.根据权利要求4所述的方法，其特征在于，所述根据语音能量值判断是否保留所述区间的语音数据作为唤醒延时信息，包括...

【专利技术属性】
技术研发人员：赵茂祥，刘威，李全忠，何国涛，蒲瑶，
申请(专利权)人：普强时代珠海横琴信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人