音频传输方法、控制设备及终端设备技术

技术编号:34807870 阅读:14 留言:0更新日期:2022-09-03 20:15
本申请一些实施例提供了一种音频传输方法、控制设备及终端设备,接收用户输入的语音数据流,响应于语音数据流,语音数据流包括多个语音数据块;在语音数据块中识别特征词,特征词包括第一特征词和第二特征词;第一特征词对应语音的输入时间先于第二特征词对应语音的输入时间;如果在语音数据块中识别出第一特征词,则为语音数据流设置识别成功标志,将带有识别成功标志的语音数据流发送至终端设备,以使终端设备在语音数据流中识别第二特征词。本申请通过实现在控制设备和终端设备的快速响应,缩短唤醒时间,改善唤醒性能。因此,本申请不仅可以高效快速地完成音频传输和终端设备的二次校验,还能够提升用户体验感。还能够提升用户体验感。还能够提升用户体验感。

【技术实现步骤摘要】
音频传输方法、控制设备及终端设备


[0001]本申请涉及语音识别
,尤其涉及一种音频传输方法、控制设备及终端设备。

技术介绍

[0002]终端设备是指能够输出具体显示画面的一些电子设备,如智能电视、移动终端、智能广告屏、投影仪等。随着终端设备的快速发展,终端设备的功能将越来越丰富,性能也越来越强大,可实现双向人机交互功能,集影音、娱乐、数据等多种功能于一体,用于满足用户多样化和个性化需求。
[0003]随着终端设备的发展,人们对终端设备的要求也越来越高,通过手动操作进行已经不能满足方便快捷的需要,更多的终端设备是通过语音来进行控制,但语音控制一直处于等待状态,造成终端设备的功耗很大,这个时候就突显唤醒词识别的重要性。唤醒词识别是语音识别任务的一个分支,需要从一串语音流里检测出有限个预先定义的激活词或者关键词,而不需要对所有的语音进行识别。唤醒词是通过预先设定,一般唤醒词是由四个字组成,因为音节覆盖越多,音节差异越大,相对唤醒的性能和误唤醒性能越好。
[0004]但是现有基于唤醒词的语音识别传输方式中,在目标说话人使用唤醒词进行唤醒的过程中,需要目标说话人说出完整的唤醒词,才将完整保存下来的音频进行传输。导致整个唤醒过程时间很长,无法高效快速地完成语音传输,带来的用户体验感较差。

技术实现思路

[0005]本专利技术提供了一种音频传输方法、终端设备及终端设备。以解决用户在启动唤醒指令时,整个唤醒过程时间过长,无法高效快速地完成语音传输的问题。
[0006]第一方面,本申请一些实施例提供了一种控制设备,所述控制设备包括:
[0007]通信模块,被配置为与终端设备通信连接;
[0008]控制模块,被配置为:
[0009]接收用户输入的语音数据流;
[0010]响应于所述语音数据流,所述语音数据流包括多个语音数据块;
[0011]在所述语音数据块中识别特征词,所述特征词包括语音交互唤醒词中的至少一个关键字;所述特征词包括第一特征词和第二特征词;所述第一特征词对应语音的输入时间先于所述第二特征词对应语音的输入时间;
[0012]如果在所述语音数据块中识别出所述第一特征词,则为所述语音数据流设置识别成功标志,所述识别成功标志中包括所述第一特征词;
[0013]将带有所述识别成功标志的语音数据流发送至终端设备,以使所述终端设备在所述语音数据流中识别所述第二特征词。
[0014]第二方面,本申请一些实施例提供了一种终端设备,所述终端设备包括:
[0015]通信器,被配置为与控制设备通信连接;
[0016]控制器,被配置为:
[0017]获取语音数据流,所述语音数据流包括多个所述语音数据块;所述语音数据流为所述终端设备在所述语音数据块中识别出第一特征词时发送的流媒体数据,所述语音数据流带有识别成功标志,所述识别成功标志中包括所述第一特征词;
[0018]在所述语音数据流中识别第二特征词,所述第一特征词对应语音的输入时间先于所述第二特征词对应语音的输入时间。
[0019]第三方面,本申请一些实施例提供了一种音频传输方法,所述方法包括:
[0020]控制设备接收用户输入的语音数据流;
[0021]并响应于所述语音数据流,所述语音数据流包括多个数据块;以及,在所述语音数据块中识别特征词,所述特征词包括语音交互唤醒词中的至少一个关键字;所述特征词包括第一特征词和第二特征词;所述第一特征词对应语音的输入时间先于所述第二特征词对应语音的输入时间;
[0022]如果在所述语音数据块中识别出所述第一特征词,则为所述语音数据流设置识别成功标志,所述识别成功标志中包括所述第一特征词;
[0023]将带有所述识别成功标志的语音数据流发送至终端设备,以使所述终端设备在所述语音数据流中识别所述第二特征词。
[0024]由以上技术方案可以看出,本申请一些实施例提供了一种音频传输方法、控制设备及终端设备,通过接收用户输入的语音数据流,语音数据流包括多个语音数据块,在语音数据块中识别特征词,特征词包括第一特征词和第二特征词。第一特征词对应语音的输入时间先于第二特征词对应语音的输入时间,如果在语音数据块中识别出第一特征词,则为语音数据流设置识别成功标志,将带有识别成功标志的语音数据流发送至终端设备,以使终端设备在语音数据流中识别所述第二特征词。本申请通过实现终端设备和终端设备的快速响应,缩短唤醒时间,改善唤醒性能。本申请不仅可以高效快速地完成音频传输和终端设备的二次校验,还能够提升用户体验感。
附图说明
[0025]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0026]图1示出了根据一些实施例的音频传输方法、控制设备100及终端设备200的系统架构示意图;
[0027]图2示出了根据一些实施例的控制设备100的硬件配置框图;
[0028]图3示出了根据一些实施例的终端设备200的硬件配置框图;
[0029]图4示出了根据一些实施例的终端设备200中软件配置图;
[0030]图5示出了根据一些实施例的一种语音交互网络架构示意图;
[0031]图6示出了根据一些实施例中一种终端设备200的用户界面唤醒后的状态示意图;
[0032]图7示出了根据一些实施例中现有的一种控制设备100与终端设备200的唤醒过程示意图;
[0033]图8示出了根据一些实施例中一种控制设备100与终端设备200的唤醒过程示意
图;
[0034]图9示出了根据一些实施例中另一种控制设备100与终端设备200的唤醒过程示意图;
[0035]图10示出了根据一些实施例中特征词识别模型训练学习过程示意图;
[0036]图11示出了根据一些实施例中采用现有唤醒流程计算唤醒时间的示意图;
[0037]图12示出了根据一些实施例中采用本申请实施例提供的唤醒流程计算唤醒时间的示意图。
具体实施方式
[0038]为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
[0039]基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
[0040]本申请中说明书和权利要求本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种控制设备,其特征在于,所述控制设备包括:通信模块,被配置为与终端设备通信连接;控制模块,被配置为:接收用户输入的语音数据流;响应于所述语音数据流,所述语音数据流包括多个语音数据块;在所述语音数据块中识别特征词,所述特征词包括语音交互唤醒词中的至少一个关键字;所述特征词包括第一特征词和第二特征词;所述第一特征词对应语音的输入时间先于所述第二特征词对应语音的输入时间;如果在所述语音数据块中识别出所述第一特征词,则为所述语音数据流设置识别成功标志,所述识别成功标志中包括所述第一特征词;将带有所述识别成功标志的语音数据流发送至终端设备,以使所述终端设备在所述语音数据流中识别所述第二特征词。2.根据权利要求1所述的控制设备,其特征在于,所述控制模块还被配置为:将所述唤醒词拆分为多个关键字;在所述语音数据块中识别所述唤醒词中的第一个关键字;如果在所述语音数据块中识别出第一个关键字,则向所述终端设备发送所述语音数据流,以使所述终端设备在所述语音数据流中识别所述唤醒词中除第一个关键字外的剩余关键字。3.根据权利要求1所述的控制设备,其特征在于,所述控制模块还被配置为:在所述语音数据块中识别特征词的步骤中,调用特征词识别模型,所述特征词识别模型为根据语音样本数据训练获得的神经网络模型;将所述语音数据块转化为文本信息;将所述文本信息输入所述特征词识别模型;获取所述特征词识别模型输出的当前所述语音数据块对所述特征词的分类概率;如果所述分类概率大于或等于识别概率阈值,确定在所述语音数据块中识别出所述特征词。4.根据权利要求1所述的控制设备,其特征在于,所述控制模块还被配置为:在所述语音数据流中识别所述唤醒词;如果在所述语音数据流中识别出所述唤醒词,则将所述唤醒词发送至所述终端设备,以使所述终端设备根据所述唤醒词唤醒语音交互功能。5.根据权利要求1所述的控制设备,其特征在于,所述控制模块进一步被配置为:在所述语音数据块中识别特征词的步骤中,按照时间顺序依次在多个所述语音数据块中识别所述特征词;如果在任一所述语音数据块中识别出所述特征词,则向所述终端设备发送识别出所述特征词的语音数据块,以及识别出所述特征词的语音数据块后的剩余语音数...

【专利技术属性】
技术研发人员:杨香斌
申请(专利权)人:海信视像科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1