用于智能语音设备的方法、装置、设备和介质制造方法及图纸

技术编号:31911932 阅读:11 留言:0更新日期:2022-01-15 12:52
本公开提供了一种用于智能语音设备的方法、装置、设备和介质,涉及计算机技术领域,尤其涉及人工智能和语音技术。实现方案为:基于用户的生物特征,确定用户的年龄区间;基于年龄区间,选择预设的第一语速参数用于播报语音;响应于识别出用户的身份,基于用户的历史语速记录,调整第一语速参数,以确定第二语速参数,其中,历史语速记录包括智能语音设备在与用户的至少一次交互中,从用户的声纹特征中提取的特定于用户的语速参数;以及基于第二语速参数播报语音。速参数播报语音。速参数播报语音。

【技术实现步骤摘要】
用于智能语音设备的方法、装置、设备和介质


[0001]本公开涉及计算机
,尤其涉及人工智能和语音技术,具体涉及一种用于智能语音设备的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]语音合成,又称文语转换(Text to Speech,TTS)技术,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种用于智能语音设备的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种用于智能语音设备的方法,包括:基于用户的生物特征,确定用户的年龄区间;基于年龄区间,选择预设的第一语速参数用于播报语音;响应于识别出用户的身份,基于用户的历史语速记录,调整第一语速参数,以确定第二语速参数,其中,历史语速记录包括智能语音设备在与用户的至少一次交互中,从用户的声纹特征中提取的特定于用户的语速参数;以及基于第二语速参数播报语音。
[0007]根据本公开的另一方面,提供了一种用于智能语音设备的装置,包括:第一确定单元,被配置为基于用户的生物特征,确定用户的年龄区间;选择单元,被配置为基于年龄区间,选择预设的第一语速参数用于播报语音;第一调整单元,被配置为响应于识别出用户的身份,基于用户的历史语速记录,调整第一语速参数,其中,历史语速记录包括智能语音设备在与用户的至少一次交互中,从用户的声纹特征中提取的特定于用户的语速参数,以确定第二语速参数;以及播报单元,被配置为基于第二语速参数播报语音。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述用于智能语音设备的方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述用于智能语音设备的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述用于智能语音设备的方法。
[0011]根据本公开的另一方面,提供了一种智能语音设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述智能语音设备所执行的方法。
[0012]根据本公开的一个或多个实施例,可以根据用户的不同年龄段实现对播放语速的调整,同时,也可以实现对同一年龄段的不同用户的播放语速进行个性化调节。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0015]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0016]图2示出了根据本公开的实施例的用于智能语音设备的方法的流程图;
[0017]图3示出了根据本公开的实施例的确定用户的年龄区间的流程图;
[0018]图4示出了根据本公开的实施例的基于用户的历史语速记录,调整第一语速参数的流程图;
[0019]图5示出了根据本公开的实施例的用于智能语音设备的方法的流程图;
[0020]图6示出了根据本公开的实施例的基于第三语速参数,确定第二语速参数的流程图;
[0021]图7示出了根据本公开的实施例的用于智能语音设备的方法的流程图;
[0022]图8示出了根据本公开的实施例的用于智能语音设备的装置的结构框图;
[0023]图9示出了根据本公开的实施例的第一确定单元的结构框图;
[0024]图10示出了根据本公开的实施例的用于智能语音设备的装置的结构框图;
[0025]图11示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0026]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0027]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0028]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0029]现有智能语音设备仅实现了针对用户的年龄段进行语速调整的功能,但是对于同一年龄段的不同用户,无法实现进一步的个性化语速调整。
[0030]为解决上述问题,本公开通过识别用户的年龄段,根据用户的不同年龄段实现对播放语速的调整;同时,提取用户的声纹特征,通过用户历史语速记录实现对同一年龄段的不同用户的播放语速进行个性化调整。
[0031]下面将结合附图详细描述本公开的实施例。
[0032]图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于智能语音设备的方法,包括:基于用户的生物特征,确定所述用户的年龄区间;基于所述年龄区间,选择预设的第一语速参数用于播报语音;响应于识别出所述用户的身份,基于所述用户的历史语速记录,调整所述第一语速参数,以确定第二语速参数,其中,所述历史语速记录包括所述智能语音设备在与所述用户的至少一次交互中,从所述用户的声纹特征中提取的特定于所述用户的语速参数;以及基于所述第二语速参数播报语音。2.根据权利要求1所述的方法,其中,所述生物特征包括所述用户的人脸特征和声纹特征。3.根据权利要求2所述的方法,其中,基于所述用户的生物特征,确定所述用户的所述年龄区间包括:基于所述用户的所述人脸特征,确定所述用户的第一预测年龄;基于所述用户的所述声纹特征,确定所述用户的第二预测年龄;响应于所述第一预测年龄与所述第二预测年龄的差值不超过第一阈值,确定所述用户的年龄为所述第一预测年龄;响应于所述第一预测年龄与所述第二预测年龄的差值超过第一阈值,确定所述用户的年龄为所述第二预测年龄;以及基于所确定的所述用户的年龄,确定所述用户的所述年龄区间。4.根据权利要求1至3中任一项所述的方法,其中,所述响应于识别出所述用户的身份,基于所述用户的历史语速记录,调整所述第一语速参数包括:响应于识别出所述用户的身份,读取所述用户的至少一个历史语速记录;对所述至少一个历史语速记录进行正态分布拟合,以计算所述至少一个历史语速记录的正态分布均值;以及基于所述正态分布均值,调整所述第一语速参数。5.根据权利要求4所述的方法,还包括:基于所述用户对于播放语速的设置记录值,调整所述第一语速参数。6.根据权利要求5所述的方法,其中,所述调整所述第一语速参数,以确定第二语速参数包括:计算所述正态分布均值、所述设置记录值以及所述第一语速参数的加权平均值,以确定第三语速参数;以及基于所述第三语速参数,确定所述第二语速参数。7.根据权利要求6所述的方法,其中,所述基于所述第三语速参数,确定所述第二语速参数包括:响应于所述第三语速参数与所述设置记录值的差值不超过第二阈值,将所述第三语速参数确定为所述第二语速参数;以及响应于所述第三语速参数与所述设置记录值的差值超过第二阈值,将所述设置记录值确定为所述第二语速参数。8.根据权利要求1至3中任一项所述的方法,还包括:基于待播报内容的内容类别,调整所述第一语速参数。
9.一种用于智能语音设备的装置,包括:第一确定单元,被配置为基于用户的生物特征,确定所述用户的年龄区间;选择单元,被配置为基于所述年龄区间,选择预设的第一语速参数用于播报语音;第一调整单元,被配置为响应于识别出所述用户的身份,基于所述用户的历史语速记录,调整所述第一语速参数,其中,所述历史语速记录包括所述智能语音设备在与所述用户的至少一次交互中,从所述用户的声纹特征中提取的特定于所述用户的语速参数,以确定第二语速参数;以及播报单元,被配置为基于所述第二语速参数播报语音。10.根据权利要求9所述的装置,其中,所述生物特征包括所述用户的人脸特征和声纹特...

【专利技术属性】
技术研发人员:王国旭金鹿米雪夏伟薛军涛蒋祥涛贾振超
申请(专利权)人:上海小度技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1