音频播放方法、装置、计算机可读存储介质及电子设备制造方法及图纸

技术编号:29300779 阅读:56 留言:0更新日期:2021-07-17 01:21
本公开实施例公开了一种音频播放方法、装置、计算机可读存储介质及电子设备,其中,该方法包括:获取针对目标空间内的至少一个用户采集的意图判决数据;基于意图判决数据,确定至少一个用户具有的目标发声意图;确定表征至少一个用户的当前特征的特征信息;从预设音频库中提取并播放与特征信息对应的音频。本公开实施例实现了由电子设备自动判断用户的目标发声意图,无需用户主动触发音频播放的操作,减少了用户进行音频播放的操作的步骤,提高了音频播放操作的便利性。此外,通过确定用户当前的特征,使播放的音频与用户的特征相适应,从而实现了更精准地播放用户想收听音频,提高了自动播放音频的针对性。自动播放音频的针对性。自动播放音频的针对性。

【技术实现步骤摘要】
音频播放方法、装置、计算机可读存储介质及电子设备


[0001]本公开涉及计算机
,尤其是一种音频播放方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]近年来,随着智能电子设备的不断推广,人机交互的手段越来越丰富。人与设备可以通过语音识别、手势识别等方式进行交互。例如在智能汽车领域,用户可以通过手动操作、语音控制等方式操控车载电子设备,如开启音乐播放、打开或关闭空调、设置导航、修改导航等。在用户控制音频播放设备时,目前主要采用手动控制、语音识别等方式主动地控制音频播放设备播放音乐、打开收音机等。

技术实现思路

[0003]本公开的实施例提供了一种音频播放方法、装置、计算机可读存储介质及电子设备。
[0004]本公开的实施例提供了一种音频播放方法,该方法包括:获取针对目标空间内的至少一个用户采集的意图判决数据;基于意图判决数据,确定至少一个用户具有的目标发声意图;确定表征至少一个用户的当前特征的特征信息;从预设音频库中提取并播放与特征信息对应的音频。
[0005]根据本公开实施例的另一个方面,提供了一种音频播放装置,该装置包括:获取模块,用于获取针对目标空间内的至少一个用户采集的意图判决数据;第一确定模块,用于基于意图判决数据,确定至少一个用户具有的目标发声意图;第二确定模块,用于确定表征至少一个用户的当前特征的特征信息;第一播放模块,用于从预设音频库中提取并播放与特征信息对应的音频。
[0006]根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于执行上述音频播放方法。
[0007]根据本公开实施例的另一个方面,提供了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述音频播放方法。
[0008]基于本公开上述实施例提供的音频播放方法、装置、计算机可读存储介质及电子设备,通过对目标空间内的至少一个用户采集意图判决数据,根据意图判决数据,确定用户的目标发声意图,再根据目标发声意图确定特征信息,最后从预设音频库中提取与特征信息对应的音频并播放,从而实现了由电子设备自动判断用户的目标发声意图,无需用户主动触发音频播放的操作,减少了用户进行音频播放的操作的步骤,提高了音频播放操作的便利性。此外,通过确定用户当前的特征,使播放的音频与用户的特征相适应,从而实现了更精准地播放用户想收听的音频,提高了自动播放音频的针对性。
[0009]下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
[0010]通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0011]图1是本公开所适用的系统图。
[0012]图2是本公开一示例性实施例提供的音频播放方法的流程示意图。
[0013]图3是本公开另一示例性实施例提供的音频播放方法的流程示意图。
[0014]图4是本公开另一示例性实施例提供的音频播放方法的流程示意图。
[0015]图5是本公开另一示例性实施例提供的音频播放方法的流程示意图。
[0016]图6是本公开另一示例性实施例提供的音频播放方法的流程示意图。
[0017]图7是本公开另一示例性实施例提供的音频播放方法的流程示意图。
[0018]图8是本公开另一示例性实施例提供的音频播放方法的流程示意图。
[0019]图9是本公开一示例性实施例提供的音频播放装置的结构示意图。
[0020]图10是本公开另一示例性实施例提供的音频播放装置的结构示意图。
[0021]图11是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
[0022]下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
[0023]应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0024]本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
[0025]还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
[0026]还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
[0027]另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0028]还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
[0029]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0030]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
[0031]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0032]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0033]本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
[0034]终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频播放方法,包括:获取针对目标空间内的至少一个用户采集的意图判决数据;基于所述意图判决数据,确定所述至少一个用户具有的目标发声意图;确定表征所述至少一个用户的当前特征的特征信息;从预设音频库中提取并播放与所述特征信息对应的音频。2.根据权利要求1所述的方法,其中,在所述提取并播放与所述特征信息对应的音频之后,所述方法还包括:从所述至少一个用户当前发出的混合声音信号中提取用户音频信息;在所述用户音频信息符合预设条件的情况下,播放所述用户音频信息。3.根据权利要求2所述的方法,其中,在所述播放所述用户音频信息之后,所述方法还包括:从所述至少一个用户中确定所述用户音频信息对应的目标用户并获取所述目标用户的脸部图像;将所述用户音频信息对应的用户的脸部图像输入预先训练的第一情绪识别模型,得到所述至少一个用户分别对应的情绪类别信息;基于所述情绪类别信息,确定表征所述用户音频信息对应的用户的情绪与当前播放的音频的类型的匹配程度的第一评分;和/或,基于所述用户音频信息,确定表征所述用户音频信息与所述当前播放的音频的匹配程度的第二评分;基于所述第一评分和/或所述第二评分,确定所述用户音频信息的评分并输出。4.根据权利要求2所述的方法,其中,在所述播放所述用户音频信息之后,所述方法还包括:从所述至少一个用户中确定所述用户音频信息对应的目标用户并获取所述目标用户的脸部图像;将所述用户音频信息对应的用户的脸部图像和所述用户音频信息输入预先训练的第二情绪识别模型,得到情绪类别信息;基于所述情绪类别信息,确定表征所述用户音频信息对应的用户的情绪与当前播放的音频的类型的匹配程度的评分并输出。5.根据权利要求4所述的方法,其中,所述将所述用户音频信息对应的用户的脸部图像和所述用户音频信息输入预先训练的第二情绪识别模型,得到情绪类别信息,包括:将所述用户音频信息对应的用户的脸部图像和所述用户音频信息输入所述第二情绪识别模型,得到第三情绪类别信息序列,其中,所述第三情绪类别信息序列中的情绪类别信息分别对应于一个脸部图像子序列;所述基于所述情绪类别信息,确定表征所述用户音频信息对应的用户的情绪与当前播放的音频的类型的匹配程度的评分,包括:获取所述当前播放的音频对应的视频,并从所述视频中提取目标人物的脸部图像序列;将所述脸部图像序列和所述当前播放的音频输入所述第二情绪识别模型,得到第四情绪类别信息序列;
确定所述第三情绪类别信息序列和所述第四情绪类别信息序列之间的相似度;基于所述相似度,确定表征所述用户音频信息对应的用户的情绪与当前播放的音频的类型的匹配程度的评分。6.根据权利要求2所述的方法,其中,所述从所述至少一个用户当前发出的混合声音信号中提取用户音频信息,包括:获取设置在所述目标空间的音频采集设备采集的初始音频信息;对所述初始音频信息进行人声分离,得到至少一路用户音频信息,其中,所述至少一路用户音频信息分别对应于一个用户。7.根据权利要求2所...

【专利技术属性】
技术研发人员:朱长宝牛建伟余凯
申请(专利权)人:深圳地平线机器人科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1