基于智能玩偶的语音互动方法及相关装置制造方法及图纸

技术编号:39322340 阅读:11 留言:0更新日期:2023-11-12 16:02
本申请实施例公开了一种基于智能玩偶的语音互动方法及相关装置,所述方法包括:服务器接收来自智能玩偶的实时音频数据,并根据实时音频数据向智能玩偶发送第一语音交互消息,以使智能玩偶根据第一语音互动内容与目标用户互动。本申请有利于提高智能玩偶的智能性和可玩性。可玩性。可玩性。

【技术实现步骤摘要】
基于智能玩偶的语音互动方法及相关装置


[0001]本申请涉及互联网产业的一般数据处理
,具体涉及一种基于智能玩偶的语音互动方法及相关装置。

技术介绍

[0002]当前具备语音互动功能的玩偶,其语音互动主要是通过先对用户的语音进行录音,再输出采集的录音内容,以与该用户进行互动。可见,现有的具备语音互动功能的玩偶在互动过程中反应比较机械,不够智能,用户使用的兴致较低。

技术实现思路

[0003]本申请实施例提供了一种基于智能玩偶的语音互动方法及相关装置,以期提高智能玩偶的智能性,以提高智能玩偶的可玩性。
[0004]第一方面,本申请实施例提供了一种基于智能玩偶的语音互动方法,应用于语音互动系统中的智能玩偶,所述语音互动系统包括服务器和所述智能玩偶,所述智能玩偶包括摄像模块和语音模块,所述方法包括:
[0005]通过所述摄像模块采集实时图像数据,以及,通过所述语音模块采集实时音频数据;
[0006]向所述服务器上传所述实时图像数据和所述实时音频数据;
[0007]若接收到来自所述服务器的第一互动消息,则,响应于所述第一互动消息,根据第一语音互动内容与目标用户进行语音交互,所述第一语音互动内容为所述服务器根据所述实时图像数据和所述实时音频数据确定的内容。
[0008]第二方面,本申请实施例提供了一种语音互动装置,应用于语音互动系统中的智能玩偶,所述语音互动系统包括服务器和所述智能玩偶,所述智能玩偶包括摄像模块和语音模块,所述装置包括:
[0009]采集单元,用于获取通过所述摄像模块采集实时图像数据,以及,获取通过所述语音模块采集实时音频数据;
[0010]传输单元,用于向所述服务器上传所述实时图像数据和所述实时音频数据;接收来自所述服务器的第一互动消息;
[0011]响应单元,用于在接收到来自所述服务器的第一互动消息时,响应于所述第一互动消息,根据第一语音互动内容与目标用户进行语音交互,所述第一语音互动内容为所述服务器根据所述实时图像数据和所述实时音频数据确定的内容。
[0012]第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行本申请实施例第一方面中的步骤的指令。
[0013]第四方面,本申请实施例提供了一种计算机存储介质,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如本实施例第一方面中所描述的部分
或全部步骤。
[0014]可以看出,本实施例中,智能玩偶通过语音模块和摄像模块将实时采集的实时音频数据和实时图像数据,并向服务器上传实时音频数据和实时图像数据,以使服务器根据实时音频数据和实时图像数据确定出第一语音互动内容,并向智能玩偶发送携带第一语音互动内容的第一互动消息,从而使智能玩偶响应于第一互动消息根据第一语音互动内容与目标用户进行语音交互。可见,本申请通过上述方案实现智能玩偶和目标用户的语音交互时,可通过智能玩偶和服务器之间的信息实时传输和处理,提高对智能玩偶采集的实时图像数据和实时音频数据处理的及时性、以及处理结果的可靠性,从而提高智能玩偶主动响应的灵活性和准确性。同时,智能玩偶通过响应第一互动消息主动输出第一语音互动内容,进一步提高了智能玩偶的智能性和可玩性。
附图说明
[0015]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1a是本申请实施例提供的一种示例语音互动系统的架构示意图;
[0017]图1b是本申请实施例提供的一种服务器的组成示例图;
[0018]图2a是本申请实施例提供的一种基于智能玩偶的语音互动方法的流程示意图;
[0019]图2b是本申请实施例提供的另一种基于智能玩偶的语音互动方法的流程示意图;
[0020]图3是本申请实施例提供的一种智能玩偶的使用场景示意图
[0021]图4a是本申请实施例提供的一种语音互动装置的功能单元组成框图;
[0022]图4b是本申请实施例提供的另一种语音互动装置的功能单元组成框图。
具体实施方式
[0023]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0025]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0026]下面结合附图对本申请实施例进行说明。
[0027]本申请的技术方案可以应用于如图1a所示的语音互动系统10,该语音互动系统10包括智能玩偶100和服务器200。
[0028]本申请中的电子设备的组成结构可以如图1b所示,电子设备可以为智能玩偶和服务器,智能玩偶100和服务器200可以包括处理器110、存储器120、通信接口130以及一个或多个程序121,其中,所述一个或多个程序121被存储在上述存储器120中,且被配置由上述处理器110执行,所述一个或多个程序121包括用于执行上述方法实施例中任一步骤的指令。
[0029]其中,通信接口130用于支持智能玩偶100和服务器200与其他设备的通信。处理器110例如可以是中央处理器(Central Processing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于智能玩偶的语音互动方法,其特征在于,应用于语音互动系统中的智能玩偶,所述语音互动系统包括服务器和所述智能玩偶,所述智能玩偶包括摄像模块和语音模块,所述方法包括:通过所述摄像模块采集实时图像数据,以及,通过所述语音模块采集实时音频数据;向所述服务器上传所述实时图像数据和所述实时音频数据;若接收到来自所述服务器的第一互动消息,则,响应于所述第一互动消息,根据第一语音互动内容与目标用户进行语音交互,所述第一语音互动内容为所述服务器根据所述实时图像数据和所述实时音频数据确定的内容。2.如权利要求1所述的方法,其特征在于,所述第一互动消息为所述服务器检测到所述目标用户处于独处状态时向所述智能玩偶发送的内容,所述独处状态为所述服务器检测所述实时图像数据和所述实时音频数据得到的所述目标用户的个体状态,所述个体状态包括所述独处状态和非独处状态,所述第一语音互动内容为所述第一互动消息携带的内容,所述第一语音互动内容关联所述目标用户的情绪状态,所述目标用户的情绪状态为所述服务器根据所述实时图像数据和所述实时音频数据确定的内容。3.如权利要求2所述的方法,其特征在于,所述情绪状态包括稳定状态、较不稳定状态、以及不稳定状态;若所述第一语音互动内容关联的所述目标用户的情绪状态为较不稳定状态关联,则所述第一语音互动内容为所述服务器根据事件关联信息确定的内容,所述事件关联信息关联所述目标用户的当前执行动作,所述目标用户的当前执行动作为所述服务器根据所述实时图像数据中所述目标用户的用户图像信息和所述实时音频数据中所述目标用户的用户音频信息分析得到的内容。4.如权利要求3所述的方法,其特征在于,若所述第一语音互动内容关联的所述目标用户的情绪状态为较不稳定状态关联,则,在执行所述响应于所述第一互动消息,根据第一语音互动内容与目标用户进行语音交互的过程中,所述方法还包括:接收来自所述服务器的第三互动消息,所述第三互动消息为所述服务器检测到所述目标用户的用户满意度低于预设阈值时向所述智能玩偶发送的内容,所述用户满意度是指所述目标用户对所述第一语音互动内容的满意度,所述用户满意度为所述服务器根据所述实时图像数据和所述实时音频数据解析得到的内容;响应于所述第三互动消息,将所述第一语音互动内容更新为第三语音交互内容,所述第三语音互动内容为所述第三互动消息携带的内容,所述第三语音互动内容关联所述目标用户的兴趣信息,所述兴趣信息为所述服务器根据历史图像信息和历史音频信息解析得到的所述目标用户表现出感兴趣的内容;根据所述第三语音交互内容与所述目标用户进行语音交互。5.如权利要求2所述的方法,其特征在于,所述情绪状态包括稳定状态、较不稳定状态、以及不稳定状态;若所述第一语音互动内容关联的所述目标用户的情绪状态为不稳定状态关联,则,所述向所述服务器上传所...

【专利技术属性】
技术研发人员:王一
申请(专利权)人:深圳市人马互动科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1