语音交互方法、装置、设备和介质制造方法及图纸

技术编号:24760241 阅读:21 留言:0更新日期:2020-07-04 10:06
本发明专利技术实施例公开了一种语音交互方法、装置、设备和介质,涉及人工智能领域。该方法包括:响应用户声纹特征录入事件,对用户进行至少一次提问;获取用户基于所述至少一次提问的回答语音数据;根据所述回答语音数据提取用户的声纹特征;基于用户的声纹特征,对采集到的声音数据进行响应。本发明专利技术实施例提供的一种语音交互方法、装置、设备和介质,实现了用户在无需了解机器人的设定语音输入格式的情况下,自然地与机器人进行语音交互。

Voice interaction method, device, device and medium

【技术实现步骤摘要】
语音交互方法、装置、设备和介质
本专利技术实施例涉及人工智能领域,尤其涉及一种语音交互方法、装置、设备和介质。
技术介绍
随着技术的快速发展,基于语音交互的人工智能机器人也越来越多的出现在我们的生活中。当前在用户与机器人进行语音交互的过程中,需要用户按照设定的语音输入格式向机器人发送指令或响应机器人的输出。然而,上述交互过程需要用户了解机器人的设定语音输入格式,并且在基于设定语音输入格式进行语音输入时,用户无法自然地进行语音交互。从而导致用户使用体验差的问题。
技术实现思路
本专利技术实施例提供一种语音交互方法、装置、设备和介质,以实现用户在无需了解机器人的设定语音输入格式的情况下,自然地与机器人进行语音交互。第一方面,本专利技术实施例提供了一种语音交互方法,该方法包括:响应用户声纹特征录入事件,对用户进行至少一次提问;获取用户基于所述至少一次提问的回答语音数据;根据所述回答语音数据提取用户的声纹特征;基于用户的声纹特征,对采集到的声音数据进行响应。第二方面,本专利技术实施例还提供了一种语音交互装置,该装置包括:问题提问模块,用于响应用户声纹特征录入事件,对用户进行至少一次提问;语音获取模块,用于获取用户基于所述至少一次提问的回答语音数据;特征提取模块,用于根据所述回答语音数据提取用户的声纹特征;语音响应模块,用于基于用户的声纹特征,对采集到的声音数据进行响应。第三方面,本专利技术实施例还提供了一种设备,所述设备包括:一个或多个处理器;语音采集装置,用于采集语音数据;语音输出装置和/或显示装置,用于响应用户输入的语音数据;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术实施例中任一所述的语音交互方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例中任一所述的语音交互方法。本专利技术实施例通过提问与回答的交互方式,对用户的声纹特征进行采集。从而实现在用户无感知的情况下实现对用户声纹特征的采集,避免以指令方式让用户输入语音导致的用户的不自然感。通过基于用户的声纹特征响应采集到的声音数据,从而实现在无需用户按照设定语音输入格式或语音请求的情况下,识别用户语音数据,并对用户语音数据进行响应。因为没有按照设定语音输入格式或语音请求的限定,用户可以自然地进行交互。附图说明图1为本专利技术实施例一提供的一种语音交互方法的流程图;图2是本专利技术实施例二提供的一种语音交互方法的流程图;图3是本专利技术实施例三提供的语音交互方法的流程图;图4是本专利技术实施例四提供的一种语音交互装置的结构示意图;图5为本专利技术实施例五提供的一种设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种语音交互方法的流程图。本实施例可适用于响应用户语音输入的情况。该方法可以由一种语音交互装置来执行,该装置可以由软件和/或硬件的方式实现。典型地,该语音交互装置可以是具有语音识别功能的机器人。参见图1,本实施例提供的语音交互方法包括:S110、响应用户声纹特征录入事件,对用户进行至少一次提问。具体地,用户声纹特征录入事件可以是语音交互装置的首次开机,也可以是用户声纹特征录入控件的触发,还可以是检测到用户声纹特征录入的语音指令。可选地,用户声纹特征录入事件还可以是其他事件,具体可以根据实际需要设定,本实施例对此并不进行任何限定。具体提问内容可以根据需要设定。用户是具有语音交互装置的使用权限的人。S120、获取用户基于所述至少一次提问的回答语音数据。S130、根据所述回答语音数据提取用户的声纹特征。具体地,根据所述回答语音数据提取用户的声纹特征,包括:提取所述回答语音数据的声纹特征,根据提取的声纹特征确定用户声纹特征。专利技术人在实现本专利技术的过程中发现,进行语音交互的场景通常比较复杂,不可避免的在采集用户语音数据时会存在噪声的干扰。而噪声的干扰很容易导致提取的用户声纹特征不准确的问题,进而直接影响之后对用户语音的识别。为解决该问题,典型地根据所述回答语音数据提取用户的声纹特征,包括:根据各次提问的回答语音数据提取声纹特征;若提取地各次提问的回答语音数据的声纹特征的相似度满足设定相似度要求,则根据各次提问的回答语音数据的声纹特征确定用户的声纹特征;若提取地各次提问的回答语音数据的声纹特征的相似度不满足设定相似度要求,则继续对用户进行提问,直至获取到的用户基于提问的回答语音数据满足设定语音输入要求,根据获取的回答语音数据提取用户的声纹特征。S140、基于用户的声纹特征,对采集到的声音数据进行响应。具体地,所述基于用户的声纹特征,对采集到的声音数据进行响应,包括:提取采集到的声音数据的声纹特征;将采集到的声音数据的声纹特征与用户的声纹特征进行匹配;若匹配成功,则响应采集到的声音数据。其中,响应采集的语音数据包括:对采集到的声音数据进行识别,根据识别结果响应用户;或根据语音数据的发生方位,移动至用户面前;或播放问候语,例如,“用户你好!”、“用户您需要我做些什么?”等。本专利技术实施例的技术方案,通过提问与回答的交互方式,对用户的声纹特征进行采集。从而实现在用户无感知的情况下实现对用户声纹特征的采集,避免以指令方式让用户输入语音导致的用户的不自然感。通过基于用户的声纹特征响应采集到的声音数据,从而实现在无需用户按照设定语音输入格式或语音请求的情况下,识别用户语音数据,并对用户语音数据进行响应。因为没有按照设定语音输入格式或语音请求的限定,用户可以自然地进行交互。实施例二图2是本专利技术实施例二提供的一种语音交互方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2,本实施例提供的语音交互方法包括:S210、响应用户声纹特征录入事件,基于用户基本信息进行至少一次提问。其中,用户基本信息包括用户的称呼、性别、年龄等信息。S220、获取用户基于所述至少一次提问的回答语音数据。S230、根据所述回答语音数据提取用户的声纹特征以及识别用户的基本信息,将用户的声纹特征与用户的基本信息关联。S240、基于用户的基本信息和用户的声纹特征,对采集到的声音数据进行响应。具体地,基于用户的基本信息和用户的声纹特征,对采集到的声音数据进行响应,包括:根据用户的声纹特征从采集到的声音数本文档来自技高网...

【技术保护点】
1.一种语音交互方法,其特征在于,包括:/n响应用户声纹特征录入事件,对用户进行至少一次提问;/n获取用户基于所述至少一次提问的回答语音数据;/n根据所述回答语音数据提取用户的声纹特征;/n基于用户的声纹特征,对采集到的声音数据进行响应。/n

【技术特征摘要】
1.一种语音交互方法,其特征在于,包括:
响应用户声纹特征录入事件,对用户进行至少一次提问;
获取用户基于所述至少一次提问的回答语音数据;
根据所述回答语音数据提取用户的声纹特征;
基于用户的声纹特征,对采集到的声音数据进行响应。


2.根据权利要求1所述的方法,其特征在于,所述响应用户声纹特征录入事件,对用户进行至少一次提问,包括:
响应用户声纹特征录入事件,基于用户基本信息进行至少一次提问;
相应地,基于用户的声纹特征,对采集到的声音数据进行响应,包括:
根据所述回答语音数据识别用户的基本信息,并与用户的声纹特征关联;
基于用户的基本信息和用户的声纹特征,对采集到的声音数据进行响应。


3.根据权利要求1所述的方法,其特征在于,所述基于用户的声纹特征,对采集到的声音数据进行响应,包括:
提取采集到的声音数据的声纹特征;
将采集到的声音数据的声纹特征与用户的声纹特征进行匹配;
若匹配成功,则响应采集到的声音数据。


4.根据权利要求1所述的方法,其特征在于,所述根据所述回答语音数据提取用户的声纹特征,包括:
根据各次提问的回答语音数据提取声纹特征;
若提取地各次提问的回答语音数据的声纹特征的相似度满足设定相似度要求,则根据各次提问的回答语音数据的声纹特征确定用户的声纹特征。


5.一种语音交互装置,其特征在于,包括:
问题提问模块,用于响应用户声纹特征录入事件,对用户进行至少一次提问;
语音获取模块,用于获取用户基于所述至少一次提问的回答语音数据;
特征提取模块,用于根据所述回答语音数据提取用户的声纹特征;
语音响应模块,用于基于用户的声纹特征,对采集到的声音数据进行响...

【专利技术属性】
技术研发人员:熊友军刘锐
申请(专利权)人:深圳市优必选科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1