当前位置: 首页 > 专利查询>苹果公司专利>正文

提供低声语音的数字助理制造技术

技术编号:20290435 阅读:44 留言:0更新日期:2019-02-10 20:41
提供了用于检测和/或提供低声语音响应的系统和过程。在一个示例性过程中,从用户接收语音,并且基于所述语音输入,确定将提供低声语音响应。在确定将提供低声语音响应时,生成所述低声语音响应并将其提供给所述用户。

【技术实现步骤摘要】
【国外来华专利技术】提供低声语音的数字助理相关申请的交叉引用本专利申请要求于2016年6月10日提交的标题为“DIGITALASSISTANTPROVIDINGWHISPEREDSPEECH”的美国临时专利申请序列号62/348,705和于2016年9月15日提交的标题为“DIGITALASSISTANTPROVIDINGWHISPEREDSPEECH”的美国专利申请序列号15/266,932的优先权。这些专利申请的内容据此全文以引用方式并入以用于所有目的。
本公开一般涉及数字助理,并且更具体地,涉及能够检测低声语音输入并提供低声语音响应的数字助理。
技术介绍
语音识别设备越来越受欢迎。语音识别设备可以在不同情况下或在不同环境中使用。例如,用户可以在与用户周围的其他同事一起在小隔间中工作时向设备询问问题。用户还可以在与其他会议参与者一起参加会议室中的会议时向设备询问问题。用户还可以在图书馆学习时与设备语音,该处可能禁止大声语音。在一些情况下,用户可以向设备低声语音和/或期望低声响应。因此,重要的是设备识别用户的低声语音,其可以与正常语音不同,并且在这些情况下提供低声的语音响应。专利技术内容用于语音识别的本文档来自技高网...

【技术保护点】
1.一种用于操作数字助理的方法,包括:在具有存储器和一个或多个处理器的用户设备处:接收来自用户的语音输入;基于所述语音输入确定将提供低声语音响应;在确定将提供低声语音响应时,生成所述低声语音响应;以及将所述低声语音响应提供给所述用户。

【技术特征摘要】
【国外来华专利技术】2016.06.10 US 62/348,705;2016.09.15 US 15/266,9321.一种用于操作数字助理的方法,包括:在具有存储器和一个或多个处理器的用户设备处:接收来自用户的语音输入;基于所述语音输入确定将提供低声语音响应;在确定将提供低声语音响应时,生成所述低声语音响应;以及将所述低声语音响应提供给所述用户。2.根据权利要求1所述的方法,其中所述语音输入包括信息请求。3.根据权利要求2所述的方法,其中所述低声语音响应包括对所述信息请求的响应。4.根据权利要求1所述的方法,其中所述语音输入包括执行任务的请求。5.根据权利要求4所述的方法,其中所述低声语音响应包括与执行所述任务相关联的响应。6.根据权利要求1所述的方法,其中确定将提供所述低声语音响应包括以下中的至少一者:确定所述语音输入是否包括低声语音输入;以及确定上下文数据是否指示所述低声语音响应是预期的。7.根据权利要求6所述的方法,其中所述低声语音输入与具有一个或多个第一频谱特征的第一频谱相关联,所述第一频谱特征与低声语音相关联。8.根据权利要求7所述的方法,其中所述一个或多个第一频谱特征包括:第一振幅,其中在阈值频率以下所述第一振幅小于第二振幅,所述第二振幅与所述非低声语音相关联。9.根据权利要求7所述的方法,其中所述一个或多个第一频谱特征包括第一能量,其中在所述阈值频率以下所述第一能量小于第二能量,所述第二能量与所述非低声语音相关联。10.根据权利要求7所述的方法,其中所述一个或多个第一频谱特征包括第一音量,其中所述第一音量比第二音量小阈值音量百分比,所述第二音量与所述非低声语音相关联。11.根据权利要求7所述的方法,其中所述一个或多个第一频谱特征包括所述第一频谱的第一斜率,其中所述第一频谱的所述第一斜率相对于所述第二频谱的第二斜率偏移阈值斜率百分比,所述第二频谱的所述第二斜率与所述非低声语音相关联。12.根据权利要求7所述的方法,其中确定所述语音输入是否包括低声语音输入包括:确定所述语音输入是否包括使用所述语音输入的一个或多个特征的低声语音输入,其中所述一个或多个特征表示与所述语音输入的频谱相关联的一个或多个频谱特征。13.根据权利要求12所述的方法,其中确定所述语音输入是否包括使用所述一个或多个特征的低声语音输入包括:获取所述语音输入的所述频谱;确定与所述语音输入的所述频谱相关联的所述一个或多个频谱特征;以及基于与所述语音输入的所述频谱相关联的所述一个或多个频谱特征确定第一特征和第二特征。14.根据权利要求13所述的方法,其中所述第一特征是表示与所述语音输入的所述频谱相关联的能量或振幅的第一梅尔频率倒谱系数(MFCC0);并且其中所述第二特征是表示与所述语音输入的所述频谱相关联的所述斜率的第二梅尔频率倒谱系数(MFCC1)。15.根据权利要求13所述的方法,还包括:获取基于所述第一特征到所述第二特征的低声分数;以及确定所述低声分数是否满足分数阈值。16.根据权利要求15所述的方法,其中所述分数阈值可根据所述用户讲话的所述方式进行调整。17.根据权利要求6所述的方法,其中确定所述上下文数据是否指示所述低声语音响应是预期的包括:获取由所述用户设备或通信地连接到所述用户设备的一个或多个附加设备中的所述至少一个提供的所述上下文数据;以及确定所述上下文数据是否满足用于提供所述低声语音响应的一个或多个条件。18.根据权利要求1所述的方法,还包括,在确定将提供低声语音响应之前:确定是否禁用提供低声语音响应;以及根据确定禁用提供所述低声语音响应,生成非低声语音响应,以及将所述非低声语音响应提供给所述用户以代替所述低声语音响应。19.根据权利要求1所述的方法,其中生成所述低声语音响应包括:基于所述语音输入生成中间语音;以及使用所述中间语音生成所述低声语音响应。20.根据权利要求19所述的方法,其中所述中间语音具有与所述低声语音响应基本上相同的内容。21.根据权利要求19所述的方法,其中基于所述语音输入生成所述中间语音包括:基于所述语音输入生成文本;执行所述文本的自然语言处理;基于所述自然语言处理的结果识别用户意图;以及根据所述用户意图生成所述中间语音。22.根据权利要求19所述的方法,其中使用所述中间语音生成所述低声语音响应包括:基于所述中间语音的线性预测分析来获取残余信号;修改所述残余信号;以及基于经修改的残余信号的线性预测合成来获取所述低声语音响应。23.根据权利要求22所述的方法,其中基于所述中间语音的线性预测分析来获取所述残余信号包括:使用所述中间语音获取多个语音帧;以及执行所述多个语音帧的所述线性预测分析。24.根据权利要求23所述的方法,其中执行所述多个语音帧的所述线性预测分析包括:预强调所述多个语音帧;估计多个线性预测系数;以及对预强调的语音帧进行逆滤波以获取所述残余信号。25.根据权利要求24所述的方法,其中估计所述多个线性预测系数包括:对所述预强调的多个语音帧执行开窗口。26.根据权利要求22所述的方法,其中修改所述残余信号包括:接收白噪音序列;估计所述白噪音序列和所述残余信号的能量;将所述白噪音序列的所述能量与所述残余信号的所述能量进行相关;以及补偿经相关的白噪音序列。27.根据权利要求26所述的方法,其中补偿经相关的白噪音序列包括相对于经相关的白噪音序列执行微分、高通滤波或带通滤波中的至少一个。28.根据权利要求22所述的方法,其中基于所述经修改的残余信号的所述线性预测合成来获取所述低声语音响应包括:获取多个线性预测系数;修改所述线性预测系数;以及使用经修改的线性预测系数执行所述经修改的残余信号的线性预测合成。29.根据权利要求28所述的方法,其中修改所述线性预测系数包括:将所述多个线性预测系数转换为线谱频率;修改所述线谱频率;以及基于经修改的线谱频率生成经修改的线性预测系数。30.根据权利要求28至29中任一项所述的方法,其中使用所述经修改的线性预测系数执行所述经修改的残余信号的线性预测合成包括:使用合成滤波器和所述经修改的线性预测系数生成多个低声帧;以及使用所述多个低声帧生成所述低声语音响应。31.根据权利要求30所述的方法,其中生成所述低声语音响应包括相对于所述多个低声帧执行开窗口或重叠相加中的至少一个。32.一种用于操作数字助理的方法,包括:在具有存储器和一个或多个处理器的用户设备处:检测所述数字助理被激活;基于上下文数据确定将提供低声语音响应;接收来自用户的语音输入;在确定将提供低声语音响应时,生成低声语音响应;以及将所述低声语音响应提供给所述用户。33.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由电子设备的一个或多个处理器执行时,使得所述电子设备:接收来自用户的语音输入;基于所述语音输入确定将提供低声语音响应;在确定将提供低声语音响应时,生成所述低声语音响应;以及将所述低声语音响应提供给所述用户。34.一种存储一个或多个程序的非暂态计算机可读存储介质,所述一个或多个程序包括指令,所述指令在由电子设备的一个或多个处理器执行时,使得所述电子设备:检测所述数字助理被激活;基于上下文数据确定将提供低声语音响应;接收来自用户的语音输入;在确定将提供低声语音响应时,生成低声语音响应;以及将所述低声语音响应提供给所述用户。35.一种电子设备,包括:一个或多个处理器;存储器;和一个或多个程序,所述一个或多个程序存储在所述存储器中,所述一个或多个程序包括用于执行以下操作的指令:接收来自用户的语音输入;基于所述语音输入确定将提供低声语音响应;在确定将提供低声语音响应时,生成所述低声语音响应;以及将所述低声语音响应提供给所述用户。36.一种电子设备,包括:一个或多个处理器;存储器;和一个或多个程序,所述一个或多个程序存储在所述存储器中,所述一个或多个程序包括用于执行以下操作的指令:检测所述数字助理被激活;基于上下文数据确定将提供低声语音响应;接收来自用户的语音...

【专利技术属性】
技术研发人员:T·J·瑞提欧M·J·亨特H·B·理查兹M·奇塔昆塔
申请(专利权)人:苹果公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1