语音处理方法和系统、及语音交互设备和方法技术方案

技术编号:30067988 阅读:14 留言:0更新日期:2021-09-18 08:19
提出了一种语音处理方法和系统、及语音交互设备和方法,其中该语音处理方法包括:接收来自用户的语音数据;确定所述用户的用户身份;以及基于所述用户身份,生成所述语音数据的处理结果。本发明专利技术能够依据用户身份提供个性化语音交互服务,能够根据不同用户的不同喜好,推荐出非精确意图场景下不同的信息服务流组合。组合。组合。

【技术实现步骤摘要】
语音处理方法和系统、及语音交互设备和方法


[0001]本专利技术涉及信息处理领域,尤其涉及一种语言处理方法和系统,以及语音交互设备和方法。

技术介绍

[0002]智能语音助手已逐渐普及,成为许多用户生活中不可或缺的一部分。语音助手除了以最常见的音箱型态出现在用户家中之外,也开始出现在诸如车娱系统、智能手机、可穿戴智能设备之中。当前大部分智能语音交互采用的是单指令单服务形式,单个用户指令需要用明确的用户意图,并且只有单个服务形式,这种相对固定的语音反馈方式会给用户带来机械呆板的感觉,与智能语音产品的“智能”初衷背道而驰。
[0003]为此,需要一种更为灵活的语音交互反馈方案。

技术实现思路

[0004]为了解决如上至少一个问题,本专利技术提出了一种能够依据用户身份提供个性化语音交互服务的方案。该方案根据不同用户的不同喜好,推荐出非精确意图场景下不同的信息服务流组合。
[0005]根据本专利技术的第一方面,提出了一种语音处理方法,包括:接收来自用户的语音数据;确定所述用户的用户身份;以及基于所述用户身份,生成所述语音数据的处理结果。
[0006]根据本专利技术的第二方面,提出了一种语音处理系统,包括服务器以及多个语音交互设备,其中:所述语音交互设备用于:接收来自用户的语音数据;确定所述用户的用户身份;向所述服务器上传所述语音数据和所述用户身份,所述服务器用于:对所述语音数据进行处理;以及基于用户身份,生成并下发所述语音数据的处理结果。
[0007]根据本专利技术的第三方面,提出了一种语音交互设备,包括:语音数据接收装置,用于接收用户的语音数据;用户身份确定装置,用于确定所述用户的用户身份;联网装置,用于将获取到的语音数据和所述用户身份上传至服务器,并获取所述服务器基于用户身份生成并下发的所述语音数据的处理结果;交互装置,用于基于下发的所述处理结果进行交互。
[0008]根据本专利技术的第四方面,提出了一种语音交互方法,包括:接收用户的语音数据;确定所述用户的用户身份;将获取到的语音数据和所述用户身份上传至服务器;获取所述服务器基于用户身份生成并下发的所述语音数据的处理结果;以及基于下发的所述处理结果进行操作。
[0009]根据本专利技术的第五方面,提出了一种语音处理方法,包括:接收来自用户的语音数据;采集所述用户的图像数据;基于所述语音数据和/或所述图像数据确定所述用户的用户身份;以及基于所述用户身份,生成所述语音数据的处理结果。
[0010]根据本专利技术的第六方面,提出了一种车载语音处理系统,包括:麦克风,用于接收用户的语音数据;处理器,用于基于所述语音数据确定所述用户的用户身份;以及交互装置,用于根据基于所述用户身份生成的语音处理结果进行交互。
[0011]根据本专利技术的第七方面,提出了一种语音处理系统,包括:多个语音交互设备,用于接收来自用户的语音设备,其中,所述多个语音交互设备中的一个语音交互设备被唤醒与用户进行交互,并且所述交互包括:接收来自用户的语音数据;基于所述语音数据确定所述用户的用户身份,并且基于被唤醒的所述语音交互设备的位置确定当前交互场景;以及基于所述用户身份和所述当前交互场景,生成所述语音数据的处理结果。
[0012]根据本专利技术的第八方面,提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上第四方面所述的方法。
[0013]根据本专利技术的第九方面,提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上第四方面所述的方法。
[0014]本专利技术的语音处理方案可以通过对用户身份确定获取该用户的画像信息和历史信息,并且基于上述信息确定用户语音输入的意图领域,并推荐出包括多种服务的信息流。
附图说明
[0015]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0016]图1示出了语音交互链路的处理流程示意图。
[0017]图2示出了根据本专利技术一个实施例的语音处理方法的流程示意图。
[0018]图3示出了根据本专利技术建立身份信息库用于后续身份识别的一个例子。
[0019]图4示出了根据本专利技术进行推荐信息服务流的例子。
[0020]图5示出了根据本专利技术一个实施例的语音处理系统的组成示意图。
[0021]图6示出了根据本专利技术一个实施例的语音交互设备的组成示意图。
[0022]图7示出了根据本专利技术一个实施例的语音交互方法的流程示意图。
[0023]图8示出了根据本专利技术一个实施例可用于实现上述语音处理方法的计算设备的结构示意图。
具体实施方式
[0024]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0025]智能语音助手已逐渐普及,成为许多用户生活中不可或缺的一部分。智能语音助手能够与用户进行口语对话,并基于对话的内容给出语音反馈和其他操作。图1示出了语音交互链路的处理流程示意图。语音交互链路是指实现语音交互的过程中涉及的单元模块,这些单元模块共同协作完成语音交互功能。在不同的应用场景中,可以会涉及上述交互链路中的部分或全部模块。图1中示出了最为核心的单元模块,在其他的实现中,交互链路还可以包括诸如唤醒响应和声纹识别等的功能模块。
[0026]如图1所示,音频采集到的用户语音经过语音识别模块(AutomaticSpeechRecognition,ASR)产生语音识别结果,即用户话语对应的文本指令。随后,自然语言理解模块(NaturalLanguageUnderstanding,NLU)对用户话语进行语义解析。在此,自然语言理解是指将文本识别出其中含意的算法/系统。在语音助理中,NLU能将用户语音指令识别为特定的领域意图。领域是指自然语言理解领域中的某类特定问题,如天气、时间等,意图则是指自然语言理解领域中属于某领域的特定问题,如查询天气、查询时间、设置闹钟等。当接收到的用户语音数据含义明确时,比如输入“北京天气”能够触发天气查询返回精确的结果。但当用户的语音输入内容并不明确时,例如,用户A回家后对智能音箱说“我回来了”,现有的语音回复可以是“欢迎回来”并且需要进一步地交互,比如“有什么可以帮您”来明确用户A的意图领域。在理解了用户语音指令中的领域和意图之后,可以将上述领域和意图送入领域服务模块(DomainService,DS),该模块可以根据NLU语义解析结果(即,特定领域和意图)选择需要执行的系统行为。自然语音生成模块(NaturalLanguageGeneration,NLG)根据系统行为结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,包括:接收来自用户的语音数据;确定所述用户的用户身份;以及基于所述用户身份,生成所述语音数据的处理结果。2.如权利要求1所述的方法,其中,确定所述用户的用户身份包括如下至少一项:识别所述用户的生物信息并基于所述生物信息确定所述用户身份;识别所述用户的账户信息并基于所述账户信息确定所述用户身份。3.如权利要求2所述的方法,其中,识别所述用户的生物信息并基于所述生物信息确定所述用户身份包括:对所述语音数据进行声纹识别,并根据识别出的声纹确定所述用户身份;对所述用户的指纹进行识别,并根据识别出的指纹确定所述用户身份;对所述用户进行图像识别,并根据识别出的图像特征确定所述用户身份。4.如权利要求2所述的方法,还包括:采集多个用户各自的生物信息并生成身份信息库,并且识别所述用户的生物信息并基于所述生物信息确定所述用户身份包括:将获取的所述用户的生物信息与所述身份信息库内存储的生物信息相比较;以及根据比较结果,确定所述用户身份。5.如权利要求1所述的方法,其中,基于所述用户身份,生成所述语音数据的处理结果包括:基于所述用户身份,获取所述用户的画像信息和历史信息;以及基于所述画像信息和历史信息,生成所述语音数据的处理结果。6.如权利要求5所述的方法,其中,生成所述语音数据的处理结果还包括:获取所述语音数据的场景和/或上下文信息;基于所述场景和/或上下文信息,生成所述语音数据的处理结果。7.如权利要求6所述的方法,其中,生成所述语音数据的处理结果还包括:基于所述场景和/或上下文信息,从所述画像信息和历史信息中筛选所需的用户信息;以及基于筛选出的用户信息,生成所述语音数据的处理结果。8.如权利要求5所述的方法,其中,所述画像信息和历史信息包括如下至少一项:所述用户使用当前语音交互设备时获取的画像信息和历史信息;以及所述用户使用关联账户和/或设备时获取的画像信息和历史信息。9.如权利要求8所述的方法,还包括:基于所述用户针对如下至少一项的操作,创建和/或更新所述画像信息和历史信息:所述当前语音交互设备;其他关联账户;以及其他关联设备。10.如权利要求1所述的方法,其中,基于所述用户身份,生成所述语音数据的处理结果包括:基于所述用户身份,确定所述语音数据的领域意图;以及
基于所述领域意图,生成所述语音数据的处理结果。11.如权利要求1所述的方法,其中,基于所述用户身份,生成所述语音数据的处理结果包括:基于所述用户身份,确定所述语音数据本身的领域意图之外的附加领域意图;以及基于所述附加领域意图,生成所述语音数据的附加处理结果。12.如权利要求1所述的方法,还包括:向所述用户提供基于所述语音数据的处理结果的服务。13.如权利要求12所述的方法,其中,所述服务包括多个服务,每个服务涉及对应的关联操作,所述多个关联操作包括如下至少一项:相继执行的同类操作;以及同时执行的异类操作。14.如权利要求13所述的方法,其中,所述关联操作包括如下至少一项:声音播放;视觉呈现;以及其他设备控制。15.如权利要求14所述的方法,其中,所述声音播放包括语音反馈,所述语音反馈的形式基于所述用户身份确定。16.如权利要求12所述的方法,其中,向所述用户提供基于所述语音数据的处理结果的服务包括:向所述用户提供对应于相同或不同服务的信息流。17.一种语音处理系统,包括语音交互设备和服务器,所述语音交互设备用于:接收来自用户的语音数据;确定所述用户的用户身份;向所述服务器上传所述语音数据和所述用户身份,以及所述服务器用于:基于所述用户身份,生成所述语音数据的处理结果。18.如权利要求17所述的系统,其中,所述语音交互设备用于:对所述语音数据进行声纹识别,并根据识别出的声纹确定所述用户身份。19.如权利要求18所述的系统,其中,所述语音交互设备用于:从生物识别组件或设备获取确定的用户身份。20.如权利要求19所述的系统,其中,所述生物识别组件或设备包括如下至少一项:指纹识别组件或设备;以及人脸识别组件或设备。21.如权利要求17所述的系统,其中,所述语音交互设备用于:采集多个用户各自的身份信息,所述身份信息用于确定用户身份;以及在本地或服务器上生成包括所述身份信息的身份信息库。22.如权利要求21所述的系统,其中,所述语音交互设备用于:获取所述用户的身份信息;
将获取的所述用户的生物信息与所述身份信息库内存储的身份信息相比较;以及根据比较结果,确定所述用户身份。23.如权利要求17所述的系统,其中,所述服务器用于:基于所述用户身份,查询所述用户的画像信息和历史信息;以及基于所述画像信息和历史信息,生成所述语音数据的处理结果。24.如权利要求23所述的系统,其中,所述服务器用于:获取所述语音数据的场景和/或上下文信息;基于所述场景和/或上下文信息,从所述画像信息和历史信息中筛选所需的用户信息;以及基于筛选出...

【专利技术属性】
技术研发人员:张平袁怀宾
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1