用语音记录回复查询制造技术

技术编号:33424937 阅读:13 留言:0更新日期:2022-05-19 00:16
提供了用于向用户查询提供由人类预先录制而不是使用语音合成处理自动生成的响应音频记录的实施方式。在各种实施方式中,由用户在计算设备的输入组件处提供的查询可以被用来搜索语音记录的语料库。根据该搜索,可以基于与创建候选响应语音记录的说话者相关联的可信度的度量来识别和排序多个候选响应语音记录。基于该排序,可以提供多个候选响应语音记录中的一个或多个候选响应语音记录以在同一计算设备或不同计算设备的输出组件处呈现给用户。给用户。给用户。

【技术实现步骤摘要】
【国外来华专利技术】用语音记录回复查询

技术介绍

[0001]个体(或“用户”)越来越多地使用他们的语音与计算设备交互。例如,用户越来越依赖于交互式助理软件(或者被称为“自动化助理”、“虚拟助理”)来单独地或与其他输出模态组合地使用可听输出来回答用户的问题。可以应用文本到语音(“TTS”)和/或语音合成处理,以基于响应于用户问题的文本结果来生成可听输出,使得使用他或她的语音询问问题的用户可以接收可听响应。然而,由TTS处理生成的计算机化语音响应可能不如例如响应于问题的已知专家或至少人类的语音记录那样引人注目和/或可信。

技术实现思路

[0002]本公开总体上涉及用于向用户查询提供响应性音频记录的方法、装置和计算机可读介质(暂时性和非暂时性),所述响应性音频记录由人类预先录制,而不是使用对响应性文本数据的TTS处理自动生成。在各种实施方式中,多个音频记录可以作为音频记录的语料库存储在一个或多个数据库中,例如,与用于索引音频记录和/或将音频记录渲染为可检索的各种数据相关联。该数据可以包括音频记录的转录、音频记录的概要、关于录制音频记录的扬声器的信息、与音频记录相关联的其他元数据(例如,创建的日期、长度、声音质量等)等。
[0003]在各种实施方式中,用户可以在诸如被设计为允许用户与自动化助理进行“免提”交互的“助理”设备的计算设备的输入组件处提交查询。这些助理计算设备可以采取各种形式,诸如独立交互式扬声器(具有或不具有显示器)、基于车辆的计算系统、智能电话、平板计算机等。查询可以被用来搜索上述语音记录的语料库并识别一个或多个候选响应语音记录。可以搜索语音记录和/或相关联的数据的各个方面,包括但不限于转录、被要求产生语音记录的问题(例如,在同一记录中的访谈中对说话者提出的问题,或者说话者有意创建语音记录以回答的众包问题)、说话者的身份等。
[0004]在一些实施方式中,可以对多个候选响应语音记录进行识别和排序,以确定应当向用户呈现哪些候选响应语音记录、应该以什么顺序呈现它们等。在一些实施方式中,可以基于与候选响应语音记录本身和/或与创建和/或录制候选响应语音记录的说话者相关联的相应“可信性度量”来对多个候选响应语音记录进行排序。基于该排序,可以将多个候选响应语音记录中的一个或多个呈现给用户。例如,排名最高的候选响应语音记录可以自动回放给用户,或者响应于确定其对应的可信性度量足够大于与其他候选响应语音记录相关联的可信性度量。在一些实施方式中,除了对候选响应语音记录进行排序或过滤之外或代替对候选响应语音记录进行排序或过滤,可以使用可信性度量来搜索语音记录。
[0005]可信性度量可以是客观的(即,在不同用户之间是相同的)、对特定用户主观的(例如,基于用户的属性或用户的查询确定的)或其任何组合。可以基于语音记录和/或说话者的诸如基于说话者的流行度、与说话者相关联的标题、说话者是其成员的实体(例如,报纸或其他出版物)、说话者评论的一致性、语音记录的内容与已知可信的其他相关内容(例如,其他语音记录或文本内容)的语义一致性等的各种属性来确定客观可信性度量。
[0006]例如,可以通过将从说话者的语音记录生成的语义嵌入分组为其他类似陈述的聚类,并且确定聚类在语义上是一致的还是矛盾的来确定说话者的评论的一致性。例如,说话者对特定视点的认可可以被分组成第一聚类。说话者对该视点的后续矛盾(其可能难以在语法上检测但可能在语义上检测)可以被聚类到已知与第一聚类相反的另一聚类中。说话者在两个矛盾的聚类中具有语义嵌入的事实可能降低说话者的整体可信性度量。
[0007]在一些实施方式中,可以基于响应于寻求语音记录的查询的传统搜索结果来确定客观的可信性度量。假设用户使用他们的语音来向基于语音的助理设备提交诸如“专家对最新民意调查数字有何看法?”的查询。由通常可以在显示器上呈现为排序列表的该查询返回的传统搜索结果可能对该特定用户没有直接用处,例如,因为助理设备缺少显示器或者因为用户不希望查看显示器作为交互的一部分。然而,这些结果可以建立与可能客观上可信的一个或多个语音记录的联系。
[0008]假设排名最高的传统搜索结果链接到来自权威新闻机构的基于文本的文章(内容)。至少对于该特定用户的查询,这可以将新闻机构确立为最可信的机构(作为内容的源)。因此,由与该机构相关联的说话者创建的语音记录可以通过例如来自其他新闻机构或实体的语音记录来推广。该关联可以是例如说话者拥有、推广、代言或被作为内容源的实体(例如,出版商)采用的关联,说话者拥有、推广、代言或被与作为内容源的实体紧密对准的实体(例如,出版商的附属机构)采用的关联等等。另外,关联可以替代地直接在说话者和内容本身之间,例如在说话者是查询主题中的公认专家、具有开发内容的记录历史或者是关于内容的公认思想领袖等的情况下。如果没有(足够)响应语音记录可从排名最高的新闻机构获得,则在一些实施方式中,可以选择与第二新闻机构相关联的下一个传统搜索结果。并且可以寻找并返回来自该第二新闻机构的说话者的语音记录。
[0009]可以基于例如用户的属性和/或他们提交的查询来确定主观可信性度量。例如,用户可以具有指示用户的各种偏好或兴趣、用户的内容消费模式(例如,他们是否消费关于科学或体育、艺术或娱乐的更多内容?)等的用户简档。并且用户的查询本身可以揭示用户和/或他们认为可信的说话者的属性。例如,用户可以明确地询问“what does<hypothetical talking head>think about the<recent event>?(<hypothetical talk head>对<recent event>有什么看法?)”。
[0010]在一些实施方式中,一种方法可以使用一个或多个处理器来实施,并且可以包括:接收由用户在计算设备的输入组件处提供的查询;基于查询来搜索语音记录的语料库;从搜索中识别多个候选响应语音记录;基于与创建候选响应语音记录的说话者相关联的可信性度量来对多个候选响应语音记录进行排名;以及基于排名,提供多个候选响应语音记录中的一个或多个候选响应语音记录以供在同一计算设备或不同计算设备的输出部件处呈现给用户。
[0011]在各种实施方式中,可以基于用户或查询的一个或多个属性来确定与说话者相关联的可信性度量。在各种实施方式中,可以至少部分地基于用户的一个或多个偏好或从属关系来确定与说话者相关联的可信性度量。在各种实施方式中,可以至少部分地基于来自用户的查询的内容来确定与说话者相关联的可信性度量。在各种实施方式中,来自用户的查询可以指定说话者的类别或说话者的身份,以及至少部分地基于说话者的类别或身份来确定与说话者相关联的可信性度量。
[0012]在各种实施方式中,搜索可以包括搜索与语音记录相关联地存储的语音记录的转录。在各种实施方式中,搜索可以进一步包括搜索与语料库的语音记录相关联地存储并由语料库的语音记录回答的问题。在各种实施方式中,搜索问题可以包括确定由来自用户的查询生成的嵌本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用一个或多个处理器实现的方法,包括:接收由用户在计算设备的输入组件处提供的查询;基于所述查询来搜索语音记录的语料库;从所述搜索中识别多个候选响应语音记录;基于与创建所述候选响应语音记录的说话者相关联的可信性度量来对所述多个候选响应语音记录进行排名;以及基于所述排名,提供所述多个候选响应语音记录中的一个或多个候选响应语音记录以供在同一计算设备或不同计算设备的输出部件处呈现给所述用户。2.根据权利要求1所述的方法,其中,基于所述用户或所述查询的一个或多个属性来确定与所述说话者相关联的所述可信性度量。3.根据权利要求2所述的方法,其中,至少部分地基于所述用户的一个或多个偏好或从属关系来确定与所述说话者相关联的所述可信性度量。4.根据权利要求2所述的方法,其中,至少部分地基于来自所述用户的所述查询的内容来确定与所述说话者相关联的所述可信性度量。5.根据权利要求2所述的方法,其中,来自所述用户的所述查询指定说话者的类别或说话者的身份,以及至少部分地基于所述说话者的所述类别或所述身份来确定与所述说话者相关联的所述可信性度量。6.根据权利要求1所述的方法,其中,所述搜索包括搜索与所述语音记录相关联地存储的所述语音记录的转录。7.根据权利要求1所述的方法,其中,所述搜索进一步包括搜索与所述语料库的语音记录相关联地存储并由所述语料库的语音记录回答的问题。8.根据权利要求7所述的方法,其中,搜索问题包括确定由来自所述用户的所述查询生成的嵌入与由通过所述语料库的一个或多个语音记录回答的一个或多个问题生成的一个或多个嵌入之间的距离。9.根据权利要求1所述的方法,其中,所述可信性度量包括所述响应语音记录的说话者与响应于所述查询的内容源之间的关联。10.一种使用一个或多个处理器实现的方法,包括:接收由用户在计算设备的输入组件处提供的查询;基于所述查询来搜索文档的语料库;从所述搜索中识别包含响应于所述查询的内容的排名靠前的文档;对语音记录的语料库搜索由与所述内容相关联的实体创建或分发的响应语音记录;以及提供所述响应语音记录中的一个或多个响应语音记录以供在同一计算设备或不同计算设备的输出组件处呈现给所述用户。11.根据权利要求10所述的方法,其中,与所述内容相关联的所述实体是创建或分发所述内容的实体,以及其中,所述语音记录由创建或分发所述内容的所述实体创建或分发。12.根据权利要求11所述的方法,其中,所述实体包括所述排名靠前的文档的作者。1...

【专利技术属性】
技术研发人员:索米亚
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1