从可视内容生成交互式音轨制造技术

技术编号:32432203 阅读:17 留言:0更新日期:2022-02-24 18:49
提供了生成音轨。系统选择具有可视输出格式的数字组件对象。系统确定将数字组件对象转换为音频输出格式。系统为数字组件对象生成文本。系统基于数字组件对象的场境选择数字语音以渲染文本。系统利用由数字语音渲染的文本来构造数字组件对象的基线音轨。系统基于数字组件对象生成非话语音频提示。系统将非话语音频提示与数字组件对象的基线音频形式相结合,以生成数字组件对象的音轨。系统将数字组件对象的音轨提供给计算设备,以经由计算设备的扬声器输出。器输出。器输出。

【技术实现步骤摘要】
【国外来华专利技术】从可视内容生成交互式音轨

技术介绍

[0001]数据处理系统可以将数字内容提供给计算设备,以使计算设备呈现数字内容。数字内容可以包括可视内容,计算设备可以经由显示器呈现所述可视内容。数字内容可以包括音频内容,计算机可以经由扬声器输出所述音频内容。

技术实现思路

[0002]本技术解决方案的至少一个方面涉及一种生成音轨的系统。该系统包括数据处理系统。该数据处理系统包括一个或多个处理器。该数据处理系统可以经由网络接收数据分组,该数据分组包括由远离数据处理系统的计算设备的麦克风检测到的输入音频信号。该数据处理系统可以解析输入音频信号以识别请求。该数据处理系统可以基于所述请求,选择具有可视输出格式的数字组件对象,该数字组件对象与元数据相关联。该数据处理系统可以基于计算设备的类型,确定将数字组件对象转换为音频输出格式。该数据处理系统可以响应于将数字组件对象转换为音频输出格式的确定,生成用于数字组件对象的文本。该数据处理系统可以基于数字组件对象的场境(context),选择数字语音以渲染文本。该数据处理系统可以利用由数字语音渲染的文本,构造数字组件对象的基线音轨。该数据处理系统可以基于数字组件对象的元数据,生成非话语音频提示。该数据处理系统可以将非话语音频提示与数字组件对象的基线音频形式相结合,以生成数字组件对象的音轨。该数据处理系统可以响应于来自计算设备的请求,将数字组件对象的音轨提供给计算设备,以经由计算设备的扬声器输出。
[0003]该技术解决方案的至少一个方面涉及生成音轨的方法。该方法可以由数据处理系统的一个或多个处理器执行。该方法可以包括数据处理系统接收数据分组,该数据分组包括由远离数据处理系统的计算设备的麦克风检测到的输入音频信号。该方法可以包括数据处理系统解析输入音频信号以识别请求。该方法可以包括数据处理系统基于请求,选择具有可视输出格式的数字组件对象,该数字组件对象与元数据相关联。该方法可以包括数据处理系统基于计算设备的类型,确定将数字组件对象转换为音频输出格式。该方法可以包括数据处理系统响应于将数字组件对象转换为音频输出格式的确定,生成用于数字组件对象的文本。该方法可以包括基于数字组件对象的场境,选择数字语音以渲染文本。该方法可以包括数据处理系统利用由数字语音渲染的文本,构造数字组件对象的基线音轨。该方法可以包括数据处理系统基于数字组件对象,生成非话语音频提示。该方法可以包括数据处理系统将非话语音频提示与数字组件对象的基线音频形式相结合,以生成数字组件对象的音轨。该方法可以包括数据处理系统响应于来自计算设备的请求,将数字组件对象的音轨提供给计算设备,以经由计算设备的扬声器输出。
[0004]该技术解决方案的至少一个方面涉及一种生成音轨的系统。该系统可以包括具有一个或多个处理器的数据处理系统。该数据处理系统可以识别与由计算设备渲染的数字流媒体内容相关联的关键字。该数据处理系统可以基于关键字,选择具有可视输出格式的数字组件对象,该数字组件对象与元数据相关联。该数据处理系统可以基于计算设备的类型,
确定将数字组件对象转换为音频输出格式。该数据处理系统可以响应于将数字组件对象转换为音频输出格式的确定,生成用于数字组件对象的文本。该数据处理系统可以基于数字组件对象的场境,选择数字语音以渲染文本。该数据处理系统可以利用由数字语音渲染的文本构造数字组件对象的基线音轨。该数据处理系统可以基于数字组件对象,生成非话语音频提示。该数据处理系统可以将非话语音频提示与数字组件对象的基线音频形式相结合,以生成数字组件对象的音轨。该数据处理系统可以以及将数字组件对象的音轨提供给计算设备,以经由计算设备的扬声器输出。
[0005]在下文中,详细讨论这些和其他方面以及实施方式。前述信息和以下详细描述包括各个方面和实施方式的说明性示例,并且提供了用于理解所要求保护的方面和实施方式的性质和特性的概述或框架。附图提供了对各个方面和实施方式的说明和进一步的理解,并且被并入本说明书中并构成本说明书的一部分。
附图说明
[0006]附图不旨在按比例绘制。在各个附图中,相同的附图标记和标号指示相同的元件。为了清楚起见,并非每个组件都在每个附图中被标记。在附图中:
[0007]图1是根据实施方式的用于生成音轨的系统的图示。
[0008]图2是根据实施方式的用于生成音轨的方法的图示。
[0009]图3是示出了计算机系统的总体架构的框图,所述计算机系统可以被用来实施图1中所描绘的系统的元件和图2所描绘的方法。
具体实施方式
[0010]以下是与用于生成音轨的方法、装置和系统有关的各种概念及其实施方式的更详细描述。例如,所述方法、装置和系统可以由可视内容生成音轨。可以以许多方式中的任何一种来实施上文介绍的和下文更详细讨论的各种概念。
[0011]该技术解决方案通常针对产生音轨。该技术解决方案的系统和方法可以处理可视内容,以产生具有话语和非话语提示的音轨。例如,某些类型的计算设备可以提供仅音频的接口(例如,从用户接收语音输入、处理该输入,以及经由数字语音来提供音频或话语输出)。某些计算设备可以主要使用音频用户接口,或者在一些情况下可以主要使用音频接口。例如,移动计算设备的用户在驾驶车辆、跑步或收听串流音乐服务时,可能主要使用仅音频的接口。当主接口是基于音频时,数据处理系统可以提供音频数字组件对象(例如,音频内容项)。例如,数据处理系统可以选择由第三方音频内容提供者建立或提供的音频内容项。数据处理系统可以响应于来自用户的内容请求或基于另一个触发事件来提供音频内容项。但是,第三方内容提供者建立的内容项可能不是音频内容项。数据处理系统可以基于诸如关键字、相关性或其他因素的匹配标准来确定选择这样的内容项。但是,数据处理系统可能无法将内容项提供给计算设备,因为计算设备仅具有基于音频的接口。或者,在一些情况下,如果计算设备主要使用音频接口,或者音频接口是最有效的接口,则数据处理系统可能会由于提供可视内容项并且使得计算设备使用该计算设备的显示器渲染所述可视内容项,导致效率低下或浪费的计算利用率或负面的用户体验。使用显示器可能会浪费移动计算设备(例如,智能手机、智能手表或其他可穿戴设备)上的电池电量。因此,数据处理系统通过
提供在其中音频内容为首选的视频内容、或因为最相关的内容项只能以可视格式提供而不能提供所述最相关的内容项,可能会导致移动计算设备的浪费的计算资源、或者降低的用户体验。
[0012]此外,由于包括例如确定生成内容项的格式、如何为可视内容项(可能包括任何文本或可能不包括任何文本)准确地生成话语文本、为所生成的话语文本选择适当的语音以及添加非话语音频提示等各种技术问题,以不同的格式生成内容项在技术上具有挑战性。本技术解决方案的系统和方法可以使用自然语言处理和通过使用机器学习技术和历史数据所训练的模型来选择格式(例如,仅音频、视听格式、以及基于计算设备的类型和计算设备的当前场境的交互模型)、基于可视内容项和相关联的元数据自动地生成文本、为所生成的话语文本选择适当的数字声纹,并且选择和提供非话语音频提示以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在不同模态之间转变的系统,包括:包括一个或多个处理器的数据处理系统,所述一个或多个处理器用于:经由网络接收数据分组,所述数据分组包括由远离所述数据处理系统的计算设备的麦克风检测到的输入音频信号;解析所述输入音频信号以识别请求;基于所述请求,选择具有可视输出格式的数字组件对象,所述数字组件对象与元数据相关联;基于所述计算设备的类型,确定将所述数字组件对象转换为音频输出格式;响应于将所述数字组件对象转换为所述音频输出格式的确定,生成用于所述数字组件对象的文本;基于所述数字组件对象的场境,选择数字语音以渲染所述文本;利用由所述数字语音渲染的文本,构造所述数字组件对象的基线音轨;基于所述数字组件对象,生成非话语音频提示;将所述非话语音频提示与所述数字组件对象的基线音频形式相结合,以生成所述数字组件对象的音轨;以及响应于来自所述计算设备的请求,将所述数字组件对象的音轨提供给所述计算设备,以经由所述计算设备的扬声器输出。2.根据权利要求1所述的系统,包括:所述数据处理系统基于包括智能扬声器的所述计算设备的类型来确定将所述数字组件对象转换为所述音频输出格式。3.根据权利要求1所述的系统,包括:所述数据处理系统基于包括数字助理的所述计算设备的类型来确定将所述数字组件对象转换为所述音频输出格式。4.根据权利要求1所述的系统,包括:所述数据处理系统响应于所述请求,基于输入到实时内容选择过程中的内容选择标准来选择所述数字组件对象,所述数字组件对象是从由多个第三方内容提供者提供的多个数字组件对象中选择的。5.根据权利要求1所述的系统,包括:所述数据处理系统基于与在所述请求之前由所述计算设备渲染的内容相关联的关键字来选择所述数字组件对象,所述数字组件对象是从由多个第三方内容提供者提供的多个数字组件对象中选择的。6.根据权利要求1所述的系统,包括:所述数据处理系统经由自然语言生成模型,基于所述数字组件对象的元数据来生成用于所述数字组件对象的文本。7.根据权利要求1所述的系统,包括:所述数据处理系统经由语音模型,基于所述数字组件对象的场境来选择所述数字语音,所述语音模型是由机器学习技术利用包括音频和视频媒体内容的历史数据集来训练的。8.根据权利要求1所述的系统,包括所述数据处理系统以用于:
将所述数字组件对象的场境输入到语音模型中以生成语音特征向量,所述语音模型是由机器学习引擎利用包括音频和可视媒体内容的历史数据集来训练的;以及基于所述语音特征向量,从多个数字语音中选择所述数字语音。9.根据权利要求1所述的系统,包括:所述数据处理系统基于所述元数据确定向所述音轨添加触发词,其中,在第二输入音频信号中检测到所述触发词导致所述数据处理系统或所述计算设备执行与所述触发词相对应的数字动作。10.根据权利要求1所述的系统,包括所述数据处理系统以用于:确定所述数字组件对象的类别;从数据库中检索与所述类别相关联的多个数字动作相对应的多个触发词;通过使用基于触发关键字的历史性能所训练的数字动作模型,基于所述数字组件对象的场境和所述计算设备的类型,对所述多个触发词进行排名;以及选择排名最高的触发关键字以添加到所述音轨中。11.根据权利要求1所述的系统,包括所述数据处理系统以用于:对所述数字组件对象执行图像识别,以识别所述数字组件对象中的可视对象;以及从在数据库中存储的多个非话语音频提示中选择与所述可视对象相对应的非话语音频提示。12.根据权利要求1所述的系统,包括所述数据处理系统,用于:经由图像识别技术,识别所述数字组件对象中的多个可视对象;基于所述元数据和所述多个可视对象,选择多个非话语音频提示;对所述可视对象的每一个确定匹配得分,以指示在每个所述可视对象与...

【专利技术属性】
技术研发人员:马修
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1