【技术实现步骤摘要】
【国外来华专利技术】从可视内容生成交互式音轨
技术介绍
[0001]数据处理系统可以将数字内容提供给计算设备,以使计算设备呈现数字内容。数字内容可以包括可视内容,计算设备可以经由显示器呈现所述可视内容。数字内容可以包括音频内容,计算机可以经由扬声器输出所述音频内容。
技术实现思路
[0002]本技术解决方案的至少一个方面涉及一种生成音轨的系统。该系统包括数据处理系统。该数据处理系统包括一个或多个处理器。该数据处理系统可以经由网络接收数据分组,该数据分组包括由远离数据处理系统的计算设备的麦克风检测到的输入音频信号。该数据处理系统可以解析输入音频信号以识别请求。该数据处理系统可以基于所述请求,选择具有可视输出格式的数字组件对象,该数字组件对象与元数据相关联。该数据处理系统可以基于计算设备的类型,确定将数字组件对象转换为音频输出格式。该数据处理系统可以响应于将数字组件对象转换为音频输出格式的确定,生成用于数字组件对象的文本。该数据处理系统可以基于数字组件对象的场境(context),选择数字语音以渲染文本。该数据处理系统可以利用由数字语音渲染的文本,构造数字组件对象的基线音轨。该数据处理系统可以基于数字组件对象的元数据,生成非话语音频提示。该数据处理系统可以将非话语音频提示与数字组件对象的基线音频形式相结合,以生成数字组件对象的音轨。该数据处理系统可以响应于来自计算设备的请求,将数字组件对象的音轨提供给计算设备,以经由计算设备的扬声器输出。
[0003]该技术解决方案的至少一个方面涉及生成音轨的方法。该方法可以由数据处理系统的一个或多个处理器执 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种在不同模态之间转变的系统,包括:包括一个或多个处理器的数据处理系统,所述一个或多个处理器用于:经由网络接收数据分组,所述数据分组包括由远离所述数据处理系统的计算设备的麦克风检测到的输入音频信号;解析所述输入音频信号以识别请求;基于所述请求,选择具有可视输出格式的数字组件对象,所述数字组件对象与元数据相关联;基于所述计算设备的类型,确定将所述数字组件对象转换为音频输出格式;响应于将所述数字组件对象转换为所述音频输出格式的确定,生成用于所述数字组件对象的文本;基于所述数字组件对象的场境,选择数字语音以渲染所述文本;利用由所述数字语音渲染的文本,构造所述数字组件对象的基线音轨;基于所述数字组件对象,生成非话语音频提示;将所述非话语音频提示与所述数字组件对象的基线音频形式相结合,以生成所述数字组件对象的音轨;以及响应于来自所述计算设备的请求,将所述数字组件对象的音轨提供给所述计算设备,以经由所述计算设备的扬声器输出。2.根据权利要求1所述的系统,包括:所述数据处理系统基于包括智能扬声器的所述计算设备的类型来确定将所述数字组件对象转换为所述音频输出格式。3.根据权利要求1所述的系统,包括:所述数据处理系统基于包括数字助理的所述计算设备的类型来确定将所述数字组件对象转换为所述音频输出格式。4.根据权利要求1所述的系统,包括:所述数据处理系统响应于所述请求,基于输入到实时内容选择过程中的内容选择标准来选择所述数字组件对象,所述数字组件对象是从由多个第三方内容提供者提供的多个数字组件对象中选择的。5.根据权利要求1所述的系统,包括:所述数据处理系统基于与在所述请求之前由所述计算设备渲染的内容相关联的关键字来选择所述数字组件对象,所述数字组件对象是从由多个第三方内容提供者提供的多个数字组件对象中选择的。6.根据权利要求1所述的系统,包括:所述数据处理系统经由自然语言生成模型,基于所述数字组件对象的元数据来生成用于所述数字组件对象的文本。7.根据权利要求1所述的系统,包括:所述数据处理系统经由语音模型,基于所述数字组件对象的场境来选择所述数字语音,所述语音模型是由机器学习技术利用包括音频和视频媒体内容的历史数据集来训练的。8.根据权利要求1所述的系统,包括所述数据处理系统以用于:
将所述数字组件对象的场境输入到语音模型中以生成语音特征向量,所述语音模型是由机器学习引擎利用包括音频和可视媒体内容的历史数据集来训练的;以及基于所述语音特征向量,从多个数字语音中选择所述数字语音。9.根据权利要求1所述的系统,包括:所述数据处理系统基于所述元数据确定向所述音轨添加触发词,其中,在第二输入音频信号中检测到所述触发词导致所述数据处理系统或所述计算设备执行与所述触发词相对应的数字动作。10.根据权利要求1所述的系统,包括所述数据处理系统以用于:确定所述数字组件对象的类别;从数据库中检索与所述类别相关联的多个数字动作相对应的多个触发词;通过使用基于触发关键字的历史性能所训练的数字动作模型,基于所述数字组件对象的场境和所述计算设备的类型,对所述多个触发词进行排名;以及选择排名最高的触发关键字以添加到所述音轨中。11.根据权利要求1所述的系统,包括所述数据处理系统以用于:对所述数字组件对象执行图像识别,以识别所述数字组件对象中的可视对象;以及从在数据库中存储的多个非话语音频提示中选择与所述可视对象相对应的非话语音频提示。12.根据权利要求1所述的系统,包括所述数据处理系统,用于:经由图像识别技术,识别所述数字组件对象中的多个可视对象;基于所述元数据和所述多个可视对象,选择多个非话语音频提示;对所述可视对象的每一个确定匹配得分,以指示在每个所述可视对象与...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。