The invention is entitled \intelligent automation assistant for media search and playback\. The invention discloses a system and process for operating a digital assistant for media search and playback. In the exemplary process, audio input containing media search requests can be received. The primary user intent corresponding to the media search request can be determined, and one or more secondary user intents based on one or more previous user intents can be determined. The main set of media items corresponding to the intent of the primary user can be displayed, and one or more auxiliary sets of media items corresponding to the intent of one or more secondary users can be displayed.
【技术实现步骤摘要】
【国外来华专利技术】用于媒体搜索和回放的智能自动化助理相关申请的交叉引用本申请要求2015年9月8日提交的名称为“IntelligentAutomatedAssistantforMediaSearchandPlayback”的美国临时申请62/215,575和2015年12月8日提交的名称为“IntelligentAutomatedAssistantforMediaSearchandPlayback”的美国非临时申请14/963,089的优先权,这两个申请据此出于所有目的全文以引用方式并入本文。本申请涉及以下共同未决的申请:2015年12月8日提交的名称为“IntelligentAutomatedAssistantinaMediaEnvironment”的美国非临时专利申请14/963,094(代理档案号106842130800(P25817US1)),2014年9月26日提交的名称为“IntelligentAutomatedAssistantforTVUserInteractions”的美国非临时专利申请14/498,503(代理档案号106842065100(P18133US1)) ...
【技术保护点】
1.一种用于操作媒体系统的数字助理的方法,所述方法包括:在包括一个或多个处理器和存储器的一个或多个电子设备处:在显示单元上显示媒体项主要集合;响应于检测到用户输入,接收包含自然语言语音形式的媒体相关请求的音频输入;确定对应于所述媒体相关请求的主要用户意图;确定所述主要用户意图是否包括缩小对应于所述媒体项主要集合的主要媒体搜索查询的范围的用户意图;根据确定所述主要用户意图包括缩小所述主要媒体搜索查询范围的用户意图:基于所述媒体相关请求和所述主要媒体搜索查询生成对应于所述主要用户意图的第二主要媒体搜索查询;执行所述第二主要媒体搜索查询以获得第二媒体项主要集合;以及用所述第二媒体 ...
【技术特征摘要】
【国外来华专利技术】2015.09.08 US 62/215,575;2015.12.08 US 14/963,0891.一种用于操作媒体系统的数字助理的方法,所述方法包括:在包括一个或多个处理器和存储器的一个或多个电子设备处:在显示单元上显示媒体项主要集合;响应于检测到用户输入,接收包含自然语言语音形式的媒体相关请求的音频输入;确定对应于所述媒体相关请求的主要用户意图;确定所述主要用户意图是否包括缩小对应于所述媒体项主要集合的主要媒体搜索查询的范围的用户意图;根据确定所述主要用户意图包括缩小所述主要媒体搜索查询范围的用户意图:基于所述媒体相关请求和所述主要媒体搜索查询生成对应于所述主要用户意图的第二主要媒体搜索查询;执行所述第二主要媒体搜索查询以获得第二媒体项主要集合;以及用所述第二媒体项主要集合的显示替换所述媒体项主要集合的显示。2.根据权利要求1所述的方法,其中确定所述主要用户意图是否包括缩小所述主要媒体搜索查询范围的用户意图包括:确定所述媒体相关请求是否包括对应于缩小所述主要媒体搜索查询范围的用户意图的字词或短语。3.根据权利要求1所述的方法,其中所述第二主要媒体搜索查询包括在所述媒体相关请求中定义的一个或多个参数值以及所述主要媒体搜索查询的一个或多个参数值。4.根据权利要求1所述的方法,其中基于所述媒体项主要集合获得所述第二媒体项主要集合。5.根据权利要求1所述的方法,其中所述第二主要媒体搜索查询包括一组参数值,并且所述方法还包括:从所一述组参数值识别参数值的核心集合,所述参数值的核心集合具有比所述一组参数值少的参数值;基于所述参数值的核心集合生成一个或多个附加媒体搜索查询;执行所述一个或多个附加媒体搜索查询以获得一个或多个媒体项附加集合;以及在所述显示单元上显示所述一个或多个媒体项附加集合。6.根据权利要求5所述的方法,还包括:基于多个用户的媒体选择历史来识别一个或多个附加参数值,其中所述一个或多个附加媒体搜索查询是使用所述一个或多个附加参数值生成的。7.根据权利要求5所述的方法,其中所述第二媒体项主要集合显示在所述显示单元上的用户界面的顶行处,并且其中所述一个或多个媒体项附加集合显示在所述显示单元上的所述用户界面的一个或多个后续行处。8.根据权利要求1所述的方法,还包括:根据确定所述主要用户意图不包括缩小所述主要媒体搜索查询范围的用户意图:确定所述主要用户意图是否包括执行新媒体搜索查询的用户意图;根据确定所述主要用户意图包括执行新媒体搜索查询的用户意图:基于所述媒体相关请求来生成对应于所述主要用户意图的第三主要媒体搜索查询;确定是否能够获得对应于所述第三主要媒体搜索查询的至少一个媒体项;根据确定能够获得对应于所述第三主要媒体搜索查询的至少一个媒体项:执行所述第三主要媒体搜索查询以获得第三媒体项主要集合;以及用所述第三媒体项主要集合的显示替换所述媒体项主要集合的显示。9.根据权利要求8所述的方法,其中确定所述主要用户意图是否包括执行新媒体搜索查询的用户意图还包括:确定所述媒体相关请求是否包括对应于执行新媒体搜索查询的用户意图的字词或短语。10.根据权利要求8所述的方法,其中确定所述主要用户意图是否包括执行新媒体搜索查询的用户意图还包括:确定所述媒体相关请求是否包括对应于一个或多个媒体项的参数值的字词或短语。11.根据权利要求8所述的方法,其中执行所述第三主要媒体搜索查询包括执行多个候选媒体项的归一化排序,所述多个候选媒体项具有多个媒体类型。12.根据权利要求8所述的方法,其中确定所述主要用户意图包括确定与所述媒体相关请求相关联的媒体类型,并且其中所述第三主要媒体搜索查询是根据所确定的媒体类型而执行的。13.根据权利要求8所述的方法,其中执行所述第三主要媒体搜索查询包括识别与包括在所识别的候选媒体项的一个或多个媒体评论中的参数值相关联的候选媒体项。14.根据权利要求8所述的方法,其中执行所述第三主要媒体搜索查询包括识别与从所识别的候选媒体项的隐藏字幕信息导出的参数值相关联的候选媒体项。15.根据权利要求8所述的方法,还包括:根据确定没有媒体项对应于所述第三主要媒体搜索查询:识别所述第三主要媒体搜索查询的最不相关参数值;基于所识别的最不相关参数值,确定一个或多个另选的参数值;用所述一个或多个另选的参数值执行一个或多个另选的主要媒体搜索查询以获得第四媒体项主要集合;以及用所述第四媒体项主要集合的显示替换所述媒体项主要集合的显示。16.根据权利要求8所述的方法,还包括:根据确定所述主要用户意图不包括缩小所述主要媒体搜索查询范围的用户意图:基于所述主要用户意图和一个或多个先前用户意图确定一个或多个辅助用户意图,所述一个或多个先前用户意图对应于在所述媒体相关请求之前接收的一个或多个先前媒体相关请求;生成对应于所述一个或多个辅助用户意图的一个或多个辅助媒体搜索查询;执行所述一个或多个辅助媒体搜索查询以获得一个或多个媒体项辅助集合;以及在所述显示单元上显示所述一个或多个媒体项辅助集合。17.根据权利要求16所述的方法,其中所述一个或多个先前媒体相关请求包括对应于所述媒体项主要集合的先前媒体相关请求。18.根据权利要求16所述的方法,还包括:确定所述主要用户意图和所述一个或多个先前用户意图的一个或多个组合,其中所述一个或多个组合中的每个组合与至少一个媒体项相关联,并且其中所述一个或多个辅助意图包括所述一个或多个组合。19.根据权利要求16所述的方法,其中所述一个或多个先前用户意图和所述主要用户意图与和所述数字助理进行的同一交互会话相关联。20.根据权利要求16所述的方法,其中基于用户在所述一个或多个电子设备上的媒体搜索历史生成所述一个或多个辅助用户意图。21.根据权利要求16所述的方法,其中基于用户在所述一个或多个电子设备上的媒体选择历史生成所述一个或多个辅助用户意图。22.根据权利要求16所述的方法,还包括:从第二电子设备接收媒体搜索历史,其中基于从所述第二电子设备接收的所述媒体搜索历史生成所述一个或多个辅助用户意图。23.根据权利要求16所述的方法,其中基于用户在所述一个或多个电子设备上的媒体观看列表生成所述一个或多个辅助用户意图。24.根据权利要求16所述的方法,其中:在接收所述音频输入时,多个文本显示在所述显示单元上;在接收所述音频输入时,所述多个文本与显示在所述显示单元上的多个媒体项相关联;并且基于所显示的多个文本生成所述一个或多个辅助用户意图。25.根据权利要求16所述的方法,还包括:确定针对所述一个或多个辅助用户意图中的每个意图的排序分数,其中根据针对所述一个或多个辅助用户意图中的每个意图的所述排序分数显示所述一个或多个媒体项辅助集合。26.根据权利要求25所述的方法,其中针对所述一个或多个辅助用户意图中的每个意图的所述排序分数基于接收所述媒体相关请求和所述一个或多个先前媒体相关请求中的每一者的时间。27.根据权利要求25所述的方法,其中针对所述一个或多个辅助用户意图中的每个意图的所述排序分数基于用户在所述一个或多个电子设备上的媒体搜索历史。28.根据权利要求25所述的方法,其中针对所述一个或多个辅助用户意图中的每个意图的所述排序分数基于用户在所述一个或多个电子设备上的媒体选择历史。29.根据权利要求25所述的方法,其中针对所述一个或多个辅助用户意图中的每个意图的所述排序分数基于用户在所述一个或多个电子设备上的媒体观看列表。30.根据权利要求8所述的方法,还包括:根据确定所述主要用户意图不包括执行新媒体搜索查询的用户意图:确定所述主要用户意图是否包括校正所述主要媒体搜索查询的一部分的用户意图;根据确定所述主要用户意图包括校正所述主要媒体搜索查询的一部分的用户意图:基于所述媒体相关请求和所述主要媒体搜索查询请求,生成对应于所述主要用户意图的第五主要媒体搜索查询;执行所述第五主要媒体搜索查询以获得第五媒体项主要集合;以及用所述第五媒体项主要集合的显示替换所述媒体项主要集合的显示。31.根据权利要求30所述的方法,其中确定所述主要用户意图是否包括校正所述主要媒体搜索查询的一部分的用户意图包括:确定所述媒体相关请求是否包括对应于校正所述主要媒体搜索查询的一部分的用户意图的字词或短语。32.根据权利要求30所述的方法,其中确定所述主要用户意图是否包括校正所述主要媒体搜索查询的一部分的用户意图包括:确定表示所述媒体相关请求的一部分的音素序列是否基本上类似于表示对应于所述主要媒体搜索查询的先前媒体相关请求的一部分的音素序列。33.根据权利要求30所述的方法,其中生成所述第五主要媒体搜索查询包括:识别与不被校正的所述主要媒体搜索查询的一部分相关联的一组媒体项,其中基于与不被校正的所述主要媒体搜索查询的所述部分相关联的所述一组媒体项的一个或多个参数值生成所述第五主要媒体搜索查询。34.根据权利要求30所述的方法,还包括:根据确定所述主要用户意图包括校正所述主要媒体搜索查询的一部分的用户意图:在确定对应于所述媒体相关请求的辅助用户意图时,从考虑中排除所述主要媒体搜索查询。35.根据权利要求30所述的方法,还包括:根据确定所述主要用户意图不包括校正所述主要媒体搜索查询的一部分的用户意图:确定所述主要用户意图是否包括改变显示在所述显示单元上的用户界面的焦点的用户意图,其中所述用户界面包括多个媒体项;并且根据确定所述主要用户意图包括改变显示在所述显示单元上的用户界面的焦点的用户意图,将所述用户界面的焦点从所述多个媒体项中的第一媒体项改变为所述多个媒体项中的第二媒体项。36.根据权利要求35所述的方法,其中确定所述主要用户意图是否包括改变显示在所述显示单元上的用户界面的焦点的用户意图包括:确定所述媒体相关请求是否包括对应于改变显示在所述显示单元上的用户界面的焦点的用户意图的字词或短语。37.根据权利要求35所述的方法,其中所述用户界面包括对应于所述用户界面中的所述多个媒体项的多个文本,并且其中确定所述主要用户意图是否包括改变显示在所述显示单元上的用户界面的焦点的用户意图基于所述多个文本。38.根据权利要求1所述的方法,还包括:确定所述媒体相关请求的文本表示;以及在所述显示单元上显示所述文本表示。39.根据权利要求38所述的方法,其中使用一个或多个语言模型确定所述文本表示。40.根据权利要求39所述的方法,其中所述一个或多个语言模型偏向媒体相关文本结果。41.根据权利要求39所述的方法,其中所述一个或多个语言模型被配置为在多种语言中识别媒体相关文本。42.根据权利要求38所述的方法,其中多个媒体项以及与所述多个媒体项相关联的文本显示在所述显示单元上,并且所述方法还包括:使用与所述多个媒体项相关联的所述文本生成第二语言模型,其中所述文本表示是使用所述第二语言模型确定的。43.根据权利要求38所述的方法,还包括:使用所述文本表示确定预测文本;在所述显示单元上与所述文本表示一起显示所述预测文本。44.根据权利要求43所述的方法,其中基于在接收所述音频输入时显示在所述显示单元上的文本确定所述预测文本。45.根据权利要求43所述的方法,还包括:确定在显示所述预测文本之后是否检测到所述音频输入的结束点,其中根据确定在显示所述预测文本之后检测到所述音频输入结束点,所述文本表示和所述预测文本用于确定所述主要用户意图。46.根据权利要求1所述的方法,还包括:在接收所述音频输入时:基于所述音频输入的接收部分来确定初步用户意图;识别满足所述初步用户意图所需的数据;确定在确定所述初步用户意图时所述数据是否存储于所述一个或多个电子设备上;并且根据确定在确定所述初步用户意图时所述数据未存储于所述一个或多个电子设备上,获得所述数据。47.一种用于与媒体系统的数字助理交互的方法,所述方法包括:在包括一个或多个处理器和存储器的一个或多个电子设备处:从用户接收自然语言语音形式的媒体搜索请求;确定对应于所述媒体搜索请求的主要用户意图;根据所述主要用户意图获得媒体项主要集合;确定是否存在一个或多个先前用户意图,所述一个或多个先前用户意图对应于在所述媒体搜索请求之前接收的一个或多个先前媒体搜索请求;以及响应于确定存在一个或多个先前用户意图:基于所述主要用户意图和所述一个或多个先前用户意图确定一个或多个辅助用户意图;获得多个媒体项辅助集合,其中每个媒体项辅助集合对应于所述一个或多个辅助用户意图中的相应辅助用户意图;以及显示所述媒体项主要集合和所述多个媒体项辅助集合。48.根据权利要求47所述的方法,其中确定所述主要用户意图还包括:确定所述媒体搜索请求是否包含在所述媒体搜索请求之前接收的缩小先前媒体搜索请求范围的明示请求,其中根据确定所述媒体搜索请求包含缩小所述先前媒体搜索请求范围的明示请求,从所述媒体搜索请求和所述一个或多个先前用户意图中的至少一个意图确定所述主要用户意图。49.根据权利要求48所述的方法,其中响应于确定所述媒体搜索请求不包含缩小所述先前媒体搜索请求范围的明示请求,从所述媒体搜索请求确定所述主要用户意图。50.根据权利要求47所述...
【专利技术属性】
技术研发人员:R·M·奥尔,R·N·希基,P·M·利斯特,J·H·拉塞尔,
申请(专利权)人:苹果公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。