忽略流式媒体内容中的触发词制造技术

技术编号:22503356 阅读:21 留言:0更新日期:2019-11-09 02:58
本公开涉及忽略流式媒体内容中的触发词。本公开的各个方面涉及忽略缓冲媒体流的触发词。在播放媒体流之前,访问媒体内容的缓冲媒体流。识别缓冲媒体流的媒体内容中的一个或多个触发词。相对于缓冲媒体流的媒体内容的播放时间,为一个或多个识别的触发词中的每一个生成时间戳。指示语音命令设备在缓冲媒体流被播放时,根据一个或多个识别的触发词中的每一个的时间戳忽略缓冲媒体流的音频内容。

Ignore triggers in streaming media content

The present disclosure relates to ignoring triggers in streaming media content. Various aspects of the present disclosure relate to ignoring triggers for buffered media streams. Access the buffered media stream of media content before playing the media stream. Identify one or more triggers in the media content of the buffered media stream. Generates a timestamp for each of one or more recognized triggers, relative to the playback time of the media content buffering the media stream. Instructs the voice command device to ignore the audio content of the buffered media stream according to the time stamp of each of one or more recognized triggers when the buffered media stream is played.

【技术实现步骤摘要】
忽略流式媒体内容中的触发词
本公开涉及语音命令设备,更具体地,涉及语音命令过滤。
技术介绍
语音命令设备(VCD)由人类语音命令控制。设备由人类语音命令控制,从而不需要利用诸如按钮、拨盘、开关、用户界面之类的手动控件来操作设备。这使用户可以在双手忙于其他任务时,或者在用户离设备不够近从而无法接触设备的情况下操作设备。VCD可以采取各种形式,包括诸如家用电器之类的专用设备、用于其他设备的控制器、或者用作个人助手。虚拟个人助手形式的VCD可以与诸如智能电话机之类的计算设备一体化。虚拟个人助手可包括用于响应于语音命令和输入而执行任务或服务的语音激活指令。VCD可以由呈一个或多个触发词形式的语音命令激活。VCD可以使用语音识别,被编程为只对注册的个人的语音或者一组注册的个人的语音作出响应。这可以防止非注册用户发出命令。其他类型的VCD未针对注册用户进行调整,从而允许任何用户以指定的命令词和指令的形式发出命令。
技术实现思路
本公开的实施例包括用于忽略缓冲媒体流中的触发词的方法、计算机程序产品和系统。可在播放媒体流之前访问媒体内容的缓冲媒体流。可以识别缓冲媒体流的媒体内容中的一个或多个触发词。可相对于缓冲媒体流的媒体内容的播放时间,为一个或多个识别的触发词中的每一个生成时间戳。可以指示语音命令设备在缓冲媒体流被播放时,根据所述一个或多个识别的触发词中的每一个的时间戳忽略缓冲媒体流的音频内容。上述
技术实现思路
并不意图说明本公开的各个例示实施例或每种实现。附图说明包含在本公开中的附图并入说明书中,并构成说明书的一部分。附图图解说明本公开的实施例,并且连同具体实施方式一起,用于解释本公开的原理。附图仅仅例示典型实施例,并不限制本公开。图1是图解说明其中可实现本公开的实施例的环境的示意图。图2是图解说明按照本公开的实施例,忽略缓冲媒体流的触发词的例证方法的流程图。图3A是图解说明根据本公开的实施例,忽略由媒体流式传输设备处理的缓冲媒体流的触发词的例证方法的流程图。图3B是图解说明根据本公开的实施例,忽略由语音命令设备处理的缓冲媒体流的触发词的例证方法的流程图。图4是图解说明按照本公开的实施例,缓冲媒体流中的触发词的时间戳的示意图。图5A是按照本公开的实施例的媒体流式传输设备的方框图。图5B是按照本公开的实施例的语音命令设备的方框图。图6是图解说明按照本公开的实施例,可用于实现记载在本文中的一种或多种方法、工具和模块,以及任意相关功能的例证计算机系统的高级方框图。图7是图解说明按照本公开的实施例的云计算环境的示图。图8是图解说明按照本公开的实施例的抽象模型层的方框图。尽管记载在本文中的实施例适合于各种修改和备选形式,不过,其细节已在附图中举例说明,并将在下面详细描述。然而,应明白的是不应限制性地理解说明的特定实施例。相反,其目的是涵盖在本公开的精神和范围内的所有修改、等同物和备选项。具体实施方式本公开的各个方面一般涉及语音命令设备的领域,尤其涉及语音命令过滤。尽管本公开不一定限于这样的应用,不过通过利用本语境的各个例子的讨论,可以意识到本公开的各个方面。语音命令设备(VCD)由人类语音命令控制。设备由人类语音命令控制,从而不需要利用诸如按钮、拨盘、开关、用户界面之类的手动控件来操作设备。这使用户可以在双手忙于其他任务时,或者在用户离设备不够近从而无法接触设备的情况下操作设备。当VCD由来自在VCD附近发出语音的电视机、收音机、计算机或其他非人类设备的语音命令触发时,会出现混乱。例如,呈包含声控智能个人助手的智能扬声器形式的VCD可设置在客厅中。智能扬声器可能会错误地响应来自电视机的音频。有时,这可能是智能扬声器不理解的良性命令;不过,偶尔所述音频是可能导致智能个人助手的动作的有效命令或触发词。本公开的各个方面通过利用媒体流式传输设备的可以缓冲内容的特征,区分真正的人类命令和非人类来源(例如,电视机或收音机)发出的命令,从而未来的内容可被预占(pre-empt)。智能媒体流式传输设备,例如,智能电视流式传输媒体可以与诸如个人助手设备之类的语音命令设备建立连接。当用户观看视频或者收听音频时,未来的内容可以被缓冲。当内容正被观看或收听时,媒体流式传输设备可把即将来临的触发词的时间和持续时间传送给语音命令设备。从而当流式内容播放触发词(发出包含触发词的音频)时,语音命令设备可以忽略命令。参见图1,示意图100描述按照本公开的实施例,VCD120可位于其中的房间110。例如,VCD120可以呈智能扬声器的形式,该智能扬声器包括位于在房间110中的沙发117旁边的桌子上的声控智能个人助手。房间110可包括可从两个扬声器115、116发出音频的电视机114。房间110还可包括具有扬声器的收音机112。电视机114和收音机112都可呈向房间110中的用户流式传输视频和/或音频内容的智能媒体流式传输设备的形式。VCD120可接收来自两个电视机扬声器115、116以及收音机112的音频输入。这些音频输入可包括用于可能错误触发VCD120或者向VCD120提供输入的命令的触发词。本公开的各个方面向诸如电视机114或收音机112和VCD120之类的智能媒体流式传输设备提供附加功能,以在VCD120处忽略触发词或者(与触发词类似的词语)的来自媒体流式传输设备的音频输出,从而避免在VCD120处的错误命令执行。在实施例中,VCD120可被配置成接收并执行用于来自在电视机114或收音机112附近的人类用户140的命令的触发词的音频输入。图2是图解说明按照本公开的实施例,在VCD处预占(例如,忽略)缓冲媒体流的触发词的例证方法200的流程图。在识别语音命令触发词时开始方法200。这例示在步骤201。在实施例中,数据仓库可包含所有触发词及对于各个相应触发词要执行的对应动作的表格。这些可被保存在VCD的本地存储器上。在一些实施例中,可以动态更新触发词。例如,触发词可由用户配置,或者可根据接收的音频输入自动调整。触发词(或触发短语)是当被VCD识别时,导致特定动作执行的音频信号(例如,触发短语“PowerOff”可导致关闭VCD的对应动作)。随后在媒体流被播放(例如,由媒体设备输出)之前,访问缓冲媒体流。这例示在步骤202。在实施例中,可通过网络访问媒体流。媒体流可以按拉(例如,由VCD请求)或者按推(例如,由媒体设备推送给VCD)的方式被访问。在被媒体设备输出之前,媒体流可被缓冲任何适当的时段。例如,在被媒体设备输出之前,媒体流可被缓冲5秒、10秒、1分钟等。在实施例中,可以在缓冲时立即自动访问媒体流。随后分析缓冲媒体流,以识别触发词(包括实质上与触发词类似的词语)。这例示在步骤203。可以按任何适当的方式,完成缓冲媒体流的分析。在一些实施例中,利用常规的音频识别技术来识别存在于缓冲媒体流中的触发词。在一些实施例中,根据相对于已知触发词的快速傅里叶变换(FFT)识别触发词。在一些实施例中,获得缓冲媒体流的副本(transcript)(例如,利用自然语言处理(NLP)技术或者伴随媒体内容的字幕),并针对触发词分析所述副本。例如,可通过利用已知触发词的表格来识别即将来临的触发词,解析所述副本。在实施例中,自然语言处理可包括把词语分成语素的语素切分,确定每本文档来自技高网...

【技术保护点】
1.一种计算机实现的用于忽略流式媒体内容中的触发词的方法,所述方法包括:在播放媒体流之前,访问媒体内容的缓冲媒体流;识别缓冲媒体流的媒体内容中的一个或多个触发词;相对于缓冲媒体流的媒体内容的播放时间,为一个或多个识别的触发词中的每一个生成时间戳;和指示语音命令设备在缓冲媒体流被播放时,根据所述一个或多个识别的触发词中的每一个的时间戳忽略缓冲媒体流的音频内容。

【技术特征摘要】
2018.05.01 US 15/968,3491.一种计算机实现的用于忽略流式媒体内容中的触发词的方法,所述方法包括:在播放媒体流之前,访问媒体内容的缓冲媒体流;识别缓冲媒体流的媒体内容中的一个或多个触发词;相对于缓冲媒体流的媒体内容的播放时间,为一个或多个识别的触发词中的每一个生成时间戳;和指示语音命令设备在缓冲媒体流被播放时,根据所述一个或多个识别的触发词中的每一个的时间戳忽略缓冲媒体流的音频内容。2.按照权利要求1所述的方法,其中确定媒体流中的所述一个或多个触发词中的每一个的持续时间;和其中根据所述一个或多个触发词中的每一个的持续时间,忽略音频内容。3.按照权利要求1所述的方法,其中识别所述一个或多个触发词包括:把缓冲媒体流的音频内容从音频转换成文本;和比较缓冲媒体流的文本和已知触发词的文本。4.按照权利要求1所述的方法,其中识别所述一个或多个触发词包括:接收带有元数据的缓冲媒体流,所述元数据识别媒体流的音频内容中的语音命令触发词。5.按照权利要求1所述的方法,其中所述方法由媒体流式传输设备执行,并且还包括:在输出媒体流之前,接收并缓冲媒体流;和从语音命令设备访问语音命令触发词的细节,其中所述媒体流式传输设备指示语音命令设备在缓冲媒体流被播放时,根据一个或多个识别的触发词中的每一个的时间戳忽略缓冲媒体流的音频内容。6.按照权利要求5所述的方法,其中在播放媒体内容之前的预定时间完成所述指示。7.按照权利要求5所述的方法,其中在媒体内容正在播放时实时完成所述指示。8.按照权利要求1所述的方法,其中所述方法由语音命令设备执行。9.按照权利要求8所述的方法,其中指示语音命令设备忽略缓冲媒体流的音频内容还包括:通过利用安装在语音命令设备中的两个或更多个麦克风的到达时间差,确定正从中接收缓冲媒体流的音频内容的方向;把所述方向保存为媒体流式传输设备的方向;和在缓冲媒体流被播放时,根据一个或多个识别的触发词中的每一个的时间戳,忽略来自媒体流式传输设备的方向的缓冲媒体流的音频内容。10.按照权利要求8所述的方法,其中指示语音命令设备忽略缓冲媒体流的音频内容包括忽略所有接收的音频输入。11.一种用于忽略流式媒体内容中的触发词的系统,包括:处理器,和被配置成向所述处理器提供计算机程序指令以执行各个组件的功能的存储器;被配置成在播放媒体流之前访问媒体内容的缓冲媒体流的媒体流访问组件;被配置成识别缓冲媒体流中的一个或多个触发词的触发词识别组件;被配置成相对于缓冲媒体流的媒体内容的播放时间,为一个或多个识别的触发词中的每一...

【专利技术属性】
技术研发人员:E·李J·杜宁J·J·伍德G·G·彻瑞拉D·T·古宁顿
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1