记录的媒体热词触发抑制制造技术

技术编号:38505441 阅读:8 留言:0更新日期:2023-08-19 16:52
公开了用于当检测到记录的媒体中的热词时抑制热词触发的方法、系统和用户设备,包括在计算机存储介质上编码的计算机程序。在一方面,一种方法,包括:在数据处理硬件处接收与媒体内容项目的回放相对应的音频数据,所述音频数据包括音频水印和由热词在前的命令的话语;由数据处理硬件确定接收的音频数据包括热词;由数据处理硬件处理音频数据,以:识别包括在音频数据中的音频水印;以及确定音频水印的相对应的比特流;以及基于确定的音频水印的相对应的比特流,由数据处理硬件在不访问音频水印数据库来识别匹配音频水印的情况下,确定绕过执行由热词在前的命令。执行由热词在前的命令。执行由热词在前的命令。

【技术实现步骤摘要】
记录的媒体热词触发抑制
[0001]本申请是申请日为2018年03月13日,申请号为201880008785.3,专利技术名称为“记录的媒体热词触发抑制”的专利技术专利申请的分案申请。


[0002]本说明书一般涉及自动语音识别。

技术介绍

[0003]支持语音的住所或其他环境——也就是用户在其中仅需要出声地讲出查询或命令并且基于计算机的系统将处理并应答该查询和/或致使命令得以执行的住所或其他环境——的现实正在到来。支持语音的环境(例如,住所、工作场所、学校等)能够使用分布在该环境的各个房间或区域各处的被连接的麦克风设备的网络来实施。通过这样的麦克风的网络,用户有能力从基本上该环境中的任何地方口头查询系统而无需在他/她的前方或者甚至在其附近具有计算机或其他设备。例如,当在厨房中烹饪时,用户可以询问系统“三杯是多少毫升?”,并且作为响应而从系统接收到回答,例如,以合成语音输出的形式的回答。可替换地,用户可以询问系统诸如“离我最近的加油站什么时候关门”,或者在准备离开房子时询问“我今天应当穿外套吗?”。
[0004]此外,用户可以询问系统的查询和/或发出命令,该查询或命令涉及用户的个人信息。例如,用户可以询问系统“我与John何时会面?”或者命令系统“当我回家时提醒我给John打电话。”
技术实现思路

[0005]对于支持语音的系统,用户与系统交互的方式被设计为主要(如果不是专门地)凭借语音输入来进行。因此,可能拾取周围环境中所发出的包括并非指向系统的那些话语在内的所有话语的系统必须以某些方式来辨别任何给定的话语何时是指向该系统而不是例如指向出现在该环境中的个人。一种实现该目的的方式是使用热词(hotword),该热词通过环境中的用户间的协定被预留作为预定词语,其被讲出以唤起系统的注意。在示例环境中,用来唤起系统的注意的热词是词语“OK computer”(OK计算机)。因此,每次词语“OK computer”被讲出时,其就被麦克风所拾取,传达至系统,该系统执行语音识别技术或使用音频特征和神经网络来确定热词是否被讲出,并且如果是,则等待随后的命令或查询。因此,指向系统的话语采用[热词][查询]([HOTWORD][QUERY])的一般形式,其中本示例中的“热词”是“OK computer”并且“查询”能够是任何问题、命令、声明、或者能够由系统单独或者经由网络与服务器结合来进行语音识别、解析、以及按照其实施动作的其他请求。
[0006]除了检测热词之外,计算设备可以被配置为检测嵌入在热词的音频中的音频水印。音频水印可以是人类听不见的高频水印,或者是听起来类似于背景噪声或静态的水印。计算设备可以被配置为根据音频水印不同地响应热词。例如,可以创建媒体内容的一部分,其中包括一个演员说:“OK computer,给我去火车站的方向”。为了防止播放媒体内容的电
视机附近范围内的任何计算设备提供去火车站的方向,媒体内容的创建者可以包括与热词重叠的音频水印。检测媒体内容的音频的计算设备可以提取音频水印并将音频水印与音频水印数据库进行比较。音频水印数据库可以包括计算设备应该何时对随热词和该特定音频水印之后的音频执行语音识别的规则,以及对于其他音频水印的附加规则。应当理解,本文描述的方法和系统中的至少一些可以使计算设备能够选择性地确定何时响应通过计算设备附近的扬声器输出的口头话语。
[0007]用于媒体内容的音频水印的规则可以包括计算设备在进一步处理来自媒体内容的音频之前应该满足的条件。示例规则可以是:如果计算设备当前没有提供方向、移动速度不超过每小时10英里、是智能扬声器、以及位于用户住所处,则计算设备应该作出响应。规则的另一示例可以是:只有当计算设备在与媒体内容的所有者或创建者相关联的场所内并且水印指示话语具有高优先级时,计算设备才应该响应。如果计算设备满足这些规则,则计算设备可以对随热词之后的部分执行语音识别。如果转录是“给我去火车站的方向”,则计算设备可以显示或可听地提供去火车站的方向。如果计算设备不满足规则,则计算设备不对随热词之后的音频部分执行语音识别,并且不响应于音频执行进一步的动作。
[0008]在一些实施方式中,音频水印可以编码数据,这可以消除计算设备将音频水印与音频水印数据库进行比较的需要。编码的数据可以包括计算设备应该何时执行语音识别的规则、标识符、动作或任何其他类似数据。在一些实施方式中,计算设备可以结合音频水印数据库使用编码的数据来确定是否对随热词之后的音频执行语音识别。
[0009]根据本申请中描述的主题的创新方面,一种用于当检测到记录的媒体中的热词时抑制热词触发的方法包括以下动作:由计算设备接收与媒体内容项的回放相对应的音频;由计算设备确定音频包括预定义热词的话语以及确定音频包括音频水印;由计算设备分析音频水印;以及基于对音频水印进行分析,由计算设备确定是否对随预定义热词之后的音频部分执行语音识别。
[0010]这些和其他实施方式可以各自可选地包括一个或多个以下特征。分析音频水印的动作包括将音频水印与一个或多个音频水印进行比较。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于将音频水印与一个或多个音频水印进行比较。音频水印是与媒体内容项的回放相对应的音频的听不见的部分。这些动作还包括:基于对音频水印进行分析,标识与媒体内容项的回放相对应的音频源。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于与媒体内容项的回放相对应的音频源。这些动作还包括:基于对音频水印进行分析,标识与媒体内容项的回放相对应的音频源;以及更新日志文件以指示与媒体内容项回放相对应的音频源。
[0011]音频水印包括在包括预定义热词的话语的音频部分中。这些动作还包括确定附加计算设备的类型。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于附加计算设备的类型。由计算设备确定是否对随预定义热词之后的音频部分执行语音识别的动作包括确定对随预定义热词之后的音频部分执行语音识别。这些动作还包括由自动语音识别器生成随预定义热词之后的音频转录;以及执行与随预定义热词之后的音频转录相对应的动作。由计算设备确定是否对随预定义热词之后的音频部分执行语音识别的动作包括确定不对随预定义热词之后的音频部分执行语音识别。这些动作还包括抑制对应于与媒体内容项的回放相对应的音频的动作。
[0012]这些动作还包括确定附加计算设备的位置。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于附加计算设备的位置。这些动作还包括确定附加计算设备的用户设置。确定是否对随预定义热词之后的音频部分执行语音识别的动作还基于附加计算设备的用户设置。由计算设备确定音频包括预定义热词的话语以及确定音频包括音频水印的动作包括确定音频包括预定义热词的话语;以及基于确定音频包括预定义热词的话语,确定音频包括音频水印。由计算设备确定音频包括预定义热词的话语以及确定音频包括音频水印的动作包括确定音频包括预定义热词的话语;以及在确定音频包括预定义热词的话语之后,确定音频包括音频水印。
[0013]分析音频水印的动作包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:在数据处理硬件处接收与媒体内容项目的回放相对应的音频数据,所述音频数据包括音频水印和由热词在前的命令的话语;由数据处理硬件确定接收的音频数据包括热词;由数据处理硬件处理音频数据,以:识别包括在音频数据中的音频水印;以及确定音频水印的相对应的比特流;以及基于确定的音频水印的相对应的比特流,由数据处理硬件在不访问音频水印数据库来识别匹配音频水印的情况下,确定绕过执行由热词在前的命令。2.根据权利要求1所述的方法,其中,所述音频水印由媒体内容项目的创建者添加到音频数据中。3.根据权利要求1所述的方法,其中,处理所述音频数据以识别音频数据中的音频水印包括检测扩频整形类型的水印。4.根据权利要求1所述的方法,其中,确定所述接收的音频数据包括热词,包括:在不执行语音识别的情况下,计算指示音频数据包括热词的可能性的热词置信度得分;以及确定热词置信度得分满足热词置信度得分阈值。5.根据权利要求1所述的方法,其中:所述数据处理硬件驻留在用户设备上;当接收音频数据、确定接收的音频数据包括热词并处理音频数据时,用户设备处于睡眠模式、待机模式或低能耗模式之一;并且在确定绕过执行由热词在前的命令之后,用户设备保持在睡眠模式、待机模式或低能耗模式之一。6.如权利要求1所述的方法,其中,确定绕过执行所述由热字在前的命令包括绕过对接收的音频中与所述命令的话语相对应的一部分执行语音识别。7.根据权利要求1所述的方法,还包括:由数据处理硬件分析音频水印,以识别与媒体内容项目的回放相对应的音频数据的源,其中,确定绕过执行所述由热词在前的命令还基于与媒体内容项目的回放相对应的音频数据的源。8.根据权利要求7所述的方法,还包括由数据处理硬件更新日志文件,以指示与媒体内容项目的回放相对应的音频数据的源。9.根据权利要求1所述的方法,还包括:由数据处理硬件分析音频水印,以识别与媒体内容项目的回放相对应的音频数据的源,其中,确定绕过执行所述由热词在前的命令还基于与媒体内容项目的回放相对应的音频数据的源。10.根据权利要求1所述的方法,其中,所述音频水印被包括在包括热词的音频数据的一部分中。
11.一种系统,包括:数据处理硬件;和存储器硬件,与数据处理硬件通信并存储指令,当在数据处理硬件上执行时,所述指令使数据处理硬件执行操作,包括:接收与媒体内容项目的回放相对应的音频数据,所述音频数据包括音频水印和由热词在前的命令的话语;确定接收的音频数据包括热词;处理音频数据,以:识别包括在音频数据中的音频水印;以及确定音频水印的相对应的比特流;以及基于确定的音频水印的相对应的比特流,在不访问音频水印数据库来识别匹配音频水印的情况下,确定绕过执行由热词在前的命令。12.根据权利要求11所述的系统,其中,所述音频水印由媒体内容项目的创建者添加到音频数据中。13.根据权利要求11所述的系统,其中,处理所述音频数据以识别音频数据中的音频水印包括检测扩频整形类型的水印。14.根据权利要求11所述的系统,其中,确定所述接收的音频数据包括热词,包括:在不执行语音识别的情况下,计算指示音频数据包括热词的可能性的热词置信度得分;以及确定热词置信度得分满足热词置信度得分阈值。15.根据权利要求11所述的系统,其中:所述数据处理硬件驻留在用户设备上;当接收音频数据、确定接收的音频数据包括热词并处理音频数据时,用户设备处于睡眠模式、待机模式或低能耗模式之一;并且在确定绕过执行由热词在前的命令之后,用户设备保持在睡眠模式、待机模式或低能耗模式之一。16.如权利要求11所述的系统,其中,确定绕过执行所述由热字在前的命令包括绕过对接收的音频中与所述命令的话语相对应的一部分执行语音识别。17.根据权利要求11所述的系统,其中,所述操作还包括:分析音频水印,以识别与媒体内容项目的回放相对应的音频数据的源,其中,确定绕过执行所述由热词在前的命令还基于与媒体内容项目的回放相对应的音频数据的源。18.根据权利要求17所述的系统,其中,所述操作还包括更新日志文件,以指示与媒体内容项目的回放相对应的音频数据的源。19.根据权利要求11所述的系统,其中,所述操作还包括:分析音频水印,以识别与媒体内容项目的回放相对应的音频数据的源,其中,确定绕过执行所述由热词在前的命令还基于与媒体内容项目的回放相对应的音频数据的源。20.根据权利要求11所述的系统,其中,所述音频水印被包括在包括热词的音频...

【专利技术属性】
技术研发人员:R
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1