一种语音命令识别方法和装置制造方法及图纸

技术编号:10638513 阅读:144 留言:1更新日期:2014-11-12 13:27
本发明专利技术实施方式提出一种语音命令识别方法和装置。方法包括:获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;当确定所述语音源自所述用户时,识别所述语音中的命令词。本发明专利技术实施方式可以基于注册用户的声纹模型确定语音是否源自注册用户,从而提高安全性。

【技术实现步骤摘要】
【专利摘要】本专利技术实施方式提出一种语音命令识别方法和装置。方法包括:获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;当确定所述语音源自所述用户时,识别所述语音中的命令词。本专利技术实施方式可以基于注册用户的声纹模型确定语音是否源自注册用户,从而提高安全性。【专利说明】一种语音命令识别方法和装置
本专利技术实施方式涉及自动语音识别(ASR,Automatic Speech Recognition)技术 领域,更具体地,涉及一种语音命令识别方法和装置。
技术介绍
自动语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符 的一项技术。语音识别具有复杂的处理流程,主要包括模型训练、解码网络构建以及解码等 过程。 语音命令识别技术是自动语音识别技术的一项具体应用,其主要功能是用户不必 利用键盘、鼠标、触摸屏等输入设备,只要说出命令词的语音,则语音命令识别系统会自动 识别出该语音对应的字符串,如果该字符串为命令词对应的字符串,则触发对应的操作。然 而,目前语音命令识别系统通常并不对用户进行区分,这会带来显著的安全性问题。 例如目前的语音唤醒系统就是一种典型的语音命令识别系统,用户可以说出唤醒 命令,系统识别用户说出的语音,如果识别出是唤醒命令则唤醒(即启动)对应的设备,否则 不唤醒对应的设备。语音命令识别系统的评测标准通常包括误识率和拒认率两个部分。误 识率指用户未发出语音命令,但系统却错误的触发了该命令对应的操作。拒认率指用户发 出了语音命令,但系统却没有反应,即没有触发该命令对应的操作。误识率和拒认率越低, 证明语音命令识别系统越稳定。 当前已公开的这些技术中,存在这样的问题,当其他人发出相应的命令时,由于唤 醒系统本身不具有识别用户身份的能力,所以用户自己的系统也会被唤醒,这就大大增加 了用户使用时的风险。由于每个人的声音都具有唯一性,通过声纹识别来确认用户身份具 有其独特的优越性,也只有这种方式才能真正实现唤醒者的不可替代性,即使其他人故意 要唤醒系统,系统也可以判断不是用户本人而拒绝被唤醒。
技术实现思路
本专利技术实施方式提出一种语音命令识别方法,以提高安全性。 本专利技术实施方式提出一种语音命令识别装置,以提高安全性。 本专利技术实施方式的技术方案如下: -种语音命令识别方法,该方法包括: 获取广义背景模型,并基于用户的注册语音获取用户的声纹模型; 接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景 模型和所述用户声纹模型确定该语音是否源自所述用户; 当确定所述语音源自所述用户时,识别所述语音中的命令词。 一种语音命令识别装置,其特征在于,包括模型获取单元、用户识别单元和命令词 识别单元,其中 : 模型获取单元,用于获取广义背景模型,并基于用户的注册语音获取用户的声纹 模型; 用户识别单元,用于接收语音,提取所述语音的声纹特征,并基于所述语音的声纹 特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户; 命令词识别单元,用于当确定所述语音源自所述用户时,识别所述语音中的命令 。 从上述技术方案可以看出,在本专利技术实施方式中,获取广义背景模型,并基于用户 的注册语音获取用户的声纹模型;接收语音,提取所述语音的声纹特征,并基于所述语音的 声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;当确定 所述语音源自所述用户时,识别所述语音中的命令词。应用本专利技术实施方式之后,可以基于 注册用户的声纹模型确定语音是否源自注册用户,从而提高了安全性。 而且,在语音唤醒应用中,本专利技术实施方式可以将使用声纹识别的方式来确认用 户的身份,可保证系统只能由用户本身唤醒。 【专利附图】【附图说明】 图1为根据本专利技术实施方式语音命令识别方法流程图; 图2为根据本专利技术实施方式的用户声纹注册流程图; 图3为根据本专利技术实施方式的基于用户语音的语音唤醒流程图; 图4为根据本专利技术实施方式的语音命令识别装置结构图。 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步 的详细描述。 由于每个人的声音都具有唯一性,通过声纹识别来确认用户身份具有其独特的优 越性。比如,声纹识别来确认用户身份可以真正实现唤醒者的不可替代性,即使其他人故意 要唤醒系统,系统也可以判断不是用户本人而拒绝被唤醒。 声纹识别也称为说话人识别。声纹识别包括文本相关(Text-D印endent)和文本 无关(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发 音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达 到较好的识别效果。文本无关的说话人识别由于不需要存储特定的文本密码,而直接使用 说话人的语音作为密码,可以广泛的应用在互联网用户身份认证等安全领域。 本专利技术实施方式可以适用于针对文本有关以及文本无关的应用,尤其适用于针对 文本有关的应用,比如语音唤醒应用。 图1为根据本专利技术实施方式语音命令识别方法流程图。 如图1所示,该方法包括: 步骤101 :获取广义背景模型,并基于用户的注册语音获取用户的声纹模型。 可以利用包含大量说话人的语音数据训练一个说话人无关的广义背景模型 (Universal Background Model, UBM),然后利用可以获得的少量当前说话人的语音数 据,通过最大后验概率(Maximum A Posteriori, MAP)或者最大似然线性回归(Maximum Likelihood Linear Regression, MLLR)等准则,训练得到说话人的模型,以作为用户的声 纹模型。 在一个实施方式中: 可以使用大量语音数据训练出一个基于混合高斯模型(GMM)的广义背景模型 (UBM)。另外,还可以通过麦克风等语音采集设备采集用户口述命令词的注册语音;再从注 册语音中提取用户语音特征;并利用所述用户语音特征通过最大后验自适应方式在所述广 义背景模型上自适应获取该用户的混合高斯模型,以作为所述用户的声纹模型。 通过注册用户的声音(声纹),可以便于后续过程中对语音进行鉴定,以确定所检 测的语音是否由注册用户所发出。 步骤102 :接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所 述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户。 在做说话人身份判决的时候,分别针对待测试语音数据计算说话人对应的GMM模 型和UBM模型似然度,并通过对数似然比(Logistic Likelihood Ratio, LLR)这个度量来 计算最终的得分。对于说话人确认任务来说,通过比较与预先设定的一个门限(Threshold) 的关系,来进行判决,而对于说话人识别来说,模型得分高的则为说话人识别结果。 在用户完成语音注册后,就具有了识别该用户的能力。在实际应用中,用户说出其 对应的文本文档来自技高网
...

【技术保护点】
一种语音命令识别方法,其特征在于,该方法包括:获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;当确定所述语音源自所述用户时,识别所述语音中的命令词。

【技术特征摘要】

【专利技术属性】
技术研发人员:岳帅张翔卢鲤饶丰王尔玉刘海波陈波刘荐李露
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有1条评论
  • 来自[天津市电信IDC机房] 2015年01月15日 14:35
    命令(令)是国家行政机关及其领导人发布的指挥性和强制性的公文。它适用于依照有关法律公布行政法规和规章;宣布施行重大强制性行政措施;嘉奖有关单位及人员,撤销下级机关不适当的决定。命令必须严肃审慎,不能滥用,错用。据《中华人民共和国宪法》和《地方各级人民代表大会组织法》规定:中国人民代表大会常务委员会委员长、中华人民共和国主席、国务院总理、各部部长、各委员会主任可以发布命令。
    0
1