一种用户声纹模型构建方法、装置及系统制造方法及图纸

技术编号:14517155 阅读:88 留言:0更新日期:2017-02-01 19:27
本申请公开了一种用户声纹模型构建方法、装置及系统。一种用户声纹模型构建方法包括:接收用户输入的语音信息;判断所述语音信息中是否携带满足建模要求的预设关键词;在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;利用所述语音片段,为所述用户构建声纹模型。应用本申请所提供的技术方案,可以在任意能够接收到用户语音的应用场景下,自动完成用户声纹模型的构建,方便用户使用。

【技术实现步骤摘要】

本申请涉及计算机应用
,尤其涉及一种用户声纹模型构建方法、装置及系统。
技术介绍
声纹(voiceprint)是生物特征的一种,声纹识别是根据说话人的发音生理和行为特征,自动识别说话人身份的一种生物识别方法。声纹识别所提供的安全性可与其他生物识别技术(如:指纹、虹膜等)相媲美,而且语音采集装置只需电话/手机或麦克风即可,无需特殊的设备;它与说话语言无关,与方言腔调无关,不涉及隐私问题,适应人群范围很广;声音信号便于远程传输和获取,在基于电信和网络的身份识别应用中,声纹识别更有着特殊的优势声纹识别主要包括两个阶段:一是注册阶段:需要用户预先向系统录制一段语音内容,系统利用从注册语音中提取的声纹特征,为用户构建声纹模型;二是应用阶段:用户根据系统提示说出指定的语音片段,系统自动地录取用户的语音并提取声纹特征,将新提取到的声纹特征与预先构建的声纹模型进行匹配运算,然后根据二者的匹配程度对当前用户的身份进行识别。随着计算机和互联网技术的发展,声纹识别已经逐渐渗透到人们的日常生活中,例如智能终端应用,自动电话服务系统等等。根据上面的介绍可知,注册是整个声纹识别过程中不可缺少的环节,然而,这个注册环节却会在一定程度上给用户的使用带来不便,特别是对于中老年人等对新技术不敏感的特殊群体,甚至存在能否顺利注册声纹的问题。另外在有些情况下,为了提高系统安全性或鲁棒性,可能要求用户在注册阶段录制多个语音片段,这样会进一步增加用户的使用难度。
技术实现思路
本申请提供一种用户声纹模型构建方法、装置及系统,以降低声纹认证系统的使用难度,技术方案如下:本申请提供一种用户声纹模型构建方法,该方法包括:接收用户输入的语音信息;判断所述语音信息中是否携带满足建模要求的预设关键词;在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;利用所述语音片段,为所述用户构建声纹模型。本申请提供一种基于声纹的用户身份认证方法,该方法包括:接收用户输入的语音信息;判断所述语音信息中是否携带满足认证要求的预设关键词;在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段;提取所述语音片段的声纹特征;利用所述声纹特征与预先构建的所述用户的声纹模型,对所述用户的身份进行认证。本申请提供一种用户声纹模型构建装置,该装置包括:语音信息接收模块,用于接收用户输入的语音信息;建模关键词判断模块,用于判断所述语音信息中是否携带满足建模要求的预设关键词;语音片段截取模块,用于在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;声纹模型构建模块,用于利用所述语音片段,为所述用户构建声纹模型。本申请提供一种基于声纹的用户身份认证装置,该装置包括:语音信息接收模块,用于接收用户输入的语音信息;认证关键词判断模块,用于判断所述语音信息中是否携带满足认证要求的预设关键词;语音片段截取模块,用于在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段;声纹特征提取模块,用于提取所述语音片段的声纹特征;认证模块,用于利用所述声纹特征与预先构建的所述用户的声纹模型,对所述用户的身份进行认证。本申请提供一种基于声纹的用户身份认证系统,该系统包括如前所述的用户声纹模型构建装置以及用户身份认证装置。应用本申请实施例所提供的用户声纹模型构建方法,理论上可以在任意能够接收到用户语音的应用场景下,自动完成用户声纹模型的构建。这里的语音信息接收,可以是用户为了实现其他功能所必须的操作,无需刻意执行声纹信息注册的操作,方便用户使用。相应地,在存在身份认证需求的应用场景,如果能够获取到用户的语音信息,并且该语音信息中携带了之前已经进行过声纹建模的关键字,就可以自动利用声纹进行身份认证,从而省去其他认证方式的繁琐操作,而且认证过程并不要求用户刻意说出认证口令。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本申请的用户声纹模型构建方法的流程示意图;图2是本申请的用户身份认证方法的流程示意图;图3是本申请的用户声纹模型构建装置结构示意图;图4是本申请的用户身份认证装置结构示意图;图5是本申请的用户身份认证系统结构示意图。具体实施方式语音是人类之间进行交流的重要载体,而随着语音识别等技术的迅速发展,用户已经可以在很多场景通过语音来与计算机进行交流,例如语音输入、语音控制等等。也就是说,从计算机的角度,有很多能够采集到用户语音信息的机会,此外,从用户的电话留言、实时电话录音中,都能够采集到用户的语音信息。基于这样的现实情况,本申请提出一种方案,在任意能够采集到用户语音的场景,完成用户的声纹建模,从而不增加用户的额外注册操作,解决现有技术中声纹注册操作繁琐的问题。声纹识别包括文本相关(Text-Dependent)和文本无关(Text-Independent)两种类型。文本相关的声纹识别系统在注册时要求用户按照规定的内容发音,每个用户的声纹模型被精确地建立,而识别时也必须按规定的内容发音,由于所有用户的声纹模型都是“规范”的,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。文本无关的识别系统理论上可以不规定说话人的发音内容,但是模型建立相对困难,目前在实际应用时的识别效果也并不理想。为了保证识别效果,本申请提供的方案是针对“文本相关”声纹识别技术提出,那么需要解决的一个问题就是:如何能够在不增加用户额外操作的前提下,又能让用户说出“规定的内容”。专利技术人在实现本方案的过程中发现:在特定的应用场景,用户会有很高的概率说出与该场景相关的关键词。例如:用户利用语音(例如通过电话或语音留言等方式)进行产品咨询时,几乎必然会说出产品的名称、型号、功能、部件、常见故障等关键词中的一个或多个;用户在进行声控操作时,很多声控指令也都是预先定义好的,类似的情景还有很多,而基于这样的现实情况,完全可以针对声纹认证所应用的不同场景,预先统计出该场景下高频出现的一个或多个关键词,将这些高频词定义为“规定的内容”,这样,一旦用户在语音交互过程中说出了这些关键词,系统就可以为该用户进行声纹建模。为了使本领域技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。图1所示,为本申请提供的一种用户声纹模型构建方法的流程图,该方法可以包括以下步骤:S101,接收用户输入的语音信息;S102,判断所述语音信息中是否携带满足建模要求的预设关键词;S103,在判断结果为是的情况下,从所述语音信息中截取出本文档来自技高网...

【技术保护点】
一种用户声纹模型构建方法,其特征在于,该方法包括:接收用户输入的语音信息;判断所述语音信息中是否携带满足建模要求的预设关键词;在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;利用所述语音片段,为所述用户构建声纹模型。

【技术特征摘要】
1.一种用户声纹模型构建方法,其特征在于,该方法包括:接收用户输入的语音信息;判断所述语音信息中是否携带满足建模要求的预设关键词;在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足建模要求的预设关键词的语音片段;利用所述语音片段,为所述用户构建声纹模型。2.根据权利要求1所述的方法,其特征在于,所述判断所述语音信息中是否携带满足建模要求的预设关键词的步骤,包括:在当前已存在所述用户的声纹模型的情况下,判断所述语音信息中是否携带该声纹模型中未包含的预设关键词;或在当前已存在所述用户的声纹模型的情况下,判断所述语音信息中是否携带该声纹模型中已包含的预设关键词。3.根据权利要求1或2所述的方法,其特征在于,所述利用所述语音片段,为所述用户构建声纹模型的步骤,包括:在当前已存在所述用户的声纹模型的情况下,利用所述语音片段,对该声纹模型进行更新。4.根据权利要求1所述的方法,其特征在于,所述判断所述语音信息中是否携带满足建模要求的预设关键词的步骤,包括:利用声学模型对所述语音信息切分,得到至少1个语音片段;判断所得到的语音片段或其组合,是否与满足建模要求的预设关键词的音频特征相匹配,如果是,则确定所述语音信息中携带满足建模要求的预设关键词。5.根据权利要求1所述的方法,其特征在于,所述判断所述语音信息中是否携带满足建模要求的预设关键词的步骤,包括:对所述语音信息进行语音识别,得到对应的文本信息;利用语言模型对所述文本信息切分,得到至少1个文本片段;判断所得到的文本片段或其组合,是否与满足建模要求的预设关键词的文本内容相一致,如果是,则确定所述语音信息中携带满足建模要求的预设关键词。6.一种基于声纹的用户身份认证方法,其特征在于,该方法包括:接收用户输入的语音信息;判断所述语音信息中是否携带满足认证要求的预设关键词;在判断结果为是的情况下,从所述语音信息中截取出于对应于所述满足认证要求的预设关键词的语音片段;提取所述语音片段的声纹特征;利用所述声纹特征与预先构建的所述用户的声纹模型,对所述用户的身份进行认证。7.根据权利要求6所述的方法,其特征在于,还包括:判断所述语音信息中是否携带所述用户的声纹模型中未包含的预设关键词,在判断结果为是的情况下,从所述语音信息中截取出于对应于所述未包含的预设关键词的语音片段;利用所述对应于所述未包含的预设关键词的语音片段,对所述用户...

【专利技术属性】
技术研发人员:凌青
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1