当前位置: 首页 > 专利查询>北京大学专利>正文

结合语义和声纹信息的说话人身份确认系统技术方案

技术编号:3046587 阅读:214 留言:0更新日期:2012-04-11 18:40
一种结合语义和声纹信息的说话人身份确认系统,其特征在于:系统包括特征提取子系统、声学模型建模子系统、基于语义的说话人确认VIV(语义信息确认)子系统、文本有关和文本无关的声纹确认子系统,各个系统相互连接共同实现对说话人身份的确认。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种说话人识别系统,尤其是利用说话人声音的独特生物测定学特征来识别说话人身份的系统。
技术介绍
信息时代的最重要的特征就是数字化,而且随着科技的发展人的身份也越来越数字化和隐性化。那么在高度信息化的时代如何准确鉴别个人身份,保证个人信息的安全呢?在各种诸如银行帐号、信用卡、网络登陆等领域都需要很多需要牢记的密码,而且这些密码一旦被盗将给用户造成巨大的损失。近几年出现了一种生物认证技术,它利用说话人声音的独特生物测定学特征来识别说话人身份。这是非常自然和方便的一种生物测定手段,它具有比较低的用户侵犯性。同时,语音的采集设备比较简单,也比较便宜,而且语音能利用现有电话网络进行远程传输,这在很大程度上是其他生物测定手段不可替代的。它利用说话人之间发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异,交叉利用声学、语言学、心理学、人工智能、数字信号处理、信息理论、模式识别理论、最优化理论、计算机科学等多种学科,并且随着科技的迅速发展,语音识别系统也日趋成熟。目前出现的语音识别技术主要分为基于声纹技术和基于语义技术,它们各有优劣。那么充分利用它们各自的优势来改善语音识别系统的性能是我们的专利技术目的之一。我们可以很自然地想到把两种方法串联起来使用,这样肯定可以增加系统的安全性,但是这种简单的串接,并没有使这两种方法各自的优势完全发挥出来,也没有弥补他们各自的缺点。为了更有效的利用各种技术的优势,我们必须仔细分析一下他们各自的优点和缺点。表1说话人确认技术比较 表1说明了这两种技术的优劣。基于声纹的说话人确认拥有生物测定身份识别技术的几乎所有优点。但是它也有前面所讲的语音信号不稳定等挑战和困难,而且对于实用系统来讲,它同时还有一些其他缺陷。基于语义的说话人确认是通过对说话人私人信息的确认来区分不同说话人。所以严格的讲,语义信息确认不能算作一种生物测定手段,它也就没有生物测定技术所拥有的优势。我们的目的在于用语义信息确认来替代基于声纹确认的训练过程,在基于声纹确认的准备工作还没有完成之前来进行识别工作。同时语义信息确认还可以帮助声纹确认搜集所需的训练语料,等基于声纹识别的准备工作完成之后,我们可以把二者结合起来,进一步增强系统的安全性。并且本专利技术的结合语义和声纹信息的说话人身份确认系统具有很高的准确率,结构也比较简单,易于市场化。
技术实现思路
本专利技术为解决其技术问题所采取的技术方案是根据说话人的声纹特征通过GMM模型(高斯混合模型)建立声纹模型;通过电话等语音输入设备录入语音,对声音进行预处理;对处理后的声音根据一定的声纹模型进行声纹特征提取;同时进行文本判断;用声纹特征和文本判断来识别说话人身份。本专利技术包括如下几个子系统特征提取、声学模型建模、基于语义的说话人确认VIV(语义信息确认)系统、文本有关和文本无关的声纹确认系统。各子系统在特征、统计模型的选择、目标模型和背景模型的建模以及统计确认都有其各自的特点达到本专利技术的目的。其中,特征提取子系统中,本专利技术采用的特征为美标度倒谱系数(MFCCMel-FrequencyCepstrum Coeffiecients)及其差分。其中,在基于声纹的说话人确认中,采用16阶MFCC,并使用半升正弦窗进行倒谱提升;在语义信息确认中,采用12阶MFCC,并使用升正弦窗进行倒谱提升。声学模型建模系统中,本专利技术采用两种统计模型,一是隐马尔可夫模型,二是高斯混合模型。隐马尔可夫模型用于文本有关的声学模型中,高斯模型用于文本无关的声学模型中。基于语义的说话人确认VIV(语义信息确认)系统中,语义信息确认不同于传统的声纹说话人确认,它确认的是语音的内容,需要用户对私人的信息保密,安全性不如声纹说话人确认系统。但由于语义信息确认所需要的正模型和反模型都是事先训练好的,所以在进行确认的时候不需要再进行训练,这是它优于声纹确认的最大优势,也是我们采用它作为本专利技术的一个子系统的原因。基于声纹的说话人确认系统中,本专利技术分文本无关和文本有关两种情况建立了说话人确认系统,其中对于文本有关的声纹确认系统是基于HMM声学建模的,而对于文本无关的圣文确认是基于GMM声学建模的。结合语义和声纹的说话人确认系统中,本专利技术融合了基于语义的说话人确认系统和基于声纹的说话人识别系统,在确认时又分为两个阶段,每一阶段同时提供了语义和声纹的确认。第一阶段结合文本无关的声纹确认和VIV进行联合确认。第二阶段结合文本有关的声纹确认和VIV进行联合确认。这样,系统中就没有了单一的基于声纹的说话人确认系统所需要的冗长训练过程。我们可以达到用户负担最小而性能最佳的组合。但是,在系统使用初期,我们如果仅仅使用语义信息确认进行身份认证,用户必须完全对私有信息文本的安全保密负责,系统没有任何防范措施,这时的系统是很脆弱的。为了增加初期系统的安全性,同时又不要给用户增加太多负担,我们提出,通过很少的语料训练一个文本无关的声纹确认系统,用它来辅助语义信息确认技术来进行初期的身份认证工作。附图说明图1是语义信息确认和声纹识别的结合的结构简图;图2是结合语义和声纹的说话人确认系统注册阶段;图3是结合语义和声纹的说话人确认系统确认阶段;具体实施方式结合附图对本专利技术作进一步描述。本专利技术包括如下几个子系统特征提取、声学模型建模、基于语义的说话人确认VIV(语义信息确认)系统、文本有关和文本无关的声纹确认系统。本专利技术的总系统在使用时包括以下几个阶段1.注册阶段每个用户在使用系统时,首先必须注册每个用户的私人信息,然后才能使用系统进行身份确认。与一般说话人识别系统一样,结合语义和声纹的说话人确认系统仍然分为注册和确认两部分,但两部分的结构和任务都有较大的不同。注册阶段,系统需要完成的功能包括收集并存储用户的私人信息,建立相应的目录结构;收集每个注册用户的语料,训练文本无关的声纹确认中的目标GMM模型(高斯混合模型)。注册阶段的流程如图2所示。系统登录时向用户提问的问题是根据用户注册时填写的个人信息产生的,因此必须考虑了收集信息项的针对性和区分度。在我们的系统中最后确定下面信息项姓名、籍贯、出生年月日、一项个人爱好、一本喜欢的书。因为在进行VIV(语义信息确认)和文本有关的声纹确认过程都需要根据私人信息来生成HMM复合模型(隐马尔可夫模型),所以需要将用户私人信息根据汉语的词法和统计模型将汉字转化为带调拼音串。对于文本无关的声纹确认,每个用户目标模型从UBM(全局背景模型)自适应训练得到。一般来说,从UBM自适应得到一个目标GMM需要1~2分钟的语料,但考虑到系统的使用方便性,并且文本无关的声纹确认的性能可以从与VIV的结合中得到补偿,所以我们选用的训练语料只有20~30秒。我们通过统计分析3年《人民日报》文本,得到一些覆盖所有声韵母(不考虑语调和协同发音)的文字。2.确认阶段结合语义和声纹的说话人确认系统在确认的时候又分为两个阶段,系统在每一个阶段都同时提供了语义和声纹的确认·第一阶段结合文本无关的声纹确认和VIV进行联合确认·第二阶段结合文本有关的声纹确认和VIV进行联合确认文本有关的声纹确认性能要高于文本无关的声纹确认,所以我们要尽可能快的切换到第二阶段。两个阶段的切换取决于该用户的目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合语义和声纹信息的说话人身份确认系统,其特征在于系统包括特征提取子系统、声学模型建模子系统、基于语义的说话人确认VIV(语义信息确认)子系统、文本有关和文本无关的声纹确认子系统,各个系统相互连接共同实现对说话人身份的确认。2.根据权利要求1所述的结合语义和声纹信息的说话人身份确认系统,其特征是特征提取子系统的特征为美标度倒谱系数(MFCCMel-Frequency Cepstrum Coeffiecients)及其差分,其中,在基于声纹的说话人确认中,采用16阶MFCC,并使用半升正弦窗进行倒谱提升;在语义信息确认中,采用12阶MFCC,并使用升正弦窗进行倒谱提升。3.根据权利要求1所述的结合语义和声纹信息的说话人身份确认系统,其特征是声学模型建模子系统采用两种统计模型,一是隐马尔可夫模型,二是高斯混合模型,隐马尔可夫模型用于文本有关的声学模型中,高斯模型用于文本无关的声学模型中。4.根据权利要求1所述的结合语义和声纹信息的说话人身份确认系统,其特征是基于语义的说话人确认VIV(语义信息确认)子系统中,语义信息确认不同于传统的声纹说话人确认,它确认的是语音的内容,需要用户对私人的信息保密,安全性不如声纹说话人确认系统,但由于语义信息确认所需要的正模型和反模型都是事先训练好的,所以在进行确认...

【专利技术属性】
技术研发人员:迟惠生吴玺宏朱杰彬曲天书罗定生吴昊黄松芳
申请(专利权)人:北京大学迟惠生吴玺宏
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1