说话人确认方法和说话人确认设备技术

技术编号:19123947 阅读:40 留言:0更新日期:2018-10-10 06:06
本发明专利技术公开了一种说话人确认方法和说话人确认设备。该说话人确认方法用于验证是否由特定说话人进行特定发言,该方法包括:从输入语音中提取与任何文本内容无关的说话人特征,并将所提取的说话人特征与所存储的特定说话人特征进行比较,以确定是否是特定说话人在说话;基于输入语音帧序列的频域特征,从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串;以及将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较,以确定是否进行了特定发言。

【技术实现步骤摘要】
说话人确认方法和说话人确认设备
本专利技术一般地涉及信息处理
具体而言,本专利技术涉及一种能够准确地验证是否由特定说话人进行特定发言的方法和设备。
技术介绍
说话人确认技术的目的是验证说话人的身份,判断是否是之前注册的那位特定说话人。说话人确认主要依赖于说话人的语音特征,如语音生物测定。作为一个相关技术,说话人识别技术需要长时间的(如10秒到30秒)的音频来识别说话人是否是多个特定说话人之一。如果音频长度过短,例如少于10秒,则说话人识别的准确性将会显著降低,例如从不到5%的错误率升至约15%的错误率。因此,说话人识别技术需要输入音频的长度超过10秒。但是,对于说话人确认技术而言,为了验证说话人的身份而与说话人识别技术类似地要求说话人说话超过10秒显然是不合适的。解决办法之一是引入特定的发言,形成文本依赖的说话人确认技术。这样,即使音频长度较短,说话人验证的准确性依然较高。另外,特定发言在某种程度上可以起到类似于密码的作用。因此,文本依赖的说话人确认技术需要确定是否由特定说话人进行特定的发言。传统的技术,如动态时间规整(dynamictimewarping,DTW)、连续隐马尔可夫模型(continuousdensityhiddenMarkovmodel,CDHMM)都存在不足,比如难以处理文本内容的时间序列信息等。这是因为传统的技术都将验证是否是特定说话人和验证是否是特定发言两者作为一个任务完成,将所有的信息混合在一起进行使用。具体地,传统的技术从输入帧中提取一个既包括说话人特征又包括文本信息的特征,用这一个特征验证说话人和发言两者,不能将两者分开。因此,本专利技术旨在提出一种准确地进行文本依赖的说话人确认的方法和设备。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。为了实现上述目的,根据本专利技术的一个方面,提供了一种验证是否由特定说话人进行特定发言的方法,该方法包括:从输入语音中提取与任何文本内容无关的说话人特征,并将所提取的说话人特征与所存储的特定说话人特征进行比较,以确定是否是特定说话人在说话;基于输入语音帧序列的频域特征,从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串;以及将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较,以确定是否进行了特定发言。根据本专利技术的另一个方面,提供了一种验证是否由特定说话人进行特定发言的设备,该设备包括:特定说话人判断装置,被配置为:从输入语音中提取与任何文本内容无关的说话人特征,并将所提取的说话人特征与所存储的特定说话人特征进行比较,以确定是否是特定说话人在说话;模板串提取装置,被配置为:基于输入语音帧序列的频域特征,从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串;以及特定发言判断装置,被配置为:将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较,以确定是否进行了特定发言。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。附图说明参照下面结合附图对本专利技术的实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:图1示出了根据本专利技术的实施例的验证是否由特定说话人进行特定发言的方法的流程图;图2示出了从输入语音帧序列中提取模板串的第一种实现方式;图3示出了从输入语音帧序列中提取模板串的第二种实现方式;图4示出了从输入语音帧序列中提取模板串的第三种实现方式;图5示出了步骤S3的一种实施方式;图6示出了根据本专利技术的实施例的验证是否由特定说话人进行特定发言的设备的结构方框图。图7示出了可用于实施根据本专利技术的实施例的方法和设备的计算机的示意性框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。另外,还需要指出的是,在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。本专利技术的基本思想是将验证是否是特定说话人和验证是否进行特定发言分开处理。下面将参照图1描述根据本专利技术的实施例的验证是否由特定说话人进行特定发言的方法的流程。图1示出了根据本专利技术的实施例的验证是否由特定说话人进行特定发言的方法的流程图。如图1所示,该方法包括如下步骤:从输入语音中提取与任何文本内容无关的说话人特征,并将所提取的说话人特征与所存储的特定说话人特征进行比较,以确定是否是特定说话人在说话(步骤S1);基于输入语音帧序列的频域特征,从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串(步骤S2);以及将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较,以确定是否进行了特定发言(步骤S3)。在步骤S1中,从输入语音中提取与任何文本内容无关的说话人特征,并将所提取的说话人特征与所存储的特定说话人特征进行比较,以确定是否是特定说话人在说话。步骤S1中用到的说话人特征例如是声纹特征,与任何文本内容无关。去掉文本内容的原因是文本内容对提取说话人特征的任务而言是干扰。由于提取的说话人特征与文本内容无关,所以并不需要构成输入语音的语音帧的序列信息。应理解,采用类似的手段,可以预先从特定说话人的语音中提取与任何文本内容无关的特定说话人特征并存储。由于事先已提取并存储一个特定说话人的与任何文本内容无关的说话人特征,所以可以通过将本次提取的说话人特征与所存储的特定说话人特征进行比较,得到例如相似度,作为说话人评价得分;根据说话人评价得分与预定得分阈值的大小关系来确定是否是特定说话人在说话。步骤S1可以使用传统的说话人识别系统实现,如i-vector系统或d-vector系统。应注意,上述系统在本专利技术中仅用于进行说话人识别。传统的说话人识别系统可以单独识别说话人,而不识别发言。在步骤S2中,基于输入语音帧序列的频域特征,从输入语音帧序列中提取本文档来自技高网
...
说话人确认方法和说话人确认设备

【技术保护点】
1.一种验证是否由特定说话人进行特定发言的方法,包括:从输入语音中提取与任何文本内容无关的说话人特征,并将所提取的说话人特征与所存储的特定说话人特征进行比较,以确定是否是特定说话人在说话;基于输入语音帧序列的频域特征,从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串;以及将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较,以确定是否进行了特定发言。

【技术特征摘要】
1.一种验证是否由特定说话人进行特定发言的方法,包括:从输入语音中提取与任何文本内容无关的说话人特征,并将所提取的说话人特征与所存储的特定说话人特征进行比较,以确定是否是特定说话人在说话;基于输入语音帧序列的频域特征,从输入语音帧序列中提取分别与彼此不同文本内容对应的多个模板构成的模板串;以及将所得到的模板串与所存储的特定说话人的特定内容模板串进行比较,以确定是否进行了特定发言。2.如权利要求1所述的方法,其中,所述基于输入语音帧序列的频域特征,从输入语音帧序列中提取分别与不同文本内容对应的多个模板构成的模板串包括:从输入语音帧序列中提取基频特征;将基频特征的极值两侧的频域数据划分为对应不同文本内容;分别从对应于不同文本内容的频域数据中,提取模板。3.如权利要求1所述的方法,其中,所述基于输入语音帧序列的频域特征,从输入语音帧序列中提取分别与不同文本内容对应的多个模板构成的模板串包括:从输入语音帧序列中提取频谱特征或倒谱特征;比较相邻语音帧在频谱特征或倒谱特征上的差异;将差异超过差异阈值的语音帧划分为对应不同文本内容;分别从对应于不同文本内容的频域数据中,提取模板。4.如权利要求1所述的方法,其中,所述基于输入语音帧序列的频域特征,从输入语音帧序列中提取分别与不同文本内容对应的多个模板构成的模板串包括:从输入语音帧序列中提取基频特征;将基频特征的极值两侧的频域数据划分为对应不同文本内容;从输入语音帧序列中提取频谱特征或倒谱特征;比较相邻语音帧在频谱特征或倒谱特征上的差异;将差异超过差异阈值的语音帧划分为对应不同文本内容;分别从对应于不同文本内容的频域数据中,提取模板。5.如权利要求1-4中任一项所述的方法,其中,所述模板包括模板对应频域数据的均值、模板对应频域数据的长度、以及模板对应频域数据中的第一帧和最后一帧的...

【专利技术属性】
技术研发人员:刘柳刘汝杰石自强
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1