学习方法、说话者识别方法以及记录介质技术

技术编号:27486759 阅读:25 留言:0更新日期:2021-03-02 18:02
本发明专利技术想要解决的问题为希望高精度地识别说话者。提供一种学习方法、说话者识别方法以及记录介质。学习方法是说话者识别模型(20)的学习方法,所述说话者识别模型(20)当输入声音数据时,输出识别该声音数据所包含的发声的说话者的说话者识别信息,通过对第一说话者的第一声音数据进行声音特质变换处理,生成第二说话者的第二声音数据,将第一声音数据和第二声音数据作为学习数据进行说话者识别模型(20)的学习处理。(20)的学习处理。(20)的学习处理。

【技术实现步骤摘要】
学习方法、说话者识别方法以及记录介质


[0001]本公开涉及识别说话者的技术。

技术介绍

[0002]以往,已知有使用说话者识别模型来识别说话者的技术(例如,参照非专利文献1)。
[0003]现有技术文献
[0004]非专利文献
[0005]非专利文献1:David Snyder,Daniel Garcia-Romero,Gregory Sell,Daniel Povey,Sanjeev Khudanpur,“X-VECTORS:ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION”ICASSP 2018:5329-5333.

技术实现思路

[0006]专利技术所要解决的课题
[0007]希望高精度地识别说话者。
[0008]用于解决课题的手段
[0009]本公开的一个方式的学习方法是说话者识别模型的学习方法,所述说话者识别模型当输入声音数据时,输出识别所述声音数据所包含的发声的说话者的说话者识别信息,其中,通过对第一说话者的第一声音数据进行声音特质变换处理,生成第二说话者的第二声音数据,将所述第一声音数据和所述第二声音数据作为学习数据进行所述说话者识别模型的学习处理。
[0010]本公开的一个方式的说话者识别方法向通过上述学习方法预先进行了学习处理的所述说话者识别模型输入声音数据,使所述说话者识别模型输出所述说话者识别信息。
[0011]本公开的一个方式的记录介质,是记录有程序的计算机可读取的记录介质,所述程序用于使计算机执行进行说话者识别模型的学习的处理,所述说话者识别模型当输入声音数据时,输出识别所述声音数据所包含的发声的说话者的说话者识别信息,其中,所述处理包括:第一步骤,通过对第一说话者的第一声音数据进行声音特质变换处理,生成第二说话者的第二声音数据;以及第二步骤,将所述第一声音数据和所述第二声音数据作为学习数据进行所述说话者识别模型的学习处理。
[0012]另外,这些整体或具体的方式可以通过系统、方法、集成电路、计算机程序或计算机可读取的CD-ROM等记录介质来实现,也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
[0013]专利技术效果
[0014]根据本公开的学习方法等,能够高精度地识别说话者。
附图说明
[0015]图1是表示实施方式的说话者识别装置的结构例的框图。
[0016]图2是表示实施方式的声音数据保持部将声音数据与说话者识别信息相互建立对应地存储的情形的一例的示意图。
[0017]图3是表示实施方式的声音特质变换部将一个说话者的声音数据变换为多个其他说话者的声音数据并输出的情形的示意图。
[0018]图4是表示实施方式的声音特质变换部的结构例的框图。
[0019]图5是实施方式的说话者识别模型学习处理的流程图。
[0020]图6是实施方式的声音特质变换模型学习处理的流程图。
[0021]图7是实施方式的说话者识别处理的流程图。
[0022]附图标记说明
[0023]1 说话者识别装置
[0024]10 声音数据扩展部
[0025]11 声音数据保持部
[0026]12 第一声音数据取得部
[0027]13 声音特质变换部
[0028]14 噪声回响赋予部
[0029]15 第一特征量计算部
[0030]16 比较部
[0031]17 声音数据保持部
[0032]18 扩展声音数据保持部
[0033]20 说话者识别模型
[0034]21 第三特征量计算部
[0035]22 深度神经网络
[0036]23 判定部
[0037]30 学习部
[0038]31 第二声音数据取得部
[0039]32 第二特征量计算部
[0040]33 第一学习部
[0041]40 识别对象声音数据取得部
[0042]131 声音特质变换学习用数据保持部
[0043]132 第二学习部
[0044]133 声音变换模型
具体实施方式
[0045](达到获得本公开的一个方式的经过)
[0046]已知使用说话者识别模型来识别说话者的说话者识别技术,所述说话者识别模型将与识别说话者的识别信息建立有关联的声音数据作为学习数据而预先进行了学习处理。
[0047]以往,为了增加学习数据的数量(以下,将“增加学习数据的数量”也称为“学习数
据的扩展”。),对原始的学习用声音数据进行噪声赋予、回响赋予等。但是,在基于上述以往的噪声赋予、回响赋予等的学习数据的扩展中,无法增加一个说话者的发声内容、语言(日语、英语等)。因此,存在无法充分降低说话者识别模型的学习处理中的发声内容、语言的影响的情况。
[0048]因此,专利技术者们为了在使用说话者识别模型进行的说话者的识别中高精度地识别说话者,反复进行了深入研究、实验。其结果,专利技术者们想到了下述学习方法等。
[0049]本公开的一个方式的学习方法是说话者识别模型的学习方法,所述说话者识别模型当输入声音数据时,输出识别所述声音数据所包含的发声的说话者的说话者识别信息,其中,通过对第一说话者的第一声音数据进行声音特质变换处理,生成第二说话者的第二声音数据,将所述第一声音数据和所述第二声音数据作为学习数据进行所述说话者识别模型的学习处理。
[0050]根据上述学习方法,在说话者识别模型的学习处理中的学习数据的扩展中,能够不受发声内容、语言限制地增加第二说话者的声音数据的数量。因此,能够提高说话者识别模型对说话者的识别的精度。
[0051]因此,根据上述学习方法,能够高精度地识别说话者。
[0052]另外,也可以是,所述声音特质变换处理是基于所述第一说话者的声音数据和所述第二说话者的声音数据的处理。
[0053]另外,也可以是,所述声音特质变换处理包括对声音特质变换模型输入所述第一声音数据,从而从所述声音特质变换模型输出所述第二声音数据的处理,所述声音特质变换模型预先进行了学习处理,使得当输入所述第一说话者的声音数据时,输出所述第二说话者的声音数据。
[0054]另外,也可以是,所述声音特质变换模型包括将WAV格式的声音数据作为输入,将WAV格式的声音数据作为输出的深度神经网络。
[0055]另外,也可以是,所述声音特质变换处理是基于所述第一说话者的声音数据和第三说话者的声音数据的处理。
[0056]另外,也可以是,所述说话者识别模型包括深度神经网络,所述深度神经网络将表示声音数据所包含的发声的特征的发声特征量作为输入,输出表示说话者的特征的说话者性特征量。
[0057]本公开的一个方式的说话者识别方法,向通过上述学习方法预先进行了学习处理的所述说话者识别模型输入声音数据,使所述说话者识别模型输出所述说话者识别信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种学习方法,是说话者识别模型的学习方法,所述说话者识别模型当输入声音数据时,输出识别所述声音数据所包含的发声的说话者的说话者识别信息,其中,通过对第一说话者的第一声音数据进行声音特质变换处理,生成第二说话者的第二声音数据,将所述第一声音数据和所述第二声音数据作为学习数据进行所述说话者识别模型的学习处理。2.根据权利要求1所述的学习方法,其中,所述声音特质变换处理是基于所述第一说话者的声音数据和所述第二说话者的声音数据的处理。3.根据权利要求2所述的学习方法,其中,所述声音特质变换处理包括对声音特质变换模型输入所述第一声音数据,从而从所述声音特质变换模型输出所述第二声音数据的处理,所述声音特质变换模型预先进行了学习处理,使得当输入所述第一说话者的声音数据时,输出所述第二说话者的声音数据。4.根据权利要求3所述的学习方法,其中,所述声音特质变换模型包括将WAV格式的声音数据作为输入,将WAV格式的声音数据作为输出的深度神经网络。5.根据权利要求1所述...

【专利技术属性】
技术研发人员:土井美沙贵釜井孝浩板仓光佑
申请(专利权)人:松下电器美国知识产权公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1