本公开提供了训练方法及装置、用户特征识别方法及装置,该训练方法通过语音合成引擎生成表达用户特征的音频数据,对音频数据进行特征提取,得到音频特征,将音频特征输入训练好的声纹模型,得到声纹嵌入码,依据声纹嵌入码训练用户特征识别模型,通过语音合成引擎来生成表达不同性别和年龄的音频数据,提升了训练数据的多样性、数量和数据质量,解决了标注数据不足的问题,同时训练得到的用户特征识别模型能够准确识别发音人的性别和年龄,并且识别的准确率较高,解决了性别分类和年龄分类的准确性较低的问题,提升了识别和分类的效果。提升了识别和分类的效果。提升了识别和分类的效果。
【技术实现步骤摘要】
训练方法及装置、用户特征识别方法及装置
[0001]本公开涉及计算机
,尤其涉及训练方法及装置、用户特征识别方法及装置。
技术介绍
[0002]目前通过语音来识别用户特征的方式,主要是采用神经网络进行识别,例如通过神经网络来对说话人的性别和年龄进行识别。在实现本公开的过程中,专利技术人发现,上述识别方式存在有标注数据不足的问题,导致性别与年龄的分类准确性较低,分类效果难以满足要求。
[0003]需要说明的是,本
技术介绍
部分中公开的信息仅用于理解本公开构思的
技术介绍
,并且因此,它可以包含不构成现有技术的信息。
技术实现思路
[0004]为了解决上述技术问题中的至少一个,本公开提供了训练方法及装置、用户特征识别方法及装置。
[0005]本公开第一方面提出了一种用户特征识别模型的训练方法,包括:通过语音合成引擎生成表达用户特征的音频数据;对所述音频数据进行特征提取,得到音频特征;将所述音频特征输入训练好的声纹模型,得到声纹嵌入码;依据所述声纹嵌入码训练所述用户特征识别模型。
[0006]根据本公开的一个实施方式,所述用户特征包括性别和年龄。
[0007]根据本公开的一个实施方式,所述用户特征识别模型包括性别分类器和年龄分类器,依据所述声纹嵌入码训练所述用户特征识别模型,包括:依据所述声纹嵌入码训练所述性别分类器;依据所述声纹嵌入码训练所述年龄分类器。
[0008]根据本公开的一个实施方式,所述性别分类器和/或所述年龄分类器为基于深度神经网络的分类器。
[0009]根据本公开的一个实施方式,在将所述音频特征输入所述声纹模型之前,所述方法还包括:依据音频数据训练集对声纹模型进行训练。
[0010]根据本公开的一个实施方式,所述声纹模型为ECAPA
‑
TDNN声纹模型。
[0011]根据本公开的一个实施方式,对所述音频数据进行特征提取,得到音频特征,包括:对所述音频数据依次进行分帧、加窗、短时傅里叶变换和Mel滤波,得到音频特征。
[0012]本公开第二方面提出了一种用户特征识别模型的训练装置,包括:音频数据生成模块,被配置为通过语音合成引擎生成表达用户特征的音频数据;音频特征提取模块,被配置为对所述音频数据进行特征提取,得到音频特征;嵌入码获取模块,被配置为将所述音频特征输入训练好的声纹模型,得到声纹嵌入码;识别模型训练模块,被配置为依据所述声纹嵌入码训练所述用户特征识别模型。
[0013]本公开第三方面提出了一种用户特征识别方法,包括:获取待识别音频数据的声
纹嵌入码;将所述声纹嵌入码输入根据本公开第一方面所述的用户特征识别模型的训练方法进行训练得到的用户特征识别模型,得到用户特征识别结果。
[0014]本公开第四方面提出了一种用户特征识别装置,包括:声纹嵌入码获取模块,被配置为获取待识别音频数据的声纹嵌入码;本公开第一方面所述的用户特征识别模型的训练方法进行训练得到的用户特征识别模型,被配置为依据输入的所述声纹嵌入码得到用户特征识别结果。
附图说明
[0015]附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0016]图1是根据本公开的一个实施方式的用户特征识别模型的训练方法的流程示意图。
[0017]图2是根据本公开的另一个实施方式的用户特征识别模型的训练方法的流程示意图。
[0018]图3是根据本公开的一个实施方式的采用处理系统的硬件实现方式的用户特征识别模型的训练装置的示意图。
[0019]图4是根据本公开的一个实施方式的用户特征识别方法的流程示意图。
[0020]图5是根据本公开的一个实施方式的采用处理系统的硬件实现方式的用户特征识别装置的示意图。
具体实施方式
[0021]下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0022]需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0023]除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
[0024]本文使用的术语是为了描述具体实施例的目的,而不是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
[0025]图1是根据本公开的一个实施方式的用户特征识别模型的训练方法的流程示意
图。请参阅图1,本实施方式的用户特征识别模型的训练方法S100,可以包括以下步骤。
[0026]S102,通过语音合成引擎生成表达用户特征的音频数据。
[0027]S104,对音频数据进行特征提取,得到音频特征。
[0028]S106,将音频特征输入训练好的声纹模型,得到声纹嵌入码。
[0029]S108,依据声纹嵌入码训练用户特征识别模型。
[0030]语音合成引擎能够利用语音合成(Text To Speech,TTS)技术将文本状态的文字信息转化为可听的声音信息。具体的,语音合成引擎可以先对输入的文本进行词汇分析、语法分析和语义分析,以确定句子结构和声音要素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理和缩略语的处理等。然后从语音合成库中提取出上述处理后的文本所对应的单字或短语,将其转换为语音波形。最后对语音波形进行合成。
[0031]用户特征可以包括性别和年龄。在步骤S102中,语音合成引擎可以采用带有性别和年龄的语音合成引擎,此时语音合成引擎生成的音频数据能够表达发音对象的性别和年龄。其中,表达用户特征的音频数据,指的是该音频数据通过语调、语速和语气的不同使得所表达的声音信息中附带有性别和年龄,性别主要为男性和女性,年龄可以分为老年、中年、青少年和孩童,其中老年对应的年龄段为60岁以上,中年对应的年龄段为31岁至60岁,青少年对应的年龄段为15岁至30岁,孩童对应的年龄段为14岁及以下。为了便本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用户特征识别模型的训练方法,其特征在于,包括:通过语音合成引擎生成表达用户特征的音频数据;对所述音频数据进行特征提取,得到音频特征;将所述音频特征输入训练好的声纹模型,得到声纹嵌入码;依据所述声纹嵌入码训练所述用户特征识别模型。2.根据权利要求1所述的方法,其特征在于,所述用户特征包括性别和年龄。3.根据权利要求2所述的方法,其特征在于,所述用户特征识别模型包括性别分类器和年龄分类器,依据所述声纹嵌入码训练所述用户特征识别模型,包括:依据所述声纹嵌入码训练所述性别分类器;依据所述声纹嵌入码训练所述年龄分类器。4.根据权利要求3所述的方法,其特征在于,所述性别分类器和/或所述年龄分类器为基于深度神经网络的分类器。5.根据权利要求1所述的方法,其特征在于,在将所述音频特征输入所述声纹模型之前,所述方法还包括:依据音频数据训练集对声纹模型进行训练。6.根据权利要求1或5所述的方法,其特征在于,所述声纹模型为ECAPA
‑
TDNN声纹模型。7.根据权利要求1所述的方法,其特征在于,对所述音频数据进行特征提取,得到音...
【专利技术属性】
技术研发人员:宋熙康,李媛媛,
申请(专利权)人:上海墨百意信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。