一种语音性别的估计方法、装置、系统及存储介质制造方法及图纸

技术编号:21895710 阅读:57 留言:0更新日期:2019-08-17 16:01
本发明专利技术提供了一种语音性别的估计方法、装置、系统及存储介质,所述方法包括:获取待识别语音数据;对所述待识别语音数据进行特征提取,得到所述待识别语音数据的语音特征;将所述语音特征输入训练好的语音估计模型,得到所述待识别语音数据的性别估计结果。根据本发明专利技术的方法、装置、系统及存储介质,对语音数据进行特征提取后,通过建立的语音性别估计模型进行语音估计,从而实现语音背景复杂和不同语音等环境下快速准确的语音性别估计,提升用户体验。

A Speech Gender Estimation Method, Device, System and Storage Media

【技术实现步骤摘要】
一种语音性别的估计方法、装置、系统及存储介质
本专利技术涉及语音处理
,更具体地涉及语音性别的估计的处理。
技术介绍
随着信息技术的发展和社会安全需求的增加,自动身份验证、人物信息刻画等方面的应用对生物特征识别存在迫切的需求。因此,生物特征识别成为计算机行业研究热点之一。目前主要的生物特征识别包括人脸特征识别、指纹识别、声纹识别、性别识别、年龄估计、种族识别、表情识别,步态识别、轨迹识别等。主要的生物信息载体包括人脸、虹膜、指纹、语音、步态等。个体的生物特征一般具有唯一性,通过辨别一项或者多项个体生物特征信息,就能识别出个体ID。而相同群体之间的个体生物特征信息往往具有很强的相似性和相关性,比如年龄、性别、种族等。然而,随着社交方式多元化,在许多场景中,并不能采集人像、虹膜等生物图像信息,只有语音等其他信息。语音传播、语音属性及特征分析的研究受到越来越多的关注。面对不同场景和环境带来的噪声,不同年龄、不同语言、甚至不同情绪的差异,说话人的语音辨识复杂度大大增加。目前,语音性别估计方法主要分为基于时间序的方法,而基于时间序列的方法关键在于构建循环神经网络模型,如RNN、LSTM方法,如果背景较为复杂,很难准确估计。因此,现有技术中存在语音性别估计受到背景噪音和不同语言环境的影响较大,导致语音性别识别精度低,速度不快的问题,影响用户体验。
技术实现思路
考虑到上述问题而提出了本专利技术。本专利技术提供了一种语音性别的估计方法、装置、系统及计算机存储介质,对语音数据进行特征提取后,通过建立的语音性别估计模型进行语音估计,从而实现语音背景复杂和不同语音等环境下快速准确的语音性别估计。根据本专利技术的第一方面,提供了一种语音性别的估计方法,包括:获取待识别语音数据;对所述待识别语音数据进行特征提取,得到所述待识别语音数据的语音特征;将所述语音特征输入训练好的语音估计模型,得到所述待识别语音数据的性别估计结果。可选地,获取待识别语音数据还包括:对齐和/或预加重所述待识别语音数据。可选地,对所述待识别语音数据进行特征提取,得到所述待识别语音数据的语音特征,包括:对所述待识别语音数据进行分帧,并对分帧后的每帧待识别语音数据加汉明窗;基于加汉明窗后的所述每帧待识别语音数据进行傅里叶变换或快速傅里叶变换或短时傅里叶变换得到向量特征;将所述向量特征的幅值频谱转换为功率频谱;对所述功率频谱进行Mel滤波,得到Mel倒谱特征作为所述待识别语音数据的语音特征。可选地,所述方法还包括:对具有标签的语音训练数据进行特征提取,得到训练语音特征;基于训练语音特征及对应的标签对神经网络进行训练得到所述训练好的语音估计模型。可选地,将所述语音特征输入训练好的语音估计模型,得到所述待识别语音数据的性别估计结果,包括:将所述语音特征输入训练好的语音估计模型,得到所述语音特征的标签概率;将所述标签概率中最大概率所对应的标签作为所述性别估计结果。可选地,所述训练好的语音估计模型包括卷积神经网络。可选地,所述性别估计结果包括男性、女性或无语音。根据本专利技术的第二方面,提供了一种语音性别的估计装置,包括:数据获取模块,用于获取待识别语音数据;特征提取模块,用于对所述待识别语音数据进行特征提取,得到所述待识别语音数据的语音特征;识别模块,用于将所述语音特征输入训练好的语音估计模型,得到所述待识别语音数据的性别估计结果。根据本专利技术的第三方面,提供了一种语音性别的估计系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现第一方面所述方法的步骤。根据本专利技术的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时实现第一方面所述方法的步骤。根据本专利技术实施例的语音性别的估计方法、装置、系统及计算机存储介质,对语音数据进行特征提取后,通过建立的语音性别估计模型进行语音估计,从而实现语音背景复杂和不同语音等环境下快速准确的语音性别估计,提升用户体验。附图说明通过结合附图对本专利技术实施例进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与本专利技术实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1是根据本专利技术实施例的语音性别的估计方法的示意性流程图;图2是根据本专利技术实施例的语音性别的估计方法的示例;图3是根据本专利技术实施例的语音性别的估计装置的示意性框图;图4是根据本专利技术实施例的语音性别的估计系统的示意性框图。具体实施方式为了使得本专利技术的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本专利技术的示例实施例。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是本专利技术的全部实施例,应理解,本专利技术不受这里描述的示例实施例的限制。基于本专利技术中描述的本专利技术实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本专利技术的保护范围之内。语音性别估计就是根据说话人语音,提取声纹特征,采用计算机深度学习技术进行相关处理分析,判断说话人性别。通过对说话人语音准确的性别预测,可以提取更多相关属性及人物信息,能够应用于多种场景、多种终端环境,适合需要人机交互环境下自动生物特征分析、用户人物信息刻画等应用,在安防、人机交互、商务服务等工作中具有重要意义。参见图1,图1示出了根据本专利技术实施例的语音性别的估计方法100,如图1所示,一种语音性别的估计方法100,包括:步骤S110,获取待识别语音数据;步骤S120,对所述待识别语音数据进行特征提取,得到所述待识别语音数据的语音特征;步骤S130,将所述语音特征输入训练好的语音估计模型,得到所述待识别语音数据的性别估计结果。其中,语音特征是符合或类似人耳的听觉感知特性,且将语音数据中的语音信号转换为计算机能够处理的语音,经过对语音数据的特征提取可以将波形变成一个包含声音信息的多维向量。对所述待识别语音数据进行语音特征提取,可以将语音信号与背景信号或环境信号分开,从而避免背景信号或环境信号对后续性别估计造成影响,提高语音性别估计的准确度。而通过足够数量的具有性别标签的训练数据训练神经网络得到语音性别估计模型,可以基于待识别语音数据的语音特征进一步实现快速准确地性别估计。由于语音性别估计模型是基于多种类型且足够数量的训练数据进行训练,具有高泛化性,又但不具有表征具体身份的能力,对语音特征在性别分布的概率模型给出了一个预先估计,从而得到相应的性别估计结果。可选地,根据本专利技术实施例的语音性别的估计方法可以在具有存储器和处理器的设备、装置或者系统中实现。根据本专利技术实施例的语音性别的估计方法可以部署在个人终端,还可以分布地部署在服务器端(或云端)和个人终端处。例如,当所述语音性别的估计方法部署在个人终端时,个人终端获取待识别语音数据后,在个人终端处进行语音性别的估计,得到所述待识别语音数据的性别估计结果;当述语音性别的估计方法分布地部署在服务器端(或云端)和个人终端处时,个人终端获取待识别语音数据后,将所述服务器端(或云端)进行语音性别的估计后,将所述待识别语音数据的性别估计结果发送至个人终端。根本文档来自技高网...

【技术保护点】
1.一种语音性别的估计方法,其特征在于,所述方法包括:获取待识别语音数据;对所述待识别语音数据进行特征提取,得到所述待识别语音数据的语音特征;将所述语音特征输入训练好的语音估计模型,得到所述待识别语音数据的性别估计结果。

【技术特征摘要】
1.一种语音性别的估计方法,其特征在于,所述方法包括:获取待识别语音数据;对所述待识别语音数据进行特征提取,得到所述待识别语音数据的语音特征;将所述语音特征输入训练好的语音估计模型,得到所述待识别语音数据的性别估计结果。2.如权利要求1所述的方法,其特征在于,获取待识别语音数据还包括:对齐和/或预加重所述待识别语音数据。3.如权利要求1所述的方法,其特征在于,对所述待识别语音数据进行特征提取,得到所述待识别语音数据的语音特征,包括:对所述待识别语音数据进行分帧,并对分帧后的每帧待识别语音数据加汉明窗;基于加汉明窗后的所述每帧待识别语音数据进行傅里叶变换或快速傅里叶变换或短时傅里叶变换得到向量特征;将所述向量特征的幅值频谱转换为功率频谱;对所述功率频谱进行Mel滤波,得到Mel倒谱特征作为所述待识别语音数据的语音特征。4.如权利要求1所述的方法,其特征在于,所述方法还包括:对具有标签的语音训练数据进行特征提取,得到训练语音特征;基于训练语音特征及对应的标签对神经网络进行训练得到所述训练好的语音估计模型。5.如权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:姚灿荣尤俊生高志鹏
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1