基于语音的性别年龄识别方法、装置、设备和存储介质制造方法及图纸

技术编号:26508337 阅读:47 留言:0更新日期:2020-11-27 15:36
本发明专利技术实施例公开了一种基于语音的性别年龄识别方法、装置、设备和存储介质。该方法包括:获取目标用户发出的语音信号;将所述语音信号转换为声纹特征图;将所述声纹特征图输入至预先训练好的年龄识别神经网络模型以得到所述目标用户的识别年龄,并将所述声纹特征图输入至预先训练好的性别识别神经网络模型以得到所述目标用户的识别性别。本发明专利技术实施例实现了快速准确的实时获取用户的年龄和性别。

【技术实现步骤摘要】
基于语音的性别年龄识别方法、装置、设备和存储介质
本专利技术实施例涉及识别技术,尤其涉及一种基于语音的性别年龄识别方法、装置、设备和存储介质。
技术介绍
随着互联网的发展,产品销售方式也都从线下搬到了线上,但是传统的电话销售方式被未被替代,不过也解放了人力,由人工客服转为了AI(ArtificialIntelligence,人工智能)客服,基于语义的自动电话销售已经成为行业常态,凭借其对人类语言的强大理解能力,以及海量的商品素材库,能做到实时化对不同电销客户的精准推送,大大降低获客成本,提升用户活跃度,增强变现能力。电话销售始于预先准备的电销名单,名单相当于用户画像,存在该用户的性别、年龄、喜好等等先验知识,但是现实中存在更换手机号、接听电话的非本人等情况,用户画像就会失效。比如公司对A的画像显示性别为女,自动电销就会为其推送女性化妆用品、生理用品等适合女性的产品,可是A早就注销了这个手机号,现在这个手机号被B买到了,不幸的是B为男性,那么如果仍旧按照之前的画线推送女性用品,必将是一次失败的销售,因此对用户的画像修正的需求大大提高,而为了修正用户画像需要能够快速的实时重新获取用户画像,即用户的年龄和性别。为了实时获取用户画像,可以采用声音识别的方式,现有技术中采用了传统的MFCC(MelFrequencyCepstrumCoefficient,梅尔频率倒谱系数)特征,训练GMM-UBM(GaussianMixtureMode-UniversalBackgroundModel,高斯混合模型-联合背景模型)模型来识别,但其本质是一种生成模型的思想,存在严重的冷启动问题,在训练模型时,有多少个人的数据,就要单独训练多少个GMM-UBM模型,并行化实现不方便,且GMM-UBM模型本质为统计模型,难以捕获到训练数据外的更泛化的特征,除此之外,其抽取特征能力有限,抽取的特征的表征能力不强。
技术实现思路
本专利技术实施例提供一种基于语音的性别年龄识别方法、装置、设备和存储介质,以实现快速准确的实时获取用户的年龄和性别。为达此目的,本专利技术实施例提供了一种基于语音的性别年龄识别方法,该方法包括:获取目标用户发出的语音信号;将所述语音信号转换为声纹特征图;将所述声纹特征图输入至预先训练好的年龄识别神经网络模型以得到所述目标用户的识别年龄,并将所述声纹特征图输入至预先训练好的性别识别神经网络模型以得到所述目标用户的识别性别。进一步的,所述将所述语音信号转换为声纹特征图包括:将所述语音信号分解为谐波信号和冲击波信号;将所述语音信号、谐波信号和冲击波信号分别转换为第一梅尔能量谱图、第二梅尔能量谱图和第三梅尔能量谱图;将所述第一梅尔能量谱图、第二梅尔能量谱图和第三梅尔能量谱图进行折叠以得到声纹特征图。进一步的,所述将所述声纹特征图输入至预先训练好的年龄识别神经网络模型以得到所述目标用户的识别年龄,并将所述声纹特征图输入至预先训练好的性别识别神经网络模型以得到所述目标用户的识别性别之后包括:基于所述识别年龄和所述识别性别对预设用户画像进行修正。进一步的,所述基于所述识别年龄和所述识别性别对预设用户画像进行修正之后包括:基于修正后的预设用户画像调整针对所述目标用户的通话语音类型。一方面,本专利技术实施例还提供了一种基于语音的性别年龄识别装置,该装置包括:信号获取模块,用于获取目标用户发出的语音信号;信号转换模块,用于将所述语音信号转换为声纹特征图;年龄性别获取模块,用于将所述声纹特征图输入至预先训练好的年龄识别神经网络模型以得到所述目标用户的识别年龄,并将所述声纹特征图输入至预先训练好的性别识别神经网络模型以得到所述目标用户的识别性别;进一步的,所述信号转换模块具体用于:将所述语音信号分解为谐波信号和冲击波信号;将所述语音信号、谐波信号和冲击波信号分别转换为第一梅尔能量谱图、第二梅尔能量谱图和第三梅尔能量谱图;将所述第一梅尔能量谱图、第二梅尔能量谱图和第三梅尔能量谱图进行折叠以得到声纹特征图。进一步的,该装置还包括:画像修正模块,用于基于所述识别年龄和所述识别性别对预设用户画像进行修正。进一步的,该装置还包括:语音调整模块,用于基于修正后的预设用户画像调整针对所述目标用户的通话语音类型。另一方面,本专利技术实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例提供的方法。又一方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任一实施例提供的方法。本专利技术实施例通过获取目标用户发出的语音信号;将所述语音信号转换为声纹特征图;将所述声纹特征图输入至预先训练好的年龄识别神经网络模型以得到所述目标用户的识别年龄,并将所述声纹特征图输入至预先训练好的性别识别神经网络模型以得到所述目标用户的识别性别,解决了不能快速准确的实时获取用户的年龄和性别的问题,实现了实时修正用户画像的效果。附图说明图1是本专利技术实施例一提供的基于语音的性别年龄识别方法的流程示意图;图2是本专利技术实施例二提供的基于语音的性别年龄识别方法的流程示意图;图3是本专利技术实施例三提供的基于语音的性别年龄识别装置的结构示意图;图4为本专利技术实施例四提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一模块称为第二模块,且类似地,可将第二模块称为第一模块。第一模块和第二模块两者都是模块,但其不是同一模块。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的本文档来自技高网
...

【技术保护点】
1.一种基于语音的性别年龄识别方法,其特征在于,包括:/n获取目标用户发出的语音信号;/n将所述语音信号转换为声纹特征图;/n将所述声纹特征图输入至预先训练好的年龄识别神经网络模型以得到所述目标用户的识别年龄,并将所述声纹特征图输入至预先训练好的性别识别神经网络模型以得到所述目标用户的识别性别。/n

【技术特征摘要】
1.一种基于语音的性别年龄识别方法,其特征在于,包括:
获取目标用户发出的语音信号;
将所述语音信号转换为声纹特征图;
将所述声纹特征图输入至预先训练好的年龄识别神经网络模型以得到所述目标用户的识别年龄,并将所述声纹特征图输入至预先训练好的性别识别神经网络模型以得到所述目标用户的识别性别。


2.根据权利要求1所述的方法,其特征在于,所述将所述语音信号转换为声纹特征图包括:
将所述语音信号分解为谐波信号和冲击波信号;
将所述语音信号、谐波信号和冲击波信号分别转换为第一梅尔能量谱图、第二梅尔能量谱图和第三梅尔能量谱图;
将所述第一梅尔能量谱图、第二梅尔能量谱图和第三梅尔能量谱图进行折叠以得到声纹特征图。


3.根据权利要求1所述的方法,其特征在于,所述将所述声纹特征图输入至预先训练好的年龄识别神经网络模型以得到所述目标用户的识别年龄,并将所述声纹特征图输入至预先训练好的性别识别神经网络模型以得到所述目标用户的识别性别之后包括:
基于所述识别年龄和所述识别性别对预设用户画像进行修正。


4.根据权利要求3所述的方法,其特征在于,所述基于所述识别年龄和所述识别性别对预设用户画像进行修正之后包括:
基于修正后的预设用户画像调整针对所述目标用户的通话语音类型。


5.一种基于语音的性别年龄识别装置,其特征在于,包括:
信号获取模块,用于获取目标用户发出的语音信号;...

【专利技术属性】
技术研发人员:杨楠
申请(专利权)人:深圳市卡牛科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1