声纹样本采集方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:20591346 阅读:67 留言:0更新日期:2019-03-16 07:55
本发明专利技术公开了一种声纹样本采集方法、装置、计算机设备及存储介质。所述方法包括:获取声纹采集请求中包含的台词情绪标签;从预设的台词数据库中选取台词情绪标签对应的台词文本,并将台词文本发送到客户端;接收客户端返回的采集用户朗读台词文本的语音数据;对语音数据进行有效性校验,若有效性校验通过,则将语音数据转换为语音文本;对语音文本和台词文本进行文本相似度匹配;若匹配结果为匹配成功,则提取所述语音数据的声纹特征,将声纹特征、台词情绪标签和台词文本作为声纹样本,并关联保存到声纹情绪识别模型对应的样本库中。本发明专利技术的技术方案通过台词情绪标签有针对性的采集声纹情绪识别模型的声纹样本,降低采集成本,提高采集效率。

【技术实现步骤摘要】
声纹样本采集方法、装置、计算机设备及存储介质
本专利技术涉及计算机
,尤其涉及一种声纹样本采集方法、装置、计算机设备及存储介质。
技术介绍
目前,随着机器智能化的不断发展,越来越多的关于情绪识别的模型和方法被分析研究,现有的情绪识别主要基于对人脸图片的表情识别。声纹(Voiceprint)是指说话人语音频谱的信息图。由于每个人的发音器官不同,所发出来的声音及其音调各不相同,声纹能够携带言语信息的声波频谱,不仅具有特定性,而且有相对稳定性的特点。当将声纹应用于情绪识别时,基于声纹的情绪识别模型需要大量的声纹样本进行模型训练和验证。常见的声纹样本采集方法主要是通过人工方式从各种录音文件中的提取声音样本及其声纹特征,并通过人工标注的方式对声音样本进行情绪标注,这种人工采集方式操作繁琐,不具有针对性,导致采集成本高,采集效率低,并且采集效果不理想。
技术实现思路
本专利技术实施例提供一种声纹样本采集方法、装置、计算机设备及存储介质,以解决目前用于情绪识别的声纹样本采集成本高,且采集效率低的问题。一种声纹样本采集方法,包括:若接收到客户端发送的声纹采集请求,则获取所述声纹采集请求中包含的台词情绪标签;按照预设的选取方式,从预设的台词数据库中选取所述台词情绪标签对应的台词文本,并将所述台词文本发送到所述客户端,以使所述客户端的采集用户按照所述台词情绪标签的要求朗读所述台词文本;接收所述客户端返回的所述采集用户朗读所述台词文本的语音数据;对所述语音数据进行有效性校验,得到有效性校验结果;若所述有效性校验结果为校验通过,则使用语音转换工具将所述语音数据转换为语音文本;对所述语音文本和所述台词文本进行文本相似度匹配,得到匹配结果;若所述匹配结果为匹配成功,则提取所述语音数据的声纹特征,将所述声纹特征、所述台词情绪标签和所述台词文本作为声纹样本,并关联保存到声纹情绪识别模型对应的样本库中。一种声纹样本采集装置,包括:标签获取模块,用于若接收到客户端发送的声纹采集请求,则获取所述声纹采集请求中包含的台词情绪标签;台词选择模块,用于按照预设的选取方式,从预设的台词数据库中选取所述台词情绪标签对应的台词文本,并将所述台词文本发送到所述客户端,以使所述客户端的采集用户按照所述台词情绪标签的要求朗读所述台词文本;数据接收模块,用于接收所述客户端返回的所述采集用户朗读所述台词文本的语音数据;校验模块,用于对所述语音数据进行有效性校验,得到有效性校验结果;语音转换模块,用于若所述有效性校验结果为校验通过,则使用语音转换工具将所述语音数据转换为语音文本;匹配模块,用于对所述语音文本和所述台词文本进行文本相似度匹配,得到匹配结果;样本生成模块,用于若所述匹配结果为匹配成功,则提取所述语音数据的声纹特征,将所述声纹特征、所述台词情绪标签和所述台词文本作为声纹样本,并关联保存到声纹情绪识别模型对应的样本库中。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述声纹样本采集方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述声纹样本采集方法的步骤。上述声纹样本采集方法、装置、计算机设备及存储介质中,根据客户端发送的声纹采集请求中包含的台词情绪标签,从台词数据库中选取该台词情绪标签对应的台词文本,将台词文本发送到客户端,并接收客户端返回的该台词文本对应的语音数据,若对语音数据的有效性校验通过,则将语音数据转换为语音文本,并在根据语音文本与台词文本之间的文本相似度匹配成功后,提取语音数据的声纹特征,并将声纹特征、台词情绪标签和台词文本关联保存为声纹情绪识别模型的声纹样本,从而实现了通过台词情绪标签有针对性的采集声纹情绪识别模型的声纹样本,无需人工分析和标注,降低了采集成本,并有效提高采集效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中声纹样本采集方法的一应用环境示意图;图2是本专利技术一实施例中声纹样本采集方法的一流程图;图3是本专利技术一实施例中声纹样本采集方法中步骤S4的一流程图;图4是本专利技术一实施例中声纹样本采集方法的步骤S4中计算语音数据的信号累积能量的一流程图;图5是本专利技术一实施例中声纹样本采集方法中步骤S6的一流程图;图6是本专利技术一实施例中声纹样本采集方法中步骤S63的一流程图;图7是本专利技术一实施例中声纹样本采集装置的一示意图;图8是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请提供的声纹样本采集方法,可应用在如图1所示的应用环境中,该应用环境包括服务端和客户端,其中,服务端和客户端之间通过网络进行连接,该网络可以是有线网络或者无线网络,客户端具体包括但不限于各种个人计算机、笔记本电脑、智能手机和平板电脑和便携式可穿戴设备,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。客户端将采集用户按照台词情绪标签的要求朗读的台词文本对应的语音数据发送到服务端,服务端对该语音数据进行有效性校验、文本匹配和声纹特征提取,得到用于声纹情绪识别模型的模型训练和测试的声纹样本。在一实施例中,如图2所示,提供一种声纹样本采集方法,以该方法应用在图1中的服务端为例进行说明,详述如下:S1:若接收到客户端发送的声纹采集请求,则获取该声纹采集请求中包含的台词情绪标签。具体地,采集用户可以在客户端的采集界面提供的可选情绪标签中点选想要采集的台词情绪标签,并进行提交操作,当客户端检测到采集用户在采集界面中的提交操作时,获取采集用户点选的台词情绪标签,并将该台词情绪标签的声纹采集请求发送到服务端。其中,可选情绪标签被预先设置在采集界面上供采集用户选择,可选情绪标签具体可以按照七种基本情绪进行设置,七种基本情绪包括高兴、惊讶、生气、害怕、轻视、厌恶以及悲伤。进一步地,采集用户在进行提交操作时,也可以不点选台词情绪标签,即声纹采集请求中的台词情绪标签为空。服务端接收到该声纹采集请求后,若判断获取到的台词情绪标签为空,则可以从预设的可选情绪标签中随机选择一种可选情绪标签作为台词情绪标签。S2:按照预设的选取方式,从预设的台词数据库中选取台词情绪标签对应的台词文本,并将该台词文本发送到客户端,以使客户端的采集用户按照台词情绪标签的要求朗读该台词文本。具体的,服务端根据步骤S1得到的台词情绪标签,在预设的台词数据库中进行台词文本的选取。其中,预设的台词数据库预选存储有每种可选情绪标签及其对应的可选台词文本的集合,在该集合中,可选台词文本可以选自名著、小说或者电视剧本等,例如,对“悲伤”这一可选情绪标签,在该可选情绪标签对应的可选台词文本的集本文档来自技高网...

【技术保护点】
1.一种声纹样本采集方法,其特征在于,所述声纹样本采集方法包括:若接收到客户端发送的声纹采集请求,则获取所述声纹采集请求中包含的台词情绪标签;按照预设的选取方式,从预设的台词数据库中选取所述台词情绪标签对应的台词文本,并将所述台词文本发送到所述客户端,以使所述客户端的采集用户按照所述台词情绪标签的要求朗读所述台词文本;接收所述客户端返回的所述采集用户朗读所述台词文本的语音数据;对所述语音数据进行有效性校验,得到有效性校验结果;若所述有效性校验结果为校验通过,则使用语音转换工具将所述语音数据转换为语音文本;对所述语音文本和所述台词文本进行文本相似度匹配,得到匹配结果;若所述匹配结果为匹配成功,则提取所述语音数据的声纹特征,将所述声纹特征、所述台词情绪标签和所述台词文本作为声纹样本,并关联保存到声纹情绪识别模型对应的样本库中。

【技术特征摘要】
1.一种声纹样本采集方法,其特征在于,所述声纹样本采集方法包括:若接收到客户端发送的声纹采集请求,则获取所述声纹采集请求中包含的台词情绪标签;按照预设的选取方式,从预设的台词数据库中选取所述台词情绪标签对应的台词文本,并将所述台词文本发送到所述客户端,以使所述客户端的采集用户按照所述台词情绪标签的要求朗读所述台词文本;接收所述客户端返回的所述采集用户朗读所述台词文本的语音数据;对所述语音数据进行有效性校验,得到有效性校验结果;若所述有效性校验结果为校验通过,则使用语音转换工具将所述语音数据转换为语音文本;对所述语音文本和所述台词文本进行文本相似度匹配,得到匹配结果;若所述匹配结果为匹配成功,则提取所述语音数据的声纹特征,将所述声纹特征、所述台词情绪标签和所述台词文本作为声纹样本,并关联保存到声纹情绪识别模型对应的样本库中。2.如权利要求1所述的声纹样本采集方法,其特征在于,所述对所述语音数据进行有效性校验,得到有效性校验结果包括:获取所述语音数据的录音时长;若所述语音数据的录音时长满足所述台词文本对应的语音时长的预设范围要求,则计算所述语音数据的信号累积能量;若所述信号累积能量大于或等于预设能量阈值,则确认所述有效性校验结果为校验通过;若所述语音数据的录音时长不满足所述预设范围要求,或者所述信号累积能量小于所述预设能量阈值,则确认所述有效性校验结果为校验未通过。3.如权利要求2所述的声纹样本采集方法,其特征在于,所述计算所述语音数据的信号累积能量包括:按照预设的帧长对所述语音数据进行分帧处理,得到K个语音帧,并按照预设的采样频率对每个所述语音帧进行语音信号采样,得到每个所述语音帧中的每个采样点的语音信号采样值,其中,K为正整数;按照如下公式计算每个所述语音帧的帧能量:其中,P为每个所述语音帧的帧能量,N为每个所述语音帧中的采样点的数量,Xi为每个所述语音帧中第i个所述采样点的语音信号采样值,Xmax为每个所述语音帧的N个所述采样点的语音信号采样值中的最大值;按照如下公式计算所述语音数据的信号累积能量:其中,E为所述语音数据的信号累积能量,Pj为第j个所述语音帧的帧能量,K为所述语音帧的数量。4.如权利要求1所述的声纹样本采集方法,其特征在于,所述对所述语音文本和所述台词文本进行文本相似度匹配,得到匹配结果包括:根据预设的正则表达式,获取所述台词文本中的非文字字符;对所述台词文本中的所述非文字字符进行删除处理,得到所述台词文本对应的目标语料;采用文本字符匹配的方式,计算所述语音文本和所述目标语料之间的文本相似度;若所述文本相似度大于或者等于预设的相似度阈值,则确认所述匹配结果为匹配成功;若所述文本相似度小于所述预设的相似度阈值,则确认所述匹配结果为匹配失败。5.如权利要求4所述的声纹样本采集方法,其特征在于,所述采用文本字符匹配的方式,计算...

【专利技术属性】
技术研发人员:朱文和
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1