基于说话内容的说话者身份识别方法、装置及存储介质制造方法及图纸

技术编号:21895711 阅读:17 留言:0更新日期:2019-08-17 16:01
本发明专利技术涉及语音处理领域,提出一种基于说话内容的说话者身份识别的方法、装置及存储介质,其中的方法包括采集初始语音信号,其中,初始语音信号包含多个待确认目标的说话内容;通过语音识别技术将初始语音信号转换为与说话内容对应的文本信息;根据文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,说话者为多个待确认目标其中之一;根据文本信息片段获取与待确认目标对应的语音信号段并进行拼接,获取目标语音信号;根据目标语音信号对待确认目标的身份进行确认。本发明专利技术基于说话内容进行说话人身份的识别及验证,能够提高身份验证过程中的准确率,实现其在电话客户服务中的应用,节省人力物力。

Speaker Identity Recognition Method, Device and Storage Media Based on Speech Content

【技术实现步骤摘要】
基于说话内容的说话者身份识别方法、装置及存储介质
本专利技术涉及语音信号处理
,尤其涉及一种基于说话内容的说话者身份识别方法、装置及计算机可读存储介质。
技术介绍
根据研究表明,声纹虽然不如指纹、人脸这样,个体差异明显,但是由于每个人的声道、口腔和鼻腔(发音要用到的器官)也具有个体差异性。因为反映到声音上,也是具有差异性的。就比如说,当我们在接电话的时候,通过一声"喂",我们就能准确的分辨出接电话的是谁,我们人耳作为身体的接收器生来就具有分辨声音的能力,那么我们也可以通过技术的手段,使声纹也可以向人脸、指纹那样作为“个人身份认证”的重要信息。声纹识别(VoiceprintRecognition,VPR),也称为说话人识别(SpeakerRecognition),包括两类,即说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。说话人识别是给定说话者语音信息,以接受或拒绝说话者身份的过程,被广泛应用在银行系统,金融商业和语音安全控制中。为此,说话人识别技术逐渐发展并得到普及,尤其在安全验证、电话银行中得到广泛应用。该技术要求在单信道-单一说话者情景下应用,即输入单一客户的语音信息,能够获得较好的验证效果。但是,在客户导向的企业中,说话人识别能够帮助客户解决紧急需要,并获得个性化服务,也可以帮助实现精准营销。但是,现有业内产品多为基于说话者声纹的识别,但这种方法在对话双方性别不同时效果较好,性别相同时,效果相对差。例如,在电话客户服务平台上,在电话录音的单一信道上记录的是客户与客服的对话音频,因此,不能够直接通过说话人验证技术对电话录音信息进行客户身份验证,导致电话客户服务效率低,浪费大量的人力物力。
技术实现思路
本专利技术提供一种基于说话内容的说话者身份识别方法、装置及计算机可读存储介质,其主要目的在于通过将录制的对话音频用自动语音识别技术转换为文字信息,然后使用深度学习分类方法进行客户或客服的身份识别,最后,对客户音频片段进行拼接及对拼接后的音频片段进行身份验证,能够根据电话销售中客户与客服说话内容存在差异的应用场景,基于说话内容进行说话人识别及验证,提高身份验证过程中的准确率,实现其在电话客户服务中的应用,节省人力物力。为实现上述目的,本专利技术提供一种基于说话内容的说话者身份识别方法,应用于电子装置,所述方法包括:采集初始语音信号,其中,所述初始语音信号包含多个待确认目标的说话内容;通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息;根据所述文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一;根据文本信息片段获取与所述待确认目标对应的语音信号段并进行拼接,获取目标语音信号;根据所述目标语音信号对所述待确认目标的身份进行确认。此外,优选地,所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息包括:通过子空间高斯混合模型和语音活动检测技术,将所述初始语音信号分割为多个语音片段;通过语音识别技术对各语音片段分别进行文本信息转换。此外,优选地,所述通过语音识别技术对各语音片段分别进行文本信息转换的步骤包括:构件语音识别模型和延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型LC-BHLSTM;将所述各语音片段输入所述语音识别模型进行处理,所述语音识别模型将所述各语音片段表示为多维特征输出;将所述语音识别模型的输出信号输入所述LC-BHLSTM模型进行处理,得到所述各语音片段对应的文本信息。此外,优选地,所述根据所述文本信息对说话者身份进行识别的步骤包括:获取基于训练集训练形成好的深度学习分类模型,其中,所述训练集基于语料库组建而成;将所述文本信息输入所述深度学习分类模型中,对所述文本信息分配对应的标签。此外,优选地,所述根据所述目标语音信号对所述待确认目标的身份进行确认的步骤包括:采用基于深度神经网络模型的i-向量系统实现对所述待确认目标的身份的确认;或者,采用基于高斯混合模型的i-向量系统实现对所述待确认目标的身份的确认。为实现上述目的,本专利技术还提供一种电子装置,该电子装置包括:存储器、处理器及摄像装置,所述存储器中包括基于说话内容的说话者身份识别程序,所述基于说话内容的说话者身份识别程序被所述处理器执行时实现如下步骤:采集初始语音信号,其中,所述初始语音信号包含多个待确认目标的说话内容;通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息;根据所述文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一;根据文本信息片段获取与所述待确认目标对应的语音信号段并进行拼接,获取目标语音信号;根据所述目标语音信号对待确认目标的身份进行确认。此外,优选地,所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息的步骤包括:通过子空间高斯混合模型和语音活动检测,将所述初始语音信号分割为多个语音片段;通过语音识别技术对各语音片段分别进行文本信息转换。此外,优选地,所述通过语音识别技术对各语音片段分别进行文本信息转换的步骤包括:构件语音识别模型和延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型LC-BHLSTM;将所述各语音片段输入所述语音识别模型进行处理,所述语音识别模型将所述各语音片段表示为多维特征输出;所述语音识别模型的输出信号输入所述LC-BHLSTM模型进行处理,得到所述各语音片段对应的文本信息。此外,优选地,所述根据所述文本信息对说话者身份进行识别的步骤包括:获取基于训练集训练形成好的深度学习分类模型,其中,所述训练集基于语料库组建而成;将所述文本信息输入所述深度学习分类模型中,对所述文本信息分配对应的标签。为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于说话内容的说话者身份识别程序,所述基于说话内容的说话者身份识别程序被处理器执行时,实现如上所述的基于说话内容的说话者身份识别方法的步骤。本专利技术提出的基于说话内容的说话者身份识别方法、装置及计算机可读存储介质,将录制的对话音频用自动语音识别技术转换为文字信息,然后使用深度学习分类方法进行目标或非目标的身份识别,最后,对目标音频片段进行拼接及对拼接后的音频片段进行身份验证,能够根据电话销售中客户与客服说话内容存在差异的应用场景,基于说话内容进行说话人识别及验证,提高身份验证过程中的准确率。附图说明图1为本专利技术基于说话内容的说话者身份识别方法具体实施例的应用环境示意图;图2为图1中基于说话内容的说话者身份识别程序具体实施例的模块示意图;图3为本专利技术根据转换后的文本信息对目标进行身份识别的原理图;图4为3中根据转换后的文本信息对目标进行身份识别的流程图;图5为基于DNN的说话人身份确认原理图;图6为基于GMM的说话人身份确认原理图;图7为基于说话内容的说话者身份识别方法具体实施例的流程图。本专利技术目的的实现、功能特点及优本文档来自技高网
...

【技术保护点】
1.一种基于说话内容的说话者身份识别方法,应用于电子装置,其特征在于,所述方法包括:采集初始语音信号,其中,所述初始语音信号包含多个待确认目标的说话内容;通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息;根据所述文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一;根据文本信息片段获取与所述待确认目标对应的语音信号段并进行拼接,获取目标语音信号;根据所述目标语音信号对所述待确认目标的身份进行确认。

【技术特征摘要】
1.一种基于说话内容的说话者身份识别方法,应用于电子装置,其特征在于,所述方法包括:采集初始语音信号,其中,所述初始语音信号包含多个待确认目标的说话内容;通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息;根据所述文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一;根据文本信息片段获取与所述待确认目标对应的语音信号段并进行拼接,获取目标语音信号;根据所述目标语音信号对所述待确认目标的身份进行确认。2.根据权利要求1所述的基于说话内容的说话者身份识别方法,其特征在于,所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息包括:通过子空间高斯混合模型和语音活动检测技术,将所述初始语音信号分割为多个语音片段;通过语音识别技术对各语音片段分别进行文本信息转换。3.根据权利要求2所述的基于说话内容的说话者身份识别方法,其特征在于,所述通过语音识别技术对各语音片段分别进行文本信息转换的步骤包括:构件语音识别模型和延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型LC-BHLSTM;将所述各语音片段输入所述语音识别模型进行处理,所述语音识别模型将所述各语音片段表示为多维特征输出;将所述语音识别模型的输出信号输入所述LC-BHLSTM模型进行处理,得到所述各语音片段对应的文本信息。4.根据权利要求1所述的基于说话内容的说话者身份识别方法,其特征在于,所述根据所述文本信息对说话者身份进行识别的步骤包括:获取基于训练集训练形成好的深度学习分类模型,其中,所述训练集基于语料库组建而成;将所述文本信息输入所述深度学习分类模型中,对所述文本信息分配对应的标签。5.根据权利要求1所述的基于说话内容的说话者身份识别方法,其特征在于,所述根据所述目标语音信号对所述待确认目标的身份进行确认的步骤包括:采用基于深度神经网络模型的i-向量系统实现对所述待确认目标的身份的确认;或者,采用基于高斯混合模型的i-向量系统实现对所述待确认目标的...

【专利技术属性】
技术研发人员:王健宗孙奥兰
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1