身份识别方法、语音质检方法及相关设备技术

技术编号:37626899 阅读:9 留言:0更新日期:2023-05-18 12:18
本申请公开了一种身份识别方法、语音质检方法及相关设备。所述身份识别方法包括:获取业务方与目标用户之间的待处理对话的对话轮数以及待处理对话中的用户对话文本;将用户对话文本中的词语与多个词库中的词语进行匹配,以确定用户对话文本命中的目标词库,多个词库为基于总词库中的词语分别命中的非真人用户对话文本及真人用户对话文本对总词库进行划分得到,总词库中的词语为基于非真人用户对话文本确定的,非真人用户对话文本为业务方与非真人用户之间的历史对话中属于非真人用户的对话文本,真人用户对话文本为业务方与真人用户之间的历史对话中属于真人用户的对话文本;基于目标词库和待处理对话的对话轮数,确定目标用户是否为真人。标用户是否为真人。标用户是否为真人。

【技术实现步骤摘要】
身份识别方法、语音质检方法及相关设备


[0001]本申请涉及计算机
,尤其涉及一种身份识别方法、语音质检方法及相关设备。

技术介绍

[0002]在一些对话场景中,比如业务方拨打用户电话进行回访或者销售、用户向业务方进行业务咨询等,出于某些特别的业务需求,比如评估业务方的服务质量等,通常需要识别用户的身份,以确定用户是真人还是非真人(比如机器人)。
[0003]相关技术中,对于语音对话,通常利用任何人的声纹(Voiceprint)都有差异的客观规律,从语音对话中提取出属于用户的用户语音,然后基于声纹识别(Voiceprint Recognition,VPR)技术从用户语音中提取出声纹特征,通过将提取出的声纹特征与不同身份用户的声纹特征进行匹配,从而自动鉴别出用户的身份。
[0004]但是,由于非真人的语音数据的声频信息一般较短,导致声纹识别技术难以准确鉴别用户身份,加上不同身份用户的声纹特征无法穷举,进一步增加声纹识别技术的难度。另外,声纹识别技术的实施过程复杂繁琐,效率低下。

技术实现思路

[0005]本申请实施例的目的提供一种身份识别方法、语音质检方法及相关设备,用于解决相关技术的身份识别方法存在的准确率和效率低、实施过程复杂繁琐等问题。
[0006]为了实现上述目的,本申请实施例采用下述技术方案:
[0007]第一方面,本申请实施例提供一种身份识别方法,包括:获取业务方与目标用户之间的待处理对话的对话轮数以及所述目标用户在所述待处理对话中的用户对话文本;将所述用户对话文本中的词语与多个词库中的词语进行匹配,以确定所述用户对话文本在所述多个词库中命中的目标词库,其中,所述多个词库为基于总词库中的词语分别命中的非真人用户对话文本及真人用户对话文本对所述总词库进行划分得到,所述总词库中的词语为基于所述非真人用户对话文本确定的,所述非真人用户对话文本为业务方与非真人用户之间的历史对话中属于非真人用户的对话文本,所述真人用户对话文本为业务方与真人用户之间的历史对话中属于真人用户的对话文本;基于所述目标词库和所述待处理对话的对话轮数,确定所述目标用户是否为真人的身份识别结果。
[0008]本申请实施例提供的身份识别方法,利用非真人用户的对话文本包含的词语与真人用户的对话文本包含的词语存在差异、且同时出现在两类对话文本中的词语分别在这两类对话文本中的出现情况也存在差异这一自然客观规律,基于业务方与非真人用户之间历史对话中属于非真人用户的用户对话文本确定总词库,并基于总词库中的词语命中的非真人用户对话文本真人用户对话文本,将总词库划分为多个词库,不同词库中的词语在真人用户的用户对话文本中的出现情况与该词库中的词语在非真人用户的对话文本中的出现情况不同,进而能够凸显出真人用户的对话文本与非真人用户的对话文本之间的异同点;
然后,利用划分得到的每个词库中的词语与待处理对话中的用户对话文本进行匹配,确定出用户对话文本命中的目标词库,进一步基于目标词库和用户对话文本的对话轮数,即可充分利用目标词库凸显出的真人用户的对话文本与非真人用户的对话文本之间的异同点,确定目标用户是否为真人,因而识别准确率更优;另外,整个身份识别流程相较于声纹识别技术,实施更简单,具有更优的识别效率。
[0009]第二方面,本申请实施例提供一种语音质检方法,包括:通过语音识别技术对业务方与用户之间的待质检语音对话进行识别,以得到所述待质检语音对话的对话轮数、对话文本以及所述对话文本中属于所述用户的用户对话文本;将所述用户对话文本中的词语与多个词库中的词语进行匹配,以确定所述用户对话文本在所述多个词库中命中的目标词库,其中,所述多个词库为基于总词库中的词语分别命中的非真人用户对话文本及真人用户对话文本对所述总词库进行划分得到,所述总词库中的词语为基于所述非真人用户对话文本确定的,所述非真人用户对话文本为业务方与非真人用户之间的历史对话中属于非真人用户的对话文本,所述真人用户对话文本为业务方与真人用户之间的历史对话中属于真人用户的对话文本;基于所述目标词库和所述待质检语音对话的对话轮数,确定所述用户是否为真人的身份识别结果;若所述用户为真人,则基于所述待质检语音对话的对话文本,确定所述待质检语音对话是否合格。
[0010]本申请实施例提供的语音质检方法,首先,通过语音识别技术对业务方与用户之间的待质检语音对话进行识别,以得到待质检语音对话的对话轮数、对话文本以及对话文本中属于用户的用户对话文本;然后,利用本申请实施例提出的身份识别方法,基于待质检语音对话的对话轮数和待质检语音对话中属于用户的用户对话文本,即可高效、准确地识别用户是否为真人;进一步,在用户为真人的情况下,基于待质检语音对话的对话文本对待质检语音对话进行质检,有利于提高语音质检效率和准确率。
[0011]第三方面,本申请实施例提供一种身份识别装置,包括:
[0012]第一获取单元,用于获取业务方与目标用户之间的待处理对话的对话轮数以及所述目标用户在所述待处理对话中的用户对话文本;
[0013]第一匹配单元,用于将所述用户对话文本中的词语与多个词库中的词语进行匹配,以确定所述用户对话文本在所述多个词库中命中的目标词库,其中,所述多个词库为基于总词库中的词语分别命中的非真人用户对话文本及真人用户对话文本对所述总词库进行划分得到,所述总词库中的词语为基于所述非真人用户对话文本确定的,所述非真人用户对话文本为业务方与非真人用户之间的历史对话中属于非真人用户的对话文本,所述真人用户对话文本为业务方与真人用户之间的历史对话中属于真人用户的对话文本;
[0014]第一确定单元,用于基于所述目标词库和所述待处理对话的对话轮数,确定所述目标用户是否为真人的身份识别结果。
[0015]第四方面,本申请实施例提供一种语音质检装置,包括:
[0016]第二获取单元,用于通过语音识别技术对业务方与用户之间的待质检语音对话进行识别,以得到所述待质检语音对话的对话轮数以及所述用户在所述待质检语音对话中的用户对话文本;
[0017]第二匹配单元,用于将所述用户对话文本中的词语与多个词库中的词语进行匹配,以确定所述用户对话文本在所述多个词库中命中的目标词库,其中,所述多个词库为基
于总词库中的词语分别命中的非真人用户对话文本及真人用户对话文本对所述总词库进行划分得到,所述总词库中的词语为基于所述非真人用户对话文本确定的,所述非真人用户对话文本为业务方与非真人用户之间的历史对话中属于非真人用户的对话文本,所述真人用户对话文本为业务方与真人用户之间的历史对话中属于真人用户的对话文本;
[0018]第二确定单元,用于基于所述目标词库和所述待质检语音对话的对话轮数,确定所述用户是否为真人的身份识别结果;
[0019]质检单元,用于若所述用户为真人,则基于所述待质检对话语音对应的对话文本,确定所述待质检对话语音是否合格。
[0020]第五方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种身份识别方法,其特征在于,包括:获取业务方与目标用户之间的待处理对话的对话轮数以及所述目标用户在所述待处理对话中的用户对话文本;将所述用户对话文本中的词语与多个词库中的词语进行匹配,以确定所述用户对话文本在所述多个词库中命中的目标词库,其中,所述多个词库为基于总词库中的词语分别命中的非真人用户对话文本及真人用户对话文本对所述总词库进行划分得到,所述总词库中的词语为基于所述非真人用户对话文本确定的,所述非真人用户对话文本为业务方与非真人用户之间的历史对话中属于非真人用户的对话文本,所述真人用户对话文本为业务方与真人用户之间的历史对话中属于真人用户的对话文本;基于所述目标词库和所述待处理对话的对话轮数,确定所述目标用户是否为真人的身份识别结果。2.根据权利要求1所述的方法,其特征在于,所述多个词库包括第一类词库和第二类词库,所述第一类词库中的词语出现在所述非真人用户对话文本中且未出现在所述非真人用户对话文本中,所述第二类词库中的词语出现在所述非真人用户对话文本和所述真人用户对话文本中,所述第二类词库具有对应的预设对话轮数阈值;所述基于所述目标词库和所述待处理对话的对话轮数,确定所述目标用户是否为真人的身份识别结果,包括:若所述目标词库为所述第一类词库,则确定所述目标用户为非真人;若所述目标词库为所述第二类词库,则基于所述目标词库对应的预设对话轮数阈值和所述待处理对话的对话轮数,确定所述目标用户是否为真人的身份识别结果。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标词库对应的预设对话轮数阈值和所述待处理对话的对话轮数,确定所述目标用户是否为真人的身份识别结果,包括:若所述待处理对话的对话轮数小于或等于所述目标词库对应的预设对话轮数阈值,则确定所述目标用户为非真人;若所述待处理对话的对话轮数大于所述目标词库对应的预设对话轮数阈值,则确定所述目标用户为真人。4.根据权利要求1所述的方法,其特征在于,在将所述用户对话文本中的词语与多个词库中的词语进行匹配之前,所述方法还包括:获取多个非真人用户对话文本和多个真人用户对话文本;基于所述多个非真人用户对话文本包含的词语,构建所述总词库;基于各个非真人用户对话文本包含的词语和各个真人用户对话文本包含的词语,确定所述总词库中每个词语命中的非真人用户对话文本及真人用户对话文本,其中,每个词语命中非真人用户对话文本是指非真人用户对话文本中出现该词语,每个词语命中真人用户对话文本是指真人用户对话文本中出现该词语;基于所述总词库中每个词语命中的非真人用户对话文本所属的历史对话的对话轮数以及每个词语命中的真人用户对话文本所属的历史对话的对话轮数,将所述总词库划分为所述多个词库并确定每个词库对应的预设对话轮数阈值,所述多个词库各自包含的词语不同。
5.根据权利要求4所述的方法,其特征在于,所述多个词库包括第一类词库和至少一个第二类词库;所述基于所述总词库中每个词语命中的非真人用户对话文本所属的历史对话的对话轮数以及每个词语命中的真人用户对话文本所属的历史对话的对话轮数,将所述总词库划分为所述多个词库并确定每个词库对应的预设对话轮数阈值,包括:基于所述总词库中满足第一预设筛选条件的多个第一词语,创建第一类词库,所述第一预设筛选条件包括:筛选出的第一词语出现在至少一个非真人用户对话文本中、且未出现在所述多个真人用户对话文本中;从所述总词库中获取满足第二预设筛选条件的多个第二词语,所述第二预设筛选条件包括:筛选出的同一个第二词语既出现在至少一个非真人用户对话文本中、又出现在至少一个真人用户对话文本中;基于预设的划分目标,将所述多个第二词语划分到至少一个第二类词库中,所述预设划分目标包括:划分得到的第二类词库包含的词语命中的非真人用户对话文本的数量最大、且该第二类词库包含的词语命中的真人用户对话文本所属历史对话的对话轮数最小;基于各个第二类词库中的各词语命中的非真人用户对话文本所属历史对话的对话轮数的最大值以及各词语命中的真人用户对话文本所属历史对话的对话轮数的最小值,确定各个第二类词库对应的预设对话轮数阈值。6.根据权利要求5所述的方法,其特征在于,所述基于所述总词库中满足第一预设筛选条件的多个第一词语,创建第一类词库,包括:对所述多个第一词语进行组合,得到多个第一候选词库,每个第一候选词库包括至少一个第一词语;从所述多个第一候选词库中选取满足第四预设筛选条件的第一候选词库,作为所述第一类词库,其中,所述第四预设筛选条件包括:筛选出的第一候选词库包含的词语命中的非真人用户对话文本的数量最大、且该第一候选词库包含的词语数量最小。7.根据权利要求5所述的方法,其特征在于,所述基于预设的划分目标,将所述多个第二词语划分到至少一个第二类词库中,包括:对...

【专利技术属性】
技术研发人员:李长林夏粉肖冰曹磊罗奇帅
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1