【技术实现步骤摘要】
身份识别方法、语音质检方法及相关设备
[0001]本申请涉及计算机
,尤其涉及一种身份识别方法、语音质检方法及相关设备。
技术介绍
[0002]在一些对话场景中,比如业务方拨打用户电话进行回访或者销售、用户向业务方进行业务咨询等,出于某些特别的业务需求,比如评估业务方的服务质量等,通常需要识别用户的身份,以确定用户是真人还是非真人(比如机器人)。
[0003]相关技术中,对于语音对话,通常利用任何人的声纹(Voiceprint)都有差异的客观规律,从语音对话中提取出属于用户的用户语音,然后基于声纹识别(Voiceprint Recognition,VPR)技术从用户语音中提取出声纹特征,通过将提取出的声纹特征与不同身份用户的声纹特征进行匹配,从而自动鉴别出用户的身份。
[0004]但是,由于非真人的语音数据的声频信息一般较短,导致声纹识别技术难以准确鉴别用户身份,加上不同身份用户的声纹特征无法穷举,进一步增加声纹识别技术的难度。另外,声纹识别技术的实施过程复杂繁琐,效率低下。
技术实现思路
[0005]本申请实施例的目的提供一种身份识别方法、语音质检方法及相关设备,用于解决相关技术的身份识别方法存在的准确率和效率低、实施过程复杂繁琐等问题。
[0006]为了实现上述目的,本申请实施例采用下述技术方案:
[0007]第一方面,本申请实施例提供一种身份识别方法,包括:获取业务方与目标用户之间的待处理对话的对话轮数以及所述目标用户在所述待处理对话中的用户对话文本;将所述 ...
【技术保护点】
【技术特征摘要】
1.一种身份识别方法,其特征在于,包括:获取业务方与目标用户之间的待处理对话的对话轮数以及所述目标用户在所述待处理对话中的用户对话文本;将所述用户对话文本中的词语与多个词库中的词语进行匹配,以确定所述用户对话文本在所述多个词库中命中的目标词库,其中,所述多个词库为基于总词库中的词语分别命中的非真人用户对话文本及真人用户对话文本对所述总词库进行划分得到,所述总词库中的词语为基于所述非真人用户对话文本确定的,所述非真人用户对话文本为业务方与非真人用户之间的历史对话中属于非真人用户的对话文本,所述真人用户对话文本为业务方与真人用户之间的历史对话中属于真人用户的对话文本;基于所述目标词库和所述待处理对话的对话轮数,确定所述目标用户是否为真人的身份识别结果。2.根据权利要求1所述的方法,其特征在于,所述多个词库包括第一类词库和第二类词库,所述第一类词库中的词语出现在所述非真人用户对话文本中且未出现在所述非真人用户对话文本中,所述第二类词库中的词语出现在所述非真人用户对话文本和所述真人用户对话文本中,所述第二类词库具有对应的预设对话轮数阈值;所述基于所述目标词库和所述待处理对话的对话轮数,确定所述目标用户是否为真人的身份识别结果,包括:若所述目标词库为所述第一类词库,则确定所述目标用户为非真人;若所述目标词库为所述第二类词库,则基于所述目标词库对应的预设对话轮数阈值和所述待处理对话的对话轮数,确定所述目标用户是否为真人的身份识别结果。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标词库对应的预设对话轮数阈值和所述待处理对话的对话轮数,确定所述目标用户是否为真人的身份识别结果,包括:若所述待处理对话的对话轮数小于或等于所述目标词库对应的预设对话轮数阈值,则确定所述目标用户为非真人;若所述待处理对话的对话轮数大于所述目标词库对应的预设对话轮数阈值,则确定所述目标用户为真人。4.根据权利要求1所述的方法,其特征在于,在将所述用户对话文本中的词语与多个词库中的词语进行匹配之前,所述方法还包括:获取多个非真人用户对话文本和多个真人用户对话文本;基于所述多个非真人用户对话文本包含的词语,构建所述总词库;基于各个非真人用户对话文本包含的词语和各个真人用户对话文本包含的词语,确定所述总词库中每个词语命中的非真人用户对话文本及真人用户对话文本,其中,每个词语命中非真人用户对话文本是指非真人用户对话文本中出现该词语,每个词语命中真人用户对话文本是指真人用户对话文本中出现该词语;基于所述总词库中每个词语命中的非真人用户对话文本所属的历史对话的对话轮数以及每个词语命中的真人用户对话文本所属的历史对话的对话轮数,将所述总词库划分为所述多个词库并确定每个词库对应的预设对话轮数阈值,所述多个词库各自包含的词语不同。
5.根据权利要求4所述的方法,其特征在于,所述多个词库包括第一类词库和至少一个第二类词库;所述基于所述总词库中每个词语命中的非真人用户对话文本所属的历史对话的对话轮数以及每个词语命中的真人用户对话文本所属的历史对话的对话轮数,将所述总词库划分为所述多个词库并确定每个词库对应的预设对话轮数阈值,包括:基于所述总词库中满足第一预设筛选条件的多个第一词语,创建第一类词库,所述第一预设筛选条件包括:筛选出的第一词语出现在至少一个非真人用户对话文本中、且未出现在所述多个真人用户对话文本中;从所述总词库中获取满足第二预设筛选条件的多个第二词语,所述第二预设筛选条件包括:筛选出的同一个第二词语既出现在至少一个非真人用户对话文本中、又出现在至少一个真人用户对话文本中;基于预设的划分目标,将所述多个第二词语划分到至少一个第二类词库中,所述预设划分目标包括:划分得到的第二类词库包含的词语命中的非真人用户对话文本的数量最大、且该第二类词库包含的词语命中的真人用户对话文本所属历史对话的对话轮数最小;基于各个第二类词库中的各词语命中的非真人用户对话文本所属历史对话的对话轮数的最大值以及各词语命中的真人用户对话文本所属历史对话的对话轮数的最小值,确定各个第二类词库对应的预设对话轮数阈值。6.根据权利要求5所述的方法,其特征在于,所述基于所述总词库中满足第一预设筛选条件的多个第一词语,创建第一类词库,包括:对所述多个第一词语进行组合,得到多个第一候选词库,每个第一候选词库包括至少一个第一词语;从所述多个第一候选词库中选取满足第四预设筛选条件的第一候选词库,作为所述第一类词库,其中,所述第四预设筛选条件包括:筛选出的第一候选词库包含的词语命中的非真人用户对话文本的数量最大、且该第一候选词库包含的词语数量最小。7.根据权利要求5所述的方法,其特征在于,所述基于预设的划分目标,将所述多个第二词语划分到至少一个第二类词库中,包括:对...
【专利技术属性】
技术研发人员:李长林,夏粉,肖冰,曹磊,罗奇帅,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。