【技术实现步骤摘要】
一种大规模意图的快速识别方法、装置和电子设备
本专利技术涉及计算机信息处理领域,具体涉及一种大规模意图的快速识别方法、装置和电子设备。
技术介绍
随着互联网技术的发展,对话系统在电商、智能设备等方面有着广泛的应用,越来越引起人们的关注。常见的对话系统有Siri、Echo、Bixby、微软小冰、阿里小蜜、智能音响等。意图识别是对话系统中首要且重要的任务,特别是在开放式对话场景中,受限于分类器的能力,将对话划分到几十或者几百个粗粒度意图中,比较粗的粒度使聊天机器人不能精准的捕捉到用户意图,进而影响了人机交互的效果。现有的意图识别器所限定的意图种类大多是几十个到几本百个,基于softmax的多分类器,或者基于one-vs-other的多个二分类机器联合可以解决此类的意图识别。但当意图类别的数量达到几万甚至几十万后,基于softmax的多分类器就会失效,由于经过softmax处理后分配到每个意图的概率变得很小,没有区分性;而基于one-vs-other的多个二分类器联合的方法虽然能随着意图数量的增加进行扩展,但构造上包括万个 ...
【技术保护点】
1.一种大规模意图的快速识别方法,其用于人机交互,其特征在于,包括:/n对历史用户的对话输入的意图类别信息进行语义向量转换;/n将语义向量转换后的各意图进行语义聚类;/n对语义聚类后的结果建立索引,所述索引用于在预设意图数据库中搜索与对话输入相对应的意图类别;/n实时获取当前用户的对话输入,使用所述索引进行搜索匹配;/n将所述对话输入的语义向量和搜索匹配结果,输入排序模型,进行排序,以确定意图识别结果。/n
【技术特征摘要】
1.一种大规模意图的快速识别方法,其用于人机交互,其特征在于,包括:
对历史用户的对话输入的意图类别信息进行语义向量转换;
将语义向量转换后的各意图进行语义聚类;
对语义聚类后的结果建立索引,所述索引用于在预设意图数据库中搜索与对话输入相对应的意图类别;
实时获取当前用户的对话输入,使用所述索引进行搜索匹配;
将所述对话输入的语义向量和搜索匹配结果,输入排序模型,进行排序,以确定意图识别结果。
2.根据权利要求1所述的大规模意图的快速识别方法,其特征在于,还包括:
所述索引包括建立用户ID与聚类后的意图类别的对应关系;
计算语义向量相似度,基于相似度的判断,将多个意图类别聚集在一起使用一个搜索ID表示,以形成多个意图类别集合,其中,各意图类别均包括关键文本特征。
3.根据权利要求1或2所述的大规模意图的快速识别方法,其特征在于,所述实时获取当前用户的对话输入,使用所述索引进行搜索匹配包括:
当接收到当前用户的对话文本输入时,将对话文本和类别样本中的关键文本特征输入到向量转换模型,以得到所述对话文本的语义向量,并结合预设意图类别的语义向量,一起输入深度匹配网络模型中,以输出所述对话文本与意图类别的匹配值。
4.根据权利要求3所述的大规模意图的快速识别方法,其特征在于,还包括:
将所输出的匹配值与预设阈值进行比较;
在所述匹配值比所述预设阈值高的情况下,判定当前用户的对话文本与当前意图类别相关,并判定所述对话文本与当前意图类别所在的意图类别集合的其他意图类别相关。
5.根据权利要求4所述的大规模意图的快速识别方法,其特征在于,还包括:
通过搜索匹配,召回了与当前用户的对话文本输入相关的意图类别集合。
6.根据权利要求5所述的大规模意图的快速识别方法,其特征在于,还包括:
将当前用户的对话文本的语义向量和召回的意图类别的语义向量输入所述排序模型,输出排序分值;
选择排序分值最高的意图类别,作为所述对话文本的意图识别结果。
7.根据权利要求6所述的大规模意图的快速识别方法,其特征在于,还包括:
基于当前用户的对话文本的语义向量,使用所述排序模型输出排序分值的执行次数与所召回的意图类别的数量相等,且直到每一个被召回的意图类别都得到排序分值时,进行分值排序。
8.根据权利要求3所述的大规模意图的快速识别方法,其特征在于,所述向量转换模型包括BERT模型和RoBERTa模型。
9.一种大规模意图的快速识别装置,其用于人机交互,其特征在于,包括:
转换模块,用于对历史用户的对话输入的意图类别信息进行语义向量转换;
聚类模块,用于将语义向量转换后的各意图进行语义聚类;
建立模块,用于对语义聚类后...
【专利技术属性】
技术研发人员:刘志敏,刘宗全,李蒙,
申请(专利权)人:北海淇诚信息科技有限公司,
类型:发明
国别省市:广西;45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。