【技术实现步骤摘要】
新意图发现方法、装置、电子设备及存储介质
[0001]本专利技术实施例涉及计算机
,具体涉及一种新意图发现方法、装置、电子设备及存储介质。
技术介绍
[0002]垂直行业通常包含自身领域特定的业务,不同的行业会根据自身的业务特点去构建任务相关的意图。用户构建行业意图和对应的训练语料,并采用深度学习模型进行训练,得到对应的意图模型,从而进行行业内的意图识别。而在意图构建初期,用户可能并不清楚当前领域所有可能使用的场景都构建完整,或者随着业务逐渐展开,会有一部分全新的业务相关意图出现,因此会有部分业务内容通过当前意图模型无法有效识别。
技术实现思路
[0003]针对现有技术存在的缺陷,本专利技术实施例提供一种新意图发现方法、装置、电子设备及存储介质。
[0004]本专利技术实施例提供一种新意图发现方法,包括:获取当前意图识别模型的意图标注数据;其中,所述意图识别模型是根据行业意图和对应的训练语料预先训练好的;利用所述意图标注数据训练预训练的第一语言模型,得到第二语言模型;将所述意图识别模型未有效实现 ...
【技术保护点】
【技术特征摘要】
1.一种新意图发现方法,其特征在于,包括:获取当前意图识别模型的意图标注数据;其中,所述意图识别模型是根据行业意图和对应的训练语料预先训练好的;利用所述意图标注数据训练预训练的第一语言模型,得到第二语言模型;将所述意图识别模型未有效实现意图识别的语料数据输入到所述第二语言模型,得到所述语料数据的句子的第一向量;通过降维处理将所述第一向量压缩成具有预设维数的第二向量;通过对所述第二向量进行聚类计算,得到聚类结果,根据所述聚类结果得到新意图的意图名称及对应的所述语料数据。2.根据权利要求1所述的新意图发现方法,其特征在于,所述利用所述意图标注数据训练预训练的第一语言模型,得到第二语言模型,包括:利用预设的预训练预测任务,利用所述意图标注数据训练预训练的第一语言模型,得到第三语言模型;以相似句对作为输入,相同意图的标注结果作为输出标签,以及以不相似句对作为输入,不同意图的标注结果作为输出标签,继续训练所述第三语言模型,得到所述第二语言模型;其中,所述相似句对是通过将相同意图下的所述意图标注数据两两组合得到的,所述不相似句对是通过将不同意图下的所述意图标注数据两两组合得到的。3.根据权利要求2所述的新意图发现方法,其特征在于,所述预训练预测任务包括单向、双向及序列到序列的预训练预测任务。4.根据权利要求1所述的新意图发现方法,其特征在于,所述根据所述聚类结果得到新意图的意图名称及对应的所述语料数据,包括:通过对所述聚类结果分别进行关键词提取得到新意图的意图名称,并将所述聚类结果对应的所述语料数据作为与相应所述新意图的意图名称对应的语料数据。5.根据权利要求1所述的新意图发现方法,其特征在于,所述通过对所述第二向量进行聚类计算,得到聚类结果,包括:根据所述第二向量构建加权图;其中,所述加权图的顶点为所述第二向量,所述加权图的边的权重为相应两个所述第二向量之间的距离;设置预设阈值,并在所述预设阈值逐步减小的过程中,通过逐步删除所述边的权重超过所述预设阈值的边进行图分裂,获取最小生成树;其中,所述最小生成树中删除任何边均会导致图分裂;将所述最小生成树中的边按照距离递增排序,依次选取每条边,将所述边连接的两个子图进行合并,构建得到层次聚类树;确定聚类数量,并自上而下遍历所述层次聚类树,对所述层次聚类树按照所述聚类数量进行压缩,压缩完成后得到的每棵子树中的数据即为聚合为同一类别的数据...
【专利技术属性】
技术研发人员:顾鹏程,李磊,贾路,徐元春,
申请(专利权)人:北京红棉小冰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。