【技术实现步骤摘要】
基于多样本的意图分类方法、装置、设备及存储介质
[0001]本专利技术涉及人工智能及数字医疗
,特别是涉及一种基于多样本的意图分类方法、装置、设备及存储介质。
技术介绍
[0002]对话意图识别是通过理解人与人之间的聊天语料信息,对文本中的意图特征进行检索、过滤和分类等,最终识别出用户对话所包含的目的甚至情感,意图识别的核心是对语义的理解。基于机器学习的对话意图识别方法包括基于规则和统计的对话意图识别,基于机器学习分类器的对话意图识别以及基于生成式模型的对话意图识别等。
[0003]在电话销售中基于机器学习分类器的对话意图识别是否准确影响着后续业务的展开,同时对客户的用户体验也十分重要。在不同的业务场景和不同的业务节点中,客户的意图分布往往呈现出一种不均衡的状态。在业务稳定运行一段时间后,我们可以积累大量的数据,即使数据量很大,但是不同意图的样本分布仍然是不均衡的。不均衡的数据限制了意图分类模型的识别精度,导致电话销售人员不能通过意图分类模型准确识别客户的意图,影响沟通体验,不能达到精准销售的效果。
专 ...
【技术保护点】
【技术特征摘要】
1.一种基于多样本的意图分类方法,其特征在于,包括:获取电话语音中的文本样本,对所述文本样本的类别属性进行标注处理,根据标注处理结果识别所述文本样本的意图类别,获得不均衡意图类别的文本样本以及均衡意图类别的文本样本,将不均衡意图类别的文本样本识别为目标样本;基于k
‑
mean聚类算法,根据所述目标样本生成新的目标样本,根据新的目标样本和均衡意图类别的文本样本形成训练样本集;将训练样本集分批输入预构建好的意图分类模型中,获得每个训练样本的预测结果,根据所述预测结果计算每个训练样本的梯度模长,根据所有所述梯度模长划分梯度区间,按照所述梯度区间对所述训练样本进行分类处理并根据分类处理结果计算梯度区间密度,根据所述梯度区间密度计算损失函数,采用所述损失函数对所述意图分类模型进行训练,得到目标意图分类模型;获取待测文本样本,将所述待测文本样本输入所述目标意图分类模型中,得到所述待测文本样本的意图类别。2.根据权利要求1所述的意图分类方法,其特征在于,基于k
‑
mean聚类算法,根据所述目标样本生成新的目标样本的步骤包括:根据均衡意图类别的文本样本数量确定所述目标样本需均衡的数量;采用k
‑
mean聚类算法将所述目标样本划分为多个样本簇;重复执行从所述样本簇中随机选取一个样本簇,每次从选取出的样本簇中随机选取多个不同的子样本并获取各个子样本的中心,将所述中心作为新的目标样本直至新的目标样本的数量达到所述目标样本需均衡的数量为止。3.根据权利要求2所述的意图分类方法,其特征在于,采用k
‑
mean聚类算法将所述目标样本划分为多个样本簇的步骤包括:随机选取多个不同的所述目标样本,并将选取出的目标样本作为聚类中心;计算每个目标样本分别到每个聚类中心的距离,遍历所有所述目标样本,根据距离计算结果将每个所述目标样本分配到距离最近的聚类中心以形成样本簇。4.根据权利要求2所述的意图分类方法,其特征在于,重复执行从所述样本簇中随机选取一个样本簇,每次从选取出的样本簇中随机选取多个不同的子样本并获取各个子样本的中心,将所述中心作为新的目标样本直至新的目标样本的数量达到所述目标样本需均衡的数量为止的步骤包括:从所述样本簇中随机选取一个样本簇,从选取出的样本簇中随机选取多个不同的子样本并计算各个子样本加权平均值;将所述加权平均值与样本中心进行关联,将所述样本中心作为新的目标样本;重复执行生成新的目标样本的步骤以获取多个新的目标样本直至新的目标样本的数量达到所述目标样本需均衡的数量为止。5.根据权利要求1所述的意图分类方法,其特征在于,将训练样本集分批输入预构建好的意图分类模型中,获得每个训练样本的预测结果,根据所述预测结果计算每个训练样本的梯度模长,根据所有所述梯度模长划分梯度区间,按照所述梯度区间对所述训练样本进行分类处理并根据分类处理结果计算梯度区间密度,根据所述梯度区间密度计算损失函数,采用所述损失函数对所述意图分类模型进行训练,得到目标意图分类模型的步骤包括:
将训练样本集分批输入预构建好的意图分类模型中,获得每个训练样本的预测结果,根据每个训练样本的标注处理结果和所述预测结果计算所述训练样本的梯度模长;根据所述梯度模长的计算结果获取梯度...
【专利技术属性】
技术研发人员:吴绍锋,
申请(专利权)人:平安普惠企业管理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。