【技术实现步骤摘要】
工单数据的聚类方法、装置、电子设备及存储介质
[0001]本专利技术涉及机器学习以及自然语言处理
,尤其涉及一种工单数据的聚类方法、装置、电子设备及存储介质。
技术介绍
[0002]工单系统每日会从各个地市汇总大量各种类型的工单,如投诉工单,故障工单等。大量工单之间存在重复的,相似的工单需要合并归类,而引入机器学习的能力可以智能化的对工单进行处理。通过自然语言处理算法可以更好的理解工单之间语义信息;通过聚类算法可以归并相似工单,能极大的减小客服人员工作量,提高效率。经过机器学习算法处理后的工单可以沉淀入知识库中,通过运维机器人类的问答系统进行相似工单查找,解决方案推荐的功能。
[0003]面对工单聚类场景,现有的技术方案并不能很好的适合。在进行工单数据人工标注与数据分析时,发现工单数据呈现以下特点:
[0004]1、同属一类的工单数据文字描述方式可能相差较大。因为工单来源于各个地市的客服人员,其语言组织能力与方式有时会差别较大;个别类别的定义范围较其他类别更广,可容纳的描述方式自然也会更多。
[ ...
【技术保护点】
【技术特征摘要】
1.一种工单数据的聚类方法,其特征在于,包括:获取工单数据;将所述工单数据输入至分层聚类模型中,得到所述工单数据的聚类结果;其中,所述分层聚类模型包括分类层、第一聚类层和第二聚类层;所述第二聚类层包括SimCSE子层和DEC聚类子层,其中所述SimCSE子层是基于工单样本和所述工单样本的文本向量进行有监督的训练得到的;所述DEC聚类子层是基于所述工单样本的文本向量和文本向量对应的工单数据的聚类结果进行训练得到的。2.根据权利要求1所述的工单数据的聚类方法,其特征在于,所述将所述工单数据输入至分层聚类模型中,得到所述工单数据的聚类结果,具体包括:将所述工单数据输入至分类层,得到所述工单数据的分类结果;将所述分类结果输入至第一聚类层,得到所述工单数据的初步聚类结果;将所述初步聚类结果输入至第二聚类层,得到所述工单数据的最终聚类结果。3.根据权利要求2所述的工单数据的聚类方法,其特征在于,所述将所述初步聚类结果输入至第二聚类层,得到所述工单数据的最终聚类结果,具体包括:将所述初步聚类结果对应的工单数据输入至训练好的SimCSE子层中,获取所述工单数据的文本向量;将所述文本向量输入训练好的DEC聚类子层中,得到所述工单数据的最终聚类结果。4.根据权利要求2所述的工单数据的聚类方法,其特征在于,将所述工单数据输入至分类层之前,还包括:遍历领域字典,得到所述领域字典的关键词,并基于所述关键词建立统计规则;基于所述关键词和统计规则,得到对所述工单数据进行分类的预设规则。5.根据权利要求4所述的工单数据的聚类方法,其特征在于,所述将所述工单数据输入至分类层,得到所述工单数据的分类结果,具体包括:将所述工单数据输入至分类层,基于所述预设规则进行判断,基于所述判断结果得到所述工单数据的分类结果;若所述工单数据满足预设规则,则将所述工单数据归类为与所述预设规则对应的目标类别;若所述工单数据不满足预设规则,且不包含关键词,则将所述工单数据作为其他类别。6.根据权利要求3所述的工单数据的聚类方法,其特征在于,所述将所述分类结果输入至第一聚类层,得到所述工单数据的初步聚类结果,具体包括:将所述分类结果输入至第一聚类层,基于哈希函数将所述分类结果对应的工单数据转换为SimHash签名;获取所述SimHash签名之间的汉明距离,将所述汉明距离满足预设阈值的SimHash签名聚类为一族,得到所述工单数据的初步聚类结果。7.根据权利要求1所述的工单数据的聚类方法,其特征在于,所述SimCSE子层的训练方法包括:获取工单样本;建立待训练的SimCSE子层;
将所述工单样本输入至SimCSE子层中,基于损失函数获取所述文本向量与所述工单样本之间的第一损失值,利用所述第一损失值对SimCSE子层反复进行参数调整,直至所述第一损失值小于第一预设阈值,停止训练。8.根据权利要求7所述的工单数据的聚类方法,其特征在于,所述DEC聚类子层的训练方法包括:建立待训练的DEC聚类子层,将所述工单样本的文本向量输入至DEC聚类子层,得到所述工单样本的聚类结果;基于所述损失函...
【专利技术属性】
技术研发人员:易存道,
申请(专利权)人:北京宝兰德软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。