【技术实现步骤摘要】
客服机器人知识库歧义检测方法、装置及相关设备
[0001]本申请要求于2018年07月19日提交中国专利局、申请号为201810801678.8、专利技术名称为“客服机器人知识库歧义检测方法”的中国专利申请的分案申请。
[0002]本申请涉及人工智能
,尤其是一种客服机器人知识库歧义检测方法、装置及相关设备。
技术介绍
[0003]随着互联网用户的增加,企业的客服部门服务压力不断增大。由于大多数用户遇到的问题都是重复出现的,这些重复的问题往往可以用固定模板进行回答。为了减少客服中心的人工成本,可引入机器人客服,用程序判断用户的问题类型,如果问题属于FAQ(Frequently Asked Questions,经常问到的问题),则直接给出一个标准答案,反之则转接人工服务进行特殊干预。
[0004]相关技术中,客服机器人利用机器学习技术识别用户意图,将意图识别转化成问句分类问题。每个FAQ对应一个类别,每个类别有一句以上的相似问句。所有FAQ和对应的相似问句构成了机器人的知识库。
[0005]机器学 ...
【技术保护点】
【技术特征摘要】
1.一种客服机器人知识库歧义检测方法,其特征在于,包括:构建知识库,所述知识库按FAQ划分,每个FAQ设有至少一个相似问句,且每个FAQ为一个类别;将所述知识库划分为深度学习模型的测试集和训练集;在训练集上训练深度学习模型,并利用学习出的所述深度学习模型进行歧义检测;所述歧义检测包括:类别歧义检测、标注错误检测和标注歧义检测,所述利用学习出的所述深度学习模型进行歧义检测,包括:利用深度学习模型中浅层分类器检测歧义,包括:将深度学习模型分类结果进行统计并形成混淆矩阵,所述混淆矩阵的每行i对应标注的类别,每列j对应所述深度学习模型预测的类别,元素x
ij
是标注为类别i,而模型预测为类别j的问句个数,元素x
ji
是标注为类别j,而模型预测为类别i的问句个数;计算数据集中标注为类别i的样本个数,所述类别i的样本个数为其中k为任意类别;计算数据集中标注为类别j的样本个数,所述类别j的样本个数为其中k为任意类别;计算数据集中将标注为类别i的样本被所述深度学习模型预测为类别j的比例P
ij
与将标注为类别j的样本预测到类别i的比例P
ji
,所述P
ij
和P
ji
计算公式分别为:所述类别i与所述类别j属于不同类别,所述数据集包括训练集或/和测试集;计算类别对(类别i、类别j)的混淆度,所述混淆度为P
ij
和P
ji
的调和平均值S
ij
,所述根据混淆度判断类别i与类别j是否存在歧义;根据歧义检测结果更新所述知识库;重复上述步骤直到学习效果不再提升,得到消除歧义的知识库。2.根据权利要求1所述的方法,其特征在于,所述将所述知识库划分为深度学习模型的测试集和训练集,包括:随机抽取每个FAQ对应的预设数量的相似问句作FAQ对应类别的测试数据,其余相似问句作为所述FAQ对应类别的训练数据;所有类别的测试数据构成测试集,所有类别的训练数据构成训练集。3.根据权利要求1所述的方法,其特征在于,所述深度学习模型包括:特征提取器、浅层分类器,所述在训练集上训练深度学习模型,包括:将所述训练集中的问句作为输入部分输入到所述深度学习模型;利用所述深度学习模型中的特征提取器将输入部分中的问句转化成特征向量;利用所述深度学习模型中的浅层分类器根据所述特征向量计算出预测结果,所述预测结果为输入部分中的问句所对应的类别;利用优化器优化训练模型,将训练集中问句标注的实际类别和所述深度学习模型预测
结果的平均差异最小化;用测试集对训练完的模型进行评估,计算模型预测结果和测试集中问句标注的实际类别的一致率,作为模型学习效果的评估。4.根据权利要求1所述的方法,其特征在于,所述根据混淆度判断类别i、类别j是否存在歧义,包括:对计算出的混淆度进行排序;提取...
【专利技术属性】
技术研发人员:潘晟锋,刘云峰,吴悦,胡晓,汶林丁,
申请(专利权)人:深圳追一科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。