面向银行客户投诉标签分类的小样本数据增强方法和系统技术方案

技术编号:37461725 阅读:46 留言:0更新日期:2023-05-06 09:34
本发明专利技术提供了一种面向银行客户投诉标签分类的小样本数据增强方法和系统,包括:步骤1:建立投诉文本标签体系,对投诉样本进行增强;步骤2:通过深度神经网络模型,进行标签分类和文本样本数据分组;步骤3:对误分类别概率高于预设阈值的投诉文本特征添加噪声;步骤4:利用反向翻译技术对错误分类的投诉样本进行数据增强;步骤5:在样本增强后进行自动校验和辅助校验。本发明专利技术利用包含多样化信息的投诉标签文本对原样本的某些词进行替换生成新的可理解的样本,新的小类样本融入了大类标签的特征,保持了核心语义不变,提高了样本生成的质量。量。量。

【技术实现步骤摘要】
面向银行客户投诉标签分类的小样本数据增强方法和系统


[0001]本专利技术涉及数据处理
,具体地,涉及一种面向银行客户投诉标签分类的小样本数据增强方法和系统。

技术介绍

[0002]在银行消保工作和产品服务管理中,客户投诉管理占据着重要的地位。近年来,随着人行和银保监会等提出的监管要求越来越严格,同时银行业务和产品日益多元化,从而引起客户的投诉问题的复杂程度日益增加。对客户投诉的高效处理,可以有效提升银行服务水平、增加客户关系并激发产品创新能力,反之容易引发银行的舆情风险,导致客户流失。
[0003]在银行投诉管理体系中,通常通过构建多维度的标准投诉文本标签体系,并借助人工智能自动分类技术手段,减轻客服人员分类和处置分流的工作量,提升工作效率及质量。基于深度神经网络的分类器在投诉标签文本数据训练样本充足的前提下,可以达到较高的准确度。然而在实际业务场景中,银行业务渠道和产品类目繁多,通过真实投诉渠道获取某些特定投诉标签的文本数据量非常有限,导致标签体系中相当比例的标签类别样本量不足,带来样本不平衡的问题,对小样本的标签分类精度有限本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向银行客户投诉标签分类的小样本数据增强方法,其特征在于,包括:步骤1:建立投诉文本标签体系,对投诉样本进行增强;步骤2:通过深度神经网络模型,进行标签分类和文本样本数据分组;步骤3:对误分类别概率高于预设阈值的投诉文本特征添加噪声;步骤4:利用反向翻译技术对错误分类的投诉样本进行数据增强;步骤5:在样本增强后进行自动校验和辅助校验。2.根据权利要求1所述的面向银行客户投诉标签分类的小样本数据增强方法,其特征在于,根据投诉文本标签体系,统计训练数据中每个投诉类别的样本量,将样本数量小于阈值的类别归为小类,将样本量最多的5个类归为大类,其余样本不做处理;对小类投诉分词,基于TF

IDF技术选取每条投诉内容最重要的N个词,基于与类标签的Word2vec距离排序再选取最重要的N个词,固定这2N个词为关键词不变,随机选取其他的词用来自大类投诉样本的内容进行替换;替换规则为:小类投诉分词后的词数量为M,随机选取a
×
M数量的非关键词作为被替换词;对大类投诉分词,计算大类分词与小类被替换词的Word2vec距离,选取距离最近的大类分词替换小类被替换词,生成标记为小类的新投诉,其中数量M、N和系数a根据实际效果动态调整,a<0.5。3.根据权利要求1所述的面向银行客户投诉标签分类的小样本数据增强方法,其特征在于,构建深度神经网络模型和数据集,获取投诉文本数据集,并划分为训练集、验证集和测试集;通过训练集训练深度神经网络模型,通过验证集评估深度神经网络模型寻找最佳参数,利用训练后的深度神经网络模型,对投诉文本测试集进行标签分类,将分类结果与真实值进行比较,得到混淆矩阵,其中,混淆矩阵的每一列代表预测类别,混淆矩阵的每一行代表数据的真实归属类别,通过混淆矩阵分别统计分类模型归错类、归对类的观测值个数,依据混淆矩阵将分类错误的投诉按真实值和预测值分组抽取,并依据真实值

预测值

投诉内容的形式组织成文本文件。4.根据权利要求3所述的面向银行客户投诉标签分类的小样本数据增强方法,其特征在于,根据测试集上分类结果的分析,若投诉标签真实值为I类被错误分类成II类样本数量高于预设阈值,则对训练集中标签为I类且分类正确的投诉样本添加来自真实标签II类样本的噪声,使用深度神经网络作为文本分类模型在添加噪声后的训练集上训练,加强深度神经网络文本分类模型应对II类噪声的能力;对I类标签正确分类的投诉分词,基于TF

IDF技术选取每条投诉内容最重要的N个词,基于与类标签的Word2vec距离排序再选取最重要的N个词,固定这2N个词为关键词不变,随机选取其他的词用来自真实标签II类投诉样本的内容进行替换;替换规则为:I类投诉分词后的词数量为M,随机选取a
×
M数量的非关键词作为被替换词;对真实的II类标签投诉文本分词,计算II类分词与I类被替换词的Word2vec距离,选取距离最近的II类分词替换I类被替换词,生成标记为I类的新投诉样本,其中数量M、N和系数a根据实际效果动态调整,为避免对正确分类样本增加过多噪声影响后续分类效果,a取值小于0.3。5.根据权利要求3所述的面向银行客户投诉标签分类的小样本数据增强方法,其特征在于,对类别错分的投诉样本翻译成其他语言后再进行反向翻译,以此生成多条增强投诉
样本;通过置信学习得到增强样本的置信排序,对置信排序高于阈值的增强样本进行深度神经网络模型训练,对置信排序低于阈值的增强样本由客服人员人工辅助确定是否进行深度神经网络模型训练。6.一种面向...

【专利技术属性】
技术研发人员:陈飞王敏陈升何平
申请(专利权)人:兴业数字金融服务上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1