【技术实现步骤摘要】
用于分级体系和混合数据类型的业务记录分类方法
[0001]本专利技术属于自然语言处理方法,尤其涉及一种数据分析、结构和非结构化语义信息表示学习、文本分类方法。
技术介绍
[0002]面向将混合数据类型(包括结构化数据和非结构化数据等)构成的业务记录按照公司业务体系进行自动层次化打标签的应用场景,属于自然语言处理(NLP)领域中的文本分类问题。文本分类又称文本归档,其目的是将预定义标签分配给文本单元,如句子、查询、段落和文档。在很多NLP应用,例如情感分析、主题识别、问答和对话行为分类中,文本分类是一项必需且重要的任务。在当今信息爆炸的时代,人工处理和分类文本数据既费时又有挑战性。另外,人工文本分类的准确性容易受到人为因素,例如身心疲劳和专业知识的影响。因此,人们期望使用机器学习方法使文本分类过程自动化以产生更可靠且减少主观性的结果。此外,这还可以通过定位所需信息来帮助提高信息检索效率并减轻信息过载问题。在上述的应用场景中,客户投诉分类的自动化就有利于在实现降低人工成本的同时,提高投诉业务处理质量和用户体验和满意度的总体目标。 ...
【技术保护点】
【技术特征摘要】
1.一种用于分级体系和混合数据类型的业务记录分类方法,其特征在于:面向的是将由混合类型构成的业务记录数据按照公司的分级业务体系进行自动层次化打标签的应用场景;数据是来自电信公司真实业务活动的由人工填写和标注的对客户投诉事件的业务记录,对于每一条数据样本,输入数据为中描述该次客户投诉事件的混合数据类型的各个字段,输入数据字段包括非结构化数据类型字段和结构化数据类型字段,输出数据为该次客户投诉事件对应于公司分级业务体系中的多层级投诉原因类别标签,表现为多级逐级细分的结构;使用包括编码器模块和解码器模块的端到端框架进行训练和预测,所述编码器模块使用嵌入层将输入数据中的原始字段转化成向量表示后,使用卷积神经网络和循环神经网络分别对不同数据类型字段的向量表示进行特征抽取并使用前馈神经网络进行特征融合,所述解码器模块是由多个多层感知机分类器组成的多级分类器链结构,接收编码器模块的融合结果并预测输出数据中的各层级类别标签。2.根据权利要求1所述的的业务记录分类方法,其特征在于:具体步骤如下:步骤一、对上述数据进行清洗和预处理后,随机选择80%和10%的数据分别作为训练神经网络模型的训练集和验证集,选择剩余10%的数据作为用于评估模型性能的测试集;步骤二:利用编码器模块对数据进行特征抽取,以获取多个向量形式的嵌入表示;1)对非结构化数据类型字段即文本字段使用分词工具分词后,经过词嵌入层获取词语的嵌入表示,使用卷积神经网络捕捉长段文本中的局部特征,获取文本字段的编码表示;2)将结构化数据类型字段视作离散的标签并转换成数字编码,并使用类似词嵌入层的数字编码嵌入层,将数字编码映射为连续向量的嵌入表示;使用循环神经网络捕捉结构化数据类型字段的特征,获取包含所有结构化数据类型字段信息的编码表示;3)对步骤1)中由卷积神经网络和步骤2)中由循环神经网络分别获取的不同输入字段的编码表示使用向量串联的方式连接后输入到前馈神经网络中加以融合得到编码器模块的输出结果;步骤三:将步骤二中编码器模块的输出结果放入解码器模块中逐级生成多级投诉原因类别标签;将所有层级的类别标签连接即得到解码器模块对投诉类别标签的预测结果。3.根据权利要求2所述的业务记录分类方法,其特征在于,步骤一中,首先使用统计分析方法对原始数据形态进行评估,包括各结构化数据字段的标签类别样本分布特点,并基于统计分析结果对数据进行样本重采样、数据清洗、数据增强的预处理过程。4.根据权利要求2所述的业务记录分类方法,其特征在于,步骤二中,所述步骤1)的过程是:文本字段的分词和词向量化:使用结巴(jieba)分词工具对文本字段进行分词,将分词后的词映射为低维空间中稠密连续向量的嵌入表示,所获取到的词向量通过相似度计算表征两词之间的语义相关性,选取网络上开源的词向量资源初始化嵌入层参数,其中,选取腾讯人工智能实验室发布的中文词向量,对于文本型输入序列中的词i,经过嵌入层可以得到其k维的低维词嵌入将文本形式的输入数据字段看作由单词构成的序列,则一个包含n个单词的序列表示为:
式(1)中,x
i
表示序列中的第i个单词对应的词向量,表示向量串联操作;文本字段的特征抽取:所述的卷积神经网络为文本卷积神经网络TextCNN,输入数据字段包括投诉描述和投诉处理意见;分别使用两个独立的文本卷积神经网络TextCNN对投诉描述和投诉处理意见这两个文本形式的输入数据字段的嵌入表示进行特征抽取,得到这两个输入数据字段的特征编码表示;在文本卷积神经网络TextCNN中,使用窗口尺寸为h的卷积核对输入序列进行滑动窗口卷积操作获取窗口内的局部特征,其中第i维特征表示为c
i
:c
i
=f(w
·
x
i:i+h
‑1+b)
ꢀꢀꢀꢀ
(2)...
【专利技术属性】
技术研发人员:屠昊韡,蒋沁学,陈根华,马国荣,王炜,陈薇洁,
申请(专利权)人:屠昊韡,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。