会话数据分类方法技术

技术编号:23932835 阅读:41 留言:0更新日期:2020-04-25 02:04
本发明专利技术公开了一种会话数据分类方法,包括以下步骤:获取训练用会话数据;对训练用会话数据进行结构化处理,以得到结构化数据;构建深度模型网络;根据结构化数据和深度模型网络建立分类模型,根据分类模型将待分类会话数据分类为已解决会话和未解决会话本发明专利技术的会话数据分类方法利用深度学习的方法,对会话数据进行分类,识别出未解决问题的会话数据,提高了效率和准确率。

Session data classification method

【技术实现步骤摘要】
会话数据分类方法
本专利技术属于会话数据分类
,尤其涉及一种会话数据分类方法。
技术介绍
对客即时对话系统,其主要功能是完成用户与客服的实时对话,回答并解决用户在线提出的问题,其中用户与客服的对话场景又分为智能机器人与人工客服,人工客服主要处理复杂业务场景及问题的解答,目前人工客服依旧是提供客服服务的主要组成部分,酒店的人工客服又分为售前与售后,目前有的平台为了提高运营效率售前很多的量都直接切给了酒店的前台,由酒店前台的工作人员担当客服的角色负责在线解决用户问题,目前酒店前台售前人工客服问题未解决率较高。现有技术尚需要人工对客服问题是否解决进行判断和分类,以获取解决率,效率低、准确度差。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中识别客服问题是否解决的手段效率低、准确率低的缺陷,提供一种会话数据分类方法。本专利技术是通过下述技术方案来解决上述技术问题:本专利技术提供一种会话数据分类方法,包括以下步骤:获取训练用会话数据;对训练用会话数据进行结构化处理,以得到结构化数据;构建深度模型网络;根据结构化数据和深度模型网络建立分类模型,根据分类模型将待分类会话数据分类为已解决会话和未解决会话。较佳地,在获取训练用会话数据的步骤之后,会话数据分类方法还包括以下步骤:对训练用会话数据进行预处理,以得到预处理的数据;则对训练用会话数据进行结构化处理,以得到结构化数据的步骤包括:对预处理的数据进行结构化处理,以得到结构化数据。较佳地,预处理包括根据时间戳和会话标识ID(身份)将会话串接。较佳地,预处理包括通过预设过滤话术筛除对象会话数据以得到预处理的数据。较佳地,会话数据分类方法还包括以下步骤:将分类结果推送至IM+(一种即时通讯平台)监控系统。较佳地,会话数据为JSON(JavaScriptObjectNotation,JS对象简谱)格式,则预处理包括:生成日跑的清洗JOB(工作)以对训练用会话数据进行清洗提取以得到预处理的数据。较佳地,预处理包括提取用户发起问题是否解决标记时间之前的会话数据作为预处理的数据。较佳地,对预处理的数据进行结构化处理的步骤包括:采用BERT(通用语义表示模型)的Tokenizer(一种分词工具)分词工具对预处理的数据进行分词处理,根据停顿词表去除停顿词及预设符号,使用Keras(一种人工神经网络库)的文本处理API(应用程序接口)将会话ID化表示,对预处理的数据中的回复时间间隔提取统计变量特征。较佳地,构建深度模型网络的步骤包括:采用NLP(NaturalLanguageProcessing,自然语言处理)预训练模型BERT作为整个网络的上游提取文本特征,使用python(一种跨平台的计算机程序设计语言)版本的Keras深度学习框架搭建eLMo+Attention(一种模型)的多输入模型,其中采用CuDNNLSTM(一种记忆网络)实现加速训练与预测,引入注意力网络和dropout(随机失活)层。较佳地,待分类会话数据包括过去7天的未标记的会话数据。本专利技术的积极进步效果在于:本专利技术的会话数据分类方法利用深度学习的方法,对会话数据进行分类,识别出未解决问题的会话数据,提高了效率和准确率。附图说明图1为本专利技术的实施例1的会话数据分类方法的流程图。图2为本专利技术的实施例2的会话数据分类方法的流程图。具体实施方式下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实施例范围之中。实施例1本实施例提供一种会话数据分类方法。参照图1,该会话数据分类方法包括以下步骤:步骤S101、获取训练用会话数据。步骤S102、对训练用会话数据进行结构化处理,以得到结构化数据。步骤S103、构建深度模型网络。步骤S104、根据结构化数据和深度模型网络建立分类模型,根据分类模型将待分类会话数据分类为已解决会话和未解决会话。本实施例的会话数据分类方法利用深度学习的方法,对会话数据进行分类,识别出未解决问题的会话数据,提高了效率和准确率。实施例2在实施例1的会话数据分类方法的基础上,本实施例提供一种会话数据分类方法。参照图2,该会话数据分类方法包括以下步骤:步骤S101、获取训练用会话数据。步骤S1011、对训练用会话数据进行预处理,以得到预处理的数据。步骤S102、对预处理的数据进行结构化处理,以得到结构化数据。步骤S103、构建深度模型网络。步骤S104、根据结构化数据和深度模型网络建立分类模型,根据分类模型将待分类会话数据分类为已解决会话和未解决会话。具体实施时,在步骤S101中,获取训练用会话数据。训练用会话数据使用JSON格式存储,每个JSON数据对象中有价值数据较少,因此在步骤S1011中,生成日跑的清洗JOB以对训练用会话数据进行清洗提取以得到第一数据。作为一种可选的实施方式,对历史所有会话清洗提取并做成日跑的清洗JOB,每日完成T+1线上数据的清洗工作,在此基础上还要对已评的数据完成历史得分清洗,标记12分的。在步骤S1011中,还根据时间戳和会话标识ID将会话串接。获取的原始IM+聊天数据(训练用会话数据)按聊天轮次存储,需要使用时间戳与聊天标识ID将会话串接,同时删除系统自定义无用消息及添加上聊天身份标识;历史已标记问题是否已解决的对话中存在部分对话内容有对问题是否已解决的描述话术,如果引入将会对模型有干扰的影响,针对该问题指定过滤话术,将存在对模型干扰的话术去除;其次用户对问题是否已解决标记存在时间点,对标记时间点之后的数据内容采取截断处理,即只取用户发起问题是否解决标记时间之前的对话内容数据。在步骤S102中,对预处理的数据进行结构化处理,以得到结构化数据。首先在上一步的基础上使用BERT的Tokenizer分词工具对会话内容分词处理,再利用停顿词表去除停顿词及无用符号,最后使用Keras的文本处理API将会话ID化表示(并且每个会话的长度处理成一致),其次对对话场景数据中客服回复时间间隔提取统计变量特征。在步骤S103中,利用谷歌开源的NLP预训练模型BERT作为整个网络的上游提取文本高阶特征,再使用python版本的Keras深度学习框架搭建在此基础上搭建eLMo+Attention的多输入模型,其中替换传统的LSTM为CuDNNLSTM实现加速训练与预测,引入注意力网络(AttentionNet)可以更加全面的捕获长文本上下文信息,网络搭建过程中引入dropout层有效的防止模型过拟合。在步骤S104中,利用上一步构建的结构化数据及深度模型网络建立分类模型,模型的输入分为文本部分与对话场景数据部分,最后根据上文描述的技术方案训练深度学习模型,模型每天预测过去7天结束未标记的对话数据,将判为问题未解决的对话本文档来自技高网...

【技术保护点】
1.一种会话数据分类方法,其特征在于,包括以下步骤:/n获取训练用会话数据;/n对所述训练用会话数据进行结构化处理,以得到结构化数据;/n构建深度模型网络;/n根据所述结构化数据和所述深度模型网络建立分类模型,根据所述分类模型将待分类会话数据分类为已解决会话和未解决会话。/n

【技术特征摘要】
1.一种会话数据分类方法,其特征在于,包括以下步骤:
获取训练用会话数据;
对所述训练用会话数据进行结构化处理,以得到结构化数据;
构建深度模型网络;
根据所述结构化数据和所述深度模型网络建立分类模型,根据所述分类模型将待分类会话数据分类为已解决会话和未解决会话。


2.如权利要求1所述的会话数据分类方法,其特征在于,在所述获取训练用会话数据的步骤之后,所述会话数据分类方法还包括以下步骤:
对所述训练用会话数据进行预处理,以得到预处理的数据;
则对所述训练用会话数据进行结构化处理,以得到结构化数据的步骤包括:
对所述预处理的数据进行结构化处理,以得到结构化数据。


3.如权利要求2所述的会话数据分类方法,其特征在于,所述预处理包括根据时间戳和会话标识ID将会话串接。


4.如权利要求2所述的会话数据分类方法,其特征在于,所述预处理包括通过预设过滤话术筛除对象会话数据以得到所述预处理的数据。


5.如权利要求1所述的会话数据分类方法,其特征在于,所述会话数据分类方法还包括以下步骤:
将分类结果推送至IM+监控系统。


6.如权利要求2所述的会话数据...

【专利技术属性】
技术研发人员:黎建辉邹亚鹏胡泓
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1