投诉文本类别的预测方法、系统、设备和存储介质技术方案

技术编号:22330189 阅读:45 留言:0更新日期:2019-10-19 12:17
本发明专利技术公开了一种OTA平台的投诉文本类别的预测方法、系统、设备和存储介质,所述预测方法包括获取OTA平台的历史投诉文本数据;对历史投诉文本数据进行聚类、标注处理获取每份历史投诉文本数据的投诉类别;获取历史维度数据和历史实体数据;建立用于预测投诉文本数据所属的投诉类别的预测模型;获取目标投诉文本数据;将目标投诉文本数据输入预测模型,获取目标投诉文本数据属于每种投诉类别的概率值;根据概率值确定目标投诉文本数据所属的目标投诉类别。本发明专利技术提升了文本分类的精度,实现自动对用户投诉内容进行归类,使得相关负责人员能在及时对自己所负责的投诉类别进行处理,在提高用户体验的同时也节省了大量的人力。

Prediction method, system, equipment and storage medium of complaint text category

【技术实现步骤摘要】
投诉文本类别的预测方法、系统、设备和存储介质
本专利技术涉及数据处理
,特别涉及一种OTA平台的投诉文本类别的预测方法、系统、设备和存储介质。
技术介绍
在OTA(OnlineTravelAgency,在线旅游)平台中,需要对投诉文本进行分类处理确定其对应的投诉类别,进而根据不同的投诉类别采取不同的解决方案进行改进来提升用户体验。目前,在文本分类场景中,大多采用RNN(循环神经网络)或者基于词嵌入的CNN(卷积神经网络)的算法。然而,基于RNN的文本分类算法虽然能有效的针对文本上下文进行建模,捕捉到上下文语义,但是后一时刻需要依赖前一时刻的计算结果,即不能实现并行处理,因此往往需要很长的训练时间。基于词嵌入的CNN的算法往往会因为OOV(未登录词)、特征稀疏而导致模型过拟合,基于CNN的文本分类算法虽然能解决不能并行的问题,但是基于CNN的文本分类算法只能识别局部的文本信息,因此在精度方面会受到一定的影响。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中对投诉文本进行分类处理的算法存在不能并行处理,训练时间较长或精度不满足要求的缺陷,提供一种OTA平台的投诉文本类别的预测方法、系统、设备和存储介质。本专利技术是通过下述技术方案来解决上述技术问题:本专利技术提供一种OTA平台的投诉文本类别的预测方法,所述预测方法包括:获取OTA平台在历史设定时间段内对应的历史投诉文本数据;对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别;获取所述OTA平台中与所述历史投诉文本数据对应的历史维度数据和历史实体数据;其中,所述历史维度数据为用于表征用户、订单和/或酒店的多维度数据;所述历史实体数据为用于表征酒店领域的专有名词的数据;以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型;获取目标投诉文本数据;将所述目标投诉文本数据输入所述预测模型,获取所述目标投诉文本数据属于每种投诉类别的概率值;根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别。较佳地,所述获取OTA平台在历史设定时间段内对应的历史投诉文本数据的步骤之后、对所述历史投诉文本数据进行标注处理的步骤之前还包括:采用聚类算法对所述历史投诉文本数据进行聚类处理;所述对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别的步骤包括:将属于同一聚类结果的所述历史投诉文本数据标注为同一所述投诉类别。较佳地,所述以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型的步骤之前还包括:对标注处理后的所述历史投诉文本数据进行预处理。较佳地,所述根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别的步骤包括:确定所述概率值最大时对应的投诉类别为所述目标投诉文本数据所属的所述目标投诉类别。较佳地,所述获取OTA平台在历史设定时间段内对应的历史投诉文本数据的步骤之前还包括:采用BERT(一种自然语言处理算法)算法对所述历史投诉文本数据进行预训练获取语言模型;所述以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型的步骤包括:采用BERT算法以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,基于所述语言模型,训练时通过随机掩盖部分所述实体数据的方式来建立用于预测投诉文本数据所属的投诉类别的所述预测模型。本专利技术还提供一种OTA平台的投诉文本类别的预测系统,所述预测系统包括历史文本数据获取模块、标注处理模块、维度和实体数据获取模块、测模型建立模块、目标文本数据获取模块、概率值获取模块和目标投诉类别获取模块;所述历史文本数据获取模块用于获取OTA平台在历史设定时间段内对应的历史投诉文本数据;所述标注处理模块用于对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别;所述维度和实体数据获取模块用于获取所述OTA平台中与所述历史投诉文本数据对应的历史维度数据和历史实体数据;其中,所述历史维度数据为用于表征用户、订单和/或酒店的多维度数据;所述历史实体数据为用于表征酒店领域的专有名词的数据;所述预测模型建立模块用于以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型;所述目标文本数据获取模块用于获取目标投诉文本数据;所述概率值获取模块用于将所述目标投诉文本数据输入所述预测模型,获取所述目标投诉文本数据属于每种投诉类别的概率值;所述目标投诉类别获取模块用于根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别。较佳地,所述预测系统还包括聚类模块;所述聚类模块用于采用聚类算法对所述历史投诉文本数据进行聚类处理;所述标注处理模块用于将属于同一聚类结果的所述历史投诉文本数据标注为同一所述投诉类别。较佳地,所述预测系统还包括预处理模块;所述预处理模块用于对标注处理后的所述历史投诉文本数据进行预处理。较佳地,所述目标投诉类别获取模块用于确定所述概率值最大时对应的投诉类别为所述目标投诉文本数据所属的所述目标投诉类别。较佳地,所述预测系统还包括语言模型获取模块;所述语言模型获取模块用于采用BERT算法对所述历史投诉文本数据进行预训练获取语言模型;所述预测模型建立模块用于采用BERT算法以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,基于所述语言模型,训练时通过随机掩盖部分所述实体数据的方式来建立用于预测投诉文本数据所属的投诉类别的所述预测模型。本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行计算机程序时实现上述的OTA平台的投诉文本类别的预测方法。本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的OTA平台的投诉文本类别的预测方法的步骤。本专利技术的积极进步效果在于:本专利技术中,通过预训练获取语言模型,然后采用改进的BERT算法以历史投诉文本数据、历史维度数据和历史实体数据作为输入,以历史投诉类别作为输出,基于该语言模型建立预测模型;采用预测模型获取目标投诉文本数据属于每种投诉类别的概率值,并选择概率值最高的投诉类别作为目标投诉文本数据所属的目标投诉类别,提高了预测模型的精度,提升了文本分类的准确度,实现自动对用户投诉内容进行归类,使得相关负责人员能在第一时间对自己所负责的投诉类别进行处理,在提高用户体验的同时也节省了大量的人力,从而提高整体工作效率。附图说明图1为本专利技术实施例1的OTA平台的投诉文本类别的预测方法的流程图。图2为本专利技术实施例2的OTA平台的投诉文本类别的预测方法的流程图。图3为本本文档来自技高网...

【技术保护点】
1.一种OTA平台的投诉文本类别的预测方法,其特征在于,所述预测方法包括:获取OTA平台在历史设定时间段内对应的历史投诉文本数据;对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别;获取所述OTA平台中与所述历史投诉文本数据对应的历史维度数据和历史实体数据;其中,所述历史维度数据为用于表征用户、订单和/或酒店的多维度数据;所述历史实体数据为用于表征酒店领域的专有名词的数据;以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型;获取目标投诉文本数据;将所述目标投诉文本数据输入所述预测模型,获取所述目标投诉文本数据属于每种投诉类别的概率值;根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别。

【技术特征摘要】
1.一种OTA平台的投诉文本类别的预测方法,其特征在于,所述预测方法包括:获取OTA平台在历史设定时间段内对应的历史投诉文本数据;对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别;获取所述OTA平台中与所述历史投诉文本数据对应的历史维度数据和历史实体数据;其中,所述历史维度数据为用于表征用户、订单和/或酒店的多维度数据;所述历史实体数据为用于表征酒店领域的专有名词的数据;以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型;获取目标投诉文本数据;将所述目标投诉文本数据输入所述预测模型,获取所述目标投诉文本数据属于每种投诉类别的概率值;根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别。2.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述获取OTA平台在历史设定时间段内对应的历史投诉文本数据的步骤之后、对所述历史投诉文本数据进行标注处理的步骤之前还包括:采用聚类算法对所述历史投诉文本数据进行聚类处理;所述对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别的步骤包括:将属于同一聚类结果的所述历史投诉文本数据标注为同一所述投诉类别。3.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型的步骤之前还包括:对标注处理后的所述历史投诉文本数据进行预处理。4.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别的步骤包括:确定所述概率值最大时对应的投诉类别为所述目标投诉文本数据所属的所述目标投诉类别。5.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述获取OTA平台在历史设定时间段内对应的历史投诉文本数据的步骤之前还包括:采用BERT算法对所述历史投诉文本数据进行预训练获取语言模型;所述以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型的步骤包括:采用BERT算法以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,基于所述语言模型,训练时通过随机掩盖部分所述实体数据的方式来建立用于预测投诉文本数据所属的投诉类别的所述预测模型。6.一种OTA平台的投诉文本类别的预测系统,其特征在于,所述预测系统包括历史文...

【专利技术属性】
技术研发人员:杨森罗超胡泓
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1