【技术实现步骤摘要】
投诉文本类别的预测方法、系统、设备和存储介质
本专利技术涉及数据处理
,特别涉及一种OTA平台的投诉文本类别的预测方法、系统、设备和存储介质。
技术介绍
在OTA(OnlineTravelAgency,在线旅游)平台中,需要对投诉文本进行分类处理确定其对应的投诉类别,进而根据不同的投诉类别采取不同的解决方案进行改进来提升用户体验。目前,在文本分类场景中,大多采用RNN(循环神经网络)或者基于词嵌入的CNN(卷积神经网络)的算法。然而,基于RNN的文本分类算法虽然能有效的针对文本上下文进行建模,捕捉到上下文语义,但是后一时刻需要依赖前一时刻的计算结果,即不能实现并行处理,因此往往需要很长的训练时间。基于词嵌入的CNN的算法往往会因为OOV(未登录词)、特征稀疏而导致模型过拟合,基于CNN的文本分类算法虽然能解决不能并行的问题,但是基于CNN的文本分类算法只能识别局部的文本信息,因此在精度方面会受到一定的影响。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中对投诉文本进行分类处理的算法存在不能并行处理,训练时间较长或精度不满足要求的缺陷,提供一种OTA平台的投诉文本类别的预测方法、系统、设备和存储介质。本专利技术是通过下述技术方案来解决上述技术问题:本专利技术提供一种OTA平台的投诉文本类别的预测方法,所述预测方法包括:获取OTA平台在历史设定时间段内对应的历史投诉文本数据;对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别;获取所述OTA平台中与所述历史投诉文本数据对应的历史维度数据和历史实体数据;其中,所述历史维 ...
【技术保护点】
1.一种OTA平台的投诉文本类别的预测方法,其特征在于,所述预测方法包括:获取OTA平台在历史设定时间段内对应的历史投诉文本数据;对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别;获取所述OTA平台中与所述历史投诉文本数据对应的历史维度数据和历史实体数据;其中,所述历史维度数据为用于表征用户、订单和/或酒店的多维度数据;所述历史实体数据为用于表征酒店领域的专有名词的数据;以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型;获取目标投诉文本数据;将所述目标投诉文本数据输入所述预测模型,获取所述目标投诉文本数据属于每种投诉类别的概率值;根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别。
【技术特征摘要】
1.一种OTA平台的投诉文本类别的预测方法,其特征在于,所述预测方法包括:获取OTA平台在历史设定时间段内对应的历史投诉文本数据;对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别;获取所述OTA平台中与所述历史投诉文本数据对应的历史维度数据和历史实体数据;其中,所述历史维度数据为用于表征用户、订单和/或酒店的多维度数据;所述历史实体数据为用于表征酒店领域的专有名词的数据;以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型;获取目标投诉文本数据;将所述目标投诉文本数据输入所述预测模型,获取所述目标投诉文本数据属于每种投诉类别的概率值;根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别。2.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述获取OTA平台在历史设定时间段内对应的历史投诉文本数据的步骤之后、对所述历史投诉文本数据进行标注处理的步骤之前还包括:采用聚类算法对所述历史投诉文本数据进行聚类处理;所述对所述历史投诉文本数据进行标注处理,获取每份所述历史投诉文本数据对应的投诉类别的步骤包括:将属于同一聚类结果的所述历史投诉文本数据标注为同一所述投诉类别。3.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型的步骤之前还包括:对标注处理后的所述历史投诉文本数据进行预处理。4.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述根据所述概率值确定所述目标投诉文本数据所属的目标投诉类别的步骤包括:确定所述概率值最大时对应的投诉类别为所述目标投诉文本数据所属的所述目标投诉类别。5.如权利要求1所述的OTA平台的投诉文本类别的预测方法,其特征在于,所述获取OTA平台在历史设定时间段内对应的历史投诉文本数据的步骤之前还包括:采用BERT算法对所述历史投诉文本数据进行预训练获取语言模型;所述以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,建立用于预测投诉文本数据所属的投诉类别的预测模型的步骤包括:采用BERT算法以所述历史投诉文本数据、所述历史维度数据和所述历史实体数据作为输入,以所述历史投诉文本数据对应的所述历史投诉类别作为输出,基于所述语言模型,训练时通过随机掩盖部分所述实体数据的方式来建立用于预测投诉文本数据所属的投诉类别的所述预测模型。6.一种OTA平台的投诉文本类别的预测系统,其特征在于,所述预测系统包括历史文...
【专利技术属性】
技术研发人员:杨森,罗超,胡泓,
申请(专利权)人:携程计算机技术上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。