对话文本分类模型的训练及分类方法、系统、设备、介质技术方案

技术编号：33353283 阅读：46 留言：0更新日期：2022-05-08 10:03

本发明专利技术提供了一种对话文本分类模型的训练及分类方法、系统、设备、介质，所述方法包括步骤：获取预训练语料；依据所述预训练语料，获取预设指令触发时的时间信息；依据所述时间信息，确定每一条所述预训练语料对应的样本长度；依据所述样本长度和所述时间信息，自每一条所述预训练语料中分别提取训练子样本；以及依据所述训练子样本，构建训练样本，并依据所述训练样本训练预设文本分类模型；本申请解决了现有技术中对话文本分类模型训练时存在噪声干扰的问题，利于提升模型训练后的鲁棒性。利于提升模型训练后的鲁棒性。利于提升模型训练后的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
对话文本分类模型的训练及分类方法、系统、设备、介质

[0001]本专利技术涉及对话文本分类
，具体地说，涉及一种对话文本分类模型的训练及分类方法、系统、设备、介质。

技术介绍

[0002]现有技术中，客服在应答客户的来电时，通常需要在明白客户来电意图后，比如是投诉酒店卫生或隔音，或者取消酒店客房订单，在企业系统中点击对应的客户诉求类目，比如通过点击“创建事件”等指令触发，然后系统向客服展示对应的应答话术等信息，帮助客服提高来电应答效率。
[0003]但是上述全流程需要客服手动触发指令才能展示相应的话术，而客服触发指令可能产生延迟，导致对应答效率产生不利影响。所以本申请利用对话文本分类模型对通话音频转换生成的文本直接分类，确定对应的客户诉求类目，然后展示对应的话术。但是现有技术中，用于训练上述对话文本分类模型的训练文本，由于存在不同程度的冗余，所以不利于保证模型的鲁棒性。
[0004]具体来说，即训练文本是由客服的历史应答数据构建的，诉求分类指令触发的时机因人而异，不同的客服操作习惯往往不同：有的客服在对话能判断出诉求类型时立即点击按钮，有的客服偏向于在对话结束后再点击，因此训练模型的对话文本内容，往往存在不同程度的冗余，这种冗余对于模型的判断构成噪声干扰。但如果直接依据诉求对应的关键信息所在的消息id截取当前句及上文，作为样本。这种样本的构造方式会影响模型训练效果，准确性得不到保证。

技术实现思路

[0005]针对现有技术中的问题，本专利技术的目的在于提供一种对话文本分类模型的训...

【技术保护点】

【技术特征摘要】
1.一种对话文本分类模型的训练方法，其特征在于，包括以下步骤：S110，获取预训练语料；S120，依据所述预训练语料，获取预设指令触发时的时间信息；S130，依据所述时间信息，确定每一条所述预训练语料对应的样本长度；S140，依据所述样本长度和所述时间信息，自每一条所述预训练语料中分别提取训练子样本；以及S150，依据所述训练子样本，构建训练样本，并依据所述训练样本训练预设文本分类模型。2.如权利要求1所述的对话文本分类模型的训练方法，其特征在于，步骤S150包括：识别出所述训练样本中的实体；确定所述实体对应的实体类型，并将所述训练样本中的所述实体替换为对应的实体类型；基于替换后的训练样本，训练预设文本分类模型。3.如权利要求1所述的对话文本分类模型的训练方法，其特征在于，步骤S120包括：依据所述预训练语料，获取预设指令触发时的进程比信息；所述进程比信息为创单时间与电话通话时长的比值；所述创单时间为从电话接通到预设指令触发时的耗时；步骤S130包括：当所述进程比信息大于等于第一预设阈值时，所述样本长度为该条所述预训练语料的长度；当所述进程比信息小于第一预设阈值时，所述样本长度为所述特征信息所在的消息ID。4.如权利要求3所述的对话文本分类模型的训练方法，其特征在于，步骤S130包括：当所述进程比信息小于第一预设阈值且所述创单时间小于第二预设阈值时，所述样本长度为所述特征信息所在的消息ID；当所述进程比信息小于第一预设阈值且所述创单时间大于等于第二预设阈值时，所述样本长度为所述特征信息所在的消息ID与第一随机数的和。5.如权利要求4所述的对话文本分类模型的训练方法，其特征在于，步骤S130包括：将满足预设条件的预训练语料划分为第一部分和第二部分；所述预设条件为：所述进程比信息小于第一预设阈值且所述创单时间小于第二预设阈值；所述第一部分的预训练语料对应的样本长度为所述特征信息所在的消息ID；所述第二部分的预训练语料对应的样本长度为所述特征信息所在的消息ID与第二随机数的和；所述第一随机数大于所述第二随机数。6.如权利要求1所述的对话文本分类模型的训练方法，其特征在于，...

【专利技术属性】
技术研发人员：邓艳江，罗超，邹宇，
申请(专利权)人：携程旅游信息技术上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人