对话文本分类模型的训练及分类方法、系统、设备、介质技术方案

技术编号:33353283 阅读:46 留言:0更新日期:2022-05-08 10:03
本发明专利技术提供了一种对话文本分类模型的训练及分类方法、系统、设备、介质,所述方法包括步骤:获取预训练语料;依据所述预训练语料,获取预设指令触发时的时间信息;依据所述时间信息,确定每一条所述预训练语料对应的样本长度;依据所述样本长度和所述时间信息,自每一条所述预训练语料中分别提取训练子样本;以及依据所述训练子样本,构建训练样本,并依据所述训练样本训练预设文本分类模型;本申请解决了现有技术中对话文本分类模型训练时存在噪声干扰的问题,利于提升模型训练后的鲁棒性。利于提升模型训练后的鲁棒性。利于提升模型训练后的鲁棒性。

【技术实现步骤摘要】
对话文本分类模型的训练及分类方法、系统、设备、介质


[0001]本专利技术涉及对话文本分类
,具体地说,涉及一种对话文本分类模型的训练及分类方法、系统、设备、介质。

技术介绍

[0002]现有技术中,客服在应答客户的来电时,通常需要在明白客户来电意图后,比如是投诉酒店卫生或隔音,或者取消酒店客房订单,在企业系统中点击对应的客户诉求类目,比如通过点击“创建事件”等指令触发,然后系统向客服展示对应的应答话术等信息,帮助客服提高来电应答效率。
[0003]但是上述全流程需要客服手动触发指令才能展示相应的话术,而客服触发指令可能产生延迟,导致对应答效率产生不利影响。所以本申请利用对话文本分类模型对通话音频转换生成的文本直接分类,确定对应的客户诉求类目,然后展示对应的话术。但是现有技术中,用于训练上述对话文本分类模型的训练文本,由于存在不同程度的冗余,所以不利于保证模型的鲁棒性。
[0004]具体来说,即训练文本是由客服的历史应答数据构建的,诉求分类指令触发的时机因人而异,不同的客服操作习惯往往不同:有的客服在对话能判断出诉求类型时立即点击按钮,有的客服偏向于在对话结束后再点击,因此训练模型的对话文本内容,往往存在不同程度的冗余,这种冗余对于模型的判断构成噪声干扰。但如果直接依据诉求对应的关键信息所在的消息id截取当前句及上文,作为样本。这种样本的构造方式会影响模型训练效果,准确性得不到保证。

技术实现思路

[0005]针对现有技术中的问题,本专利技术的目的在于提供一种对话文本分类模型的训练及分类方法、系统、设备、介质,解决现有技术中对话文本分类模型训练时存在噪声干扰的问题。
[0006]为实现上述目的,本专利技术提供了一种对话文本分类模型的训练方法,所述方法包括以下步骤:
[0007]S110,获取预训练语料;
[0008]S120,依据所述预训练语料,获取预设指令触发时的时间信息;
[0009]S130,依据所述时间信息,确定每一条所述预训练语料对应的样本长度;
[0010]S140,依据所述样本长度和所述时间信息,自每一条所述预训练语料中分别提取训练子样本;以及
[0011]S150,依据所述训练子样本,构建训练样本,并依据所述训练样本训练预设文本分类模型。
[0012]可选地,步骤S150包括:
[0013]识别出所述训练样本中的实体;
[0014]确定所述实体对应的实体类型,并将所述训练样本中的所述实体替换为对应的实体类型;
[0015]基于替换后的训练样本,训练预设文本分类模型。
[0016]可选地,步骤S120包括:
[0017]依据所述预训练语料,获取预设指令触发时的进程比信息;所述进程比信息为创单时间与电话通话时长的比值;所述创单时间为从电话接通到预设指令触发时的耗时;
[0018]步骤S130包括:
[0019]当所述进程比信息大于等于第一预设阈值时,所述样本长度为该条所述预训练语料的长度;
[0020]当所述进程比信息小于第一预设阈值时,所述样本长度为所述特征信息所在的消息ID。
[0021]可选地,步骤S130包括:
[0022]当所述进程比信息小于第一预设阈值且所述创单时间小于第二预设阈值时,所述样本长度为所述特征信息所在的消息ID;
[0023]当所述进程比信息小于第一预设阈值且所述创单时间大于等于第二预设阈值时,所述样本长度为所述特征信息所在的消息ID与第一随机数的和。
[0024]可选地,步骤S130包括:
[0025]将满足预设条件的预训练语料划分为第一部分和第二部分;所述预设条件为:所述进程比信息小于第一预设阈值且所述创单时间小于第二预设阈值;
[0026]所述第一部分的预训练语料对应的样本长度为所述特征信息所在的消息ID;
[0027]所述第二部分的预训练语料对应的样本长度为所述特征信息所在的消息ID与第二随机数的和;所述第一随机数大于所述第二随机数。
[0028]可选地,步骤S140包括:
[0029]对每一条所述预训练语料分别进行VAD断句,获得每一条所述预训练语料包含的多个文本片段;
[0030]将每一条所述预训练语料中前N个文本片段对应的语料,作为训练子样本;N等于样本长度。
[0031]可选地,步骤S140包括:
[0032]对每一条所述预训练语料分别进行VAD断句,获得每一条所述预训练语料包含的多个文本片段;
[0033]将每一条所述预训练语料自第M个文本片段进行截断,并从第M+1个文本片段至最后一个文本片段中随机选取第一随机数的文本片段,利用前M个文本片段以及第一随机数的文本片段,构建训练子样本;M等于特征信息所在的消息ID。
[0034]可选地,步骤S130包括:
[0035]将满足所述预设条件的预训练语料平分为所述第一部分和所述第二部分。
[0036]本专利技术还提供了一种对话文本分类方法,应用预设文本分类模型对通话音频对应的文本进行分类,所述预设文本分类模型采用上述任意一项对话文本分类模型的训练方法进行训练。
[0037]本专利技术还提供了一种对话文本分类模型的训练系统,用于实现上述对话文本分类
模型的训练方法,所述系统包括:
[0038]预训练语料获取模块,获取预训练语料;
[0039]时间信息获取模块,依据所述预训练语料,获取预设指令触发时的时间信息;
[0040]样本长度确定模块,依据所述时间信息,确定每一条所述预训练语料对应的样本长度;
[0041]训练子样本提取模块,依据所述样本长度和所述时间信息,自每一条所述预训练语料中分别提取训练子样本;以及
[0042]训练样本生成及训练模块,依据所述训练子样本,构建训练样本,并依据所述训练样本训练预设文本分类模型。
[0043]本专利技术还提供了一种对话文本分类模型的训练设备,包括:
[0044]处理器;
[0045]存储器,其中存储有所述处理器的可执行程序;
[0046]其中,所述处理器配置为经由执行所述可执行程序来执行上述任意一项对话文本分类模型的训练方法的步骤。
[0047]本专利技术还提供了一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现上述任意一项对话文本分类模型的训练方法的步骤。
[0048]本专利技术与现有技术相比,具有以下优点及突出性效果:
[0049]本专利技术提供的对话文本分类模型的训练及分类方法、系统、设备、介质通过具体考虑预训练语料中预设指令触发时的时间信息,依据该时间信息,确定每一条预训练语料对应截取的样本长度;另外对于部分语料,适当的往后多截取一些下文的方式,模拟线上因指令触发时机不一导致的样本噪声冗余环境,利于提升模型训练后的鲁棒性。
附图说明
[0050]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话文本分类模型的训练方法,其特征在于,包括以下步骤:S110,获取预训练语料;S120,依据所述预训练语料,获取预设指令触发时的时间信息;S130,依据所述时间信息,确定每一条所述预训练语料对应的样本长度;S140,依据所述样本长度和所述时间信息,自每一条所述预训练语料中分别提取训练子样本;以及S150,依据所述训练子样本,构建训练样本,并依据所述训练样本训练预设文本分类模型。2.如权利要求1所述的对话文本分类模型的训练方法,其特征在于,步骤S150包括:识别出所述训练样本中的实体;确定所述实体对应的实体类型,并将所述训练样本中的所述实体替换为对应的实体类型;基于替换后的训练样本,训练预设文本分类模型。3.如权利要求1所述的对话文本分类模型的训练方法,其特征在于,步骤S120包括:依据所述预训练语料,获取预设指令触发时的进程比信息;所述进程比信息为创单时间与电话通话时长的比值;所述创单时间为从电话接通到预设指令触发时的耗时;步骤S130包括:当所述进程比信息大于等于第一预设阈值时,所述样本长度为该条所述预训练语料的长度;当所述进程比信息小于第一预设阈值时,所述样本长度为所述特征信息所在的消息ID。4.如权利要求3所述的对话文本分类模型的训练方法,其特征在于,步骤S130包括:当所述进程比信息小于第一预设阈值且所述创单时间小于第二预设阈值时,所述样本长度为所述特征信息所在的消息ID;当所述进程比信息小于第一预设阈值且所述创单时间大于等于第二预设阈值时,所述样本长度为所述特征信息所在的消息ID与第一随机数的和。5.如权利要求4所述的对话文本分类模型的训练方法,其特征在于,步骤S130包括:将满足预设条件的预训练语料划分为第一部分和第二部分;所述预设条件为:所述进程比信息小于第一预设阈值且所述创单时间小于第二预设阈值;所述第一部分的预训练语料对应的样本长度为所述特征信息所在的消息ID;所述第二部分的预训练语料对应的样本长度为所述特征信息所在的消息ID与第二随机数的和;所述第一随机数大于所述第二随机数。6.如权利要求1所述的对话文本分类模型的训练方法,其特征在于,...

【专利技术属性】
技术研发人员:邓艳江罗超邹宇
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1