【技术实现步骤摘要】
静默检测模型的训练方法、异常会话检测方法及相关设备
[0001]本申请涉及自然语言处理
,尤其涉及一种静默检测模型的训练方法、异常会话检测方法及相关设备。
技术介绍
[0002]目前的自然语言处理(Natural Language Processing,NLP)任务主要是在对语言基本语义的理解,以CLUE为例,该任务主要集中于:语义相似度、文本分类、自然语言推理等。NLP的语义理解主要从“有声/已言”去梳理语义,但其实在人类的语言表达中,“无声/未言”的部分也是理解整体语义的不可或缺的一部分,某些情况下,对“无声/未言”部分解析的重要性甚至超过了“有声/已言”部分,正可谓“此处无声胜有声”。
[0003]通常认为“未言”的含义可以梳理为两者:一种是“已言”语义的隐含义(比如蕴含义、预设以等),第二种是“已言”前后的静默段。在第二种“未言”中,可能会包含会话者的无言情绪、其他操作等,因而对于NLP任务而言十分为重要。
[0004]传统意义上的静默检测通常是从语音识别的角度,检测语音是静默状态还是激活状态, ...
【技术保护点】
【技术特征摘要】
1.一种静默检测模型的训练方法,其特征在于,包括:获取多个会话文本数据以及每个会话文本数据所属的业务场景,其中,每个会话文本数据属于一通会话,每个会话文本数据包括多个句子文本以及每个句子文本的会话信息;基于所述多个会话文本数据以及每个会话文本数据所属的业务场景匹配的静默检测策略,确定所述多个会话文本数据各自的会话静默特征;基于所述多个会话文本数据各自的会话静默特征,确定所述多个会话文本数据各自对应的样本静默标签,每个样本静默标签用于表示对应的会话文本数据所属会话中的静默段信息;基于所述多个会话文本数据以及所述多个会话文本数据各自对应的样本静默标签,对静默检测模型进行训练,训练完成的静默检测模型用于对任意一段会话文本数据进行静默检测。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个会话文本数据各自的会话静默特征,确定所述多个会话文本数据各自对应的样本静默标签,包括:基于所述多个会话文本数据各自的会话静默特征和分类模型,确定所述多个会话文本数据各自对应的第一候选静默标签;基于所述多个会话文本数据各自的会话静默特征对所述多个会话文本数据进行聚类,以及基于聚类结果确定所述多个会话文本数据各自对应的第二候选静默标签;基于各会话文本数据各自对应的第一候选静默标签和第二候选静默标签,确定各会话文本数据对应的样本静默标签。3.根据权利要求2所述的方法,其特征在于,所述基于所述多个会话文本数据各自的会话静默特征和分类模型,确定所述多个会话文本数据各自对应的第一候选静默标签,包括:基于各会话文本数据的会话静默特征,从所述多个会话文本数据中确定各会话文本数据所属会话中出现静默段的第一会话文本数据;将所述第一会话文本数据以及所述第一会话文本数据的会话静默特征发送给审核平台进行打标处理,以得到所述第一会话文本数据对应的第一候选静默标签;基于所述第一会话文本数据的会话静默特征以及所述第一会话文本数据对应的第一候选静默标签,对所述分类模型进行训练;通过训练后的分类模型基于第二会话文本数据的会话静默特征,对所述第二会话文本数据进行分类,以得到所述第二会话文本数据对应的第一候选静默标签,所述第二会话文本数据为所述多个会话文本数据中除所述第一会话文本数据以外的其他会话文本数据。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一会话文本数据的会话静默特征以及所述第一会话文本数据对应的第一候选静默标签,对所述分类模型进行训练,包括:通过预训练语言模型对所述第一会话文本数据中的多个句子文本进行编码,得到所述第一会话文本数据的文本编码特征;将所述第一会话文本数据的文本编码特征和会话静默特征作为训练样本,将所述第一会话文本数据对应的第一候选静默标签作为所述训练样本对应的标签,对所述分类模型进行训练。5.根据权利要求2所述的方法,其特征在于,在基于所述多个会话文本数据各自的会话
静默特征和分类模型,确定所述多个会话文本数据各自对应的第一候选静默标签之后,所述方法还包括:基于所述多个会话文本数据各自的会话静默特征以及所述多个会话文本数据各自对应的第一候选静默标签,调整与所述多个会话文本数据各自所属的业务场景匹配的静默检测策略。6.根据权利要求2所述的方法,其特征在于,所述基于所述多个会话文本数据各自的会话静默特征对所述多个会话文本数据进行聚类,以及基于聚类结果确定所述多个会话文本数据各自对应的第二候选静默标签,包括:从所述多个会话文本数据中选取部分会话文本数据作为第三会话文本数据,将所述第三会话文本数据以及所述第三会话文本数据对应的会话静默特征发送至审核平台进行打标处理,以得到所述第三会话文本数据对应的第二候选静默标签;基于所述第三会话文本数据对应的第二候选静默标签,对第四会话文本数据进行聚类处理,以得到所述第四会话文本数据对应的第二候选静默标签,所述第四会话文本数据为所述多个会话文本数据中除所述第三会话文本数据以外的其他会话文本数据。7.根据权利要求6所述的方法,其特征在于,每个会话文本数据的会话静默特征包括每个会话文本数据在多个静默检测维度下的子特征,每个静默检测维度具有对应的划分阈值;所述从所述多个会话文本数据中选取部分会话文本数据作为第三会话文本数据,包括:基于所述多个会话文本数据各自在多个静默检测维度下的子特征以及所述多个静默检测维度各自对应的划分阈值,将所述多个会话文本数据划分为多个子集,每个子集包含至少一个会话文本数据,同一子集中的会话文本数据在各静默检测维度下的子特征与划分阈值之间的大小关系相同;基于预设抽取策略和目标子集中的会话文本数据在多个静默检测维度下的子特征,从所述目标子集中抽取至少一个会话文本数据作为第三会话文本数据,其中,所述目标子集为所述多个子集中的任一个,所述预设抽取策略包括所述目标子集中的会话文本数据...
【专利技术属性】
技术研发人员:白安琪,蒋宁,夏粉,吴海英,肖冰,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。