样本构建方法及装置制造方法及图纸

技术编号：36691979 阅读：40 留言：0更新日期：2023-02-27 20:00

本说明书提供样本构建方法及装置，其中所述样本构建方法包括：获取多个历史对话序列，将多个历史对话序列中包含关键词的至少两个对话序列作为初始对话序列，并在多个历史对话序列中筛选第一负对话序列；生成至少两个初始对话序列分别对应的初始对话样本，以及所述第一负对话序列对应的第一负对话样本；根据至少两个初始对话样本的属性信息，将至少两个初始对话样本划分为第一正对话样本和第二负对话样本，其中，所述第一正对话样本和所述第二负对话样本均包含关键词；将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合，将所述第一正对话样本存储至正对话样本集合。将所述第一正对话样本存储至正对话样本集合。将所述第一正对话样本存储至正对话样本集合。

全部详细技术资料下载

【技术实现步骤摘要】
样本构建方法及装置

[0001]本说明书涉及计算机
，特别涉及一种样本构建方法。本说明书同时涉及一种样本构建装置，一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展，线上服务逐渐走进人们的学习和生活。线上交流模式会产生大量的对话数据，通过对这些对话数据进行检测，即可确定服务方在提供咨询、问题解决等服务的过程中是否出现不合规的服务方式或服务用语等。
[0003]现有技术中，在对对话数据进行合规性检测时，通常使用人工阅读对话数据，以及关键词检索的方法。然而人工阅读的方式需要耗费大量的人力资源，且准确率较低；关键词检索的方法直接基于对话数据进行关键词检测，样本较为单一，且具有较大的局限性，误召回概率高，预测准确度低，因此，亟需一种样本构建方法以解决上述问题。

技术实现思路

[0004]有鉴于此，本说明书实施例提供了一种样本构建方法。本说明书同时涉及一种样本构建装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。
[0005]根据本...

【技术保护点】

【技术特征摘要】
1.一种样本构建方法，其特征在于，包括：获取多个历史对话序列，将多个历史对话序列中包含关键词的至少两个对话序列作为初始对话序列，并在多个历史对话序列中筛选第一负对话序列；生成至少两个初始对话序列分别对应的初始对话样本，以及所述第一负对话序列对应的第一负对话样本；根据至少两个初始对话样本的属性信息，将至少两个初始对话样本划分为第一正对话样本和第二负对话样本，其中，所述第一正对话样本和所述第二负对话样本均包含关键词；将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合，将所述第一正对话样本存储至正对话样本集合。2.根据权利要求1所述的方法，其特征在于，所述至少两个初始对话序列中，任意一个初始对话序列对应的初始对话样本的确定，包括：在所述初始对话序列中确定包含关键词的中心对话语句；基于所述初始对话序列生成包含所述中心对话语句的初始对话样本。3.根据权利要求2所述的方法，其特征在于，所述基于所述初始对话序列生成包含所述中心对话语的初始对话样本，包括：在所述初始对话序列中选择与所述中心对话语句对应的前序对话文本和后续对话文本；将所述前序对话文本、所述后续对话文本与所述中心对话语句进行组合，获得初始对话样本。4.根据权利要求1所述的方法，其特征在于，所述将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合，将所述第一正对话样本存储至正对话样本集合，包括：对所述第一负对话样本和所述第二负对话样本进行调整处理后存储至负对话样本集合，对所述第一正对话样本进行调整处理后存储至正对话样本集合。5.根据权利要求4所述的方法，其特征在于，所述对所述第一负对话样本和所述第二负对话样本进行调整处理后存储至负对话样本集合，对所述第一正对话样本进行调整处理后存储至正对话样本集合，包括：分别对所述第一负对话样本和所述第二负对话样本包含的噪声数据进行删除或修改，获得第一负去噪对话样本和第二负去噪对话样本，并分别对所述第一负去噪对话样本和所述第二负去噪对话样本进行整合处理，将处理结果存储至负对话样本集合；对所述第一正对话样本包含的噪声数据进行删除或修改，获得第一正去噪对话样本，对所述第一正去噪对话样本进行整合处理，将处理结果存储至正对话样本集合。6.根据权利要求1所述的方法，其特征在于，所述将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合，将所述第一正对话样本存储至正对话样本集合步骤执行之后，还包括：在所述负对话样本集合和所述正对话样本集合中提取目标对话样本，其中，所述目标对话样本包含目标正对话子样本和目标负对应子样本；基于所述目标对话样本训练对话检测模型，直至获得满足训练停止条件的目标对话检测模型。7.根据权利要求6所述的方法，其特征在于，所述在所述负对话样本集合和所述正对话
样本集合...

【专利技术属性】
技术研发人员：阎覃，张天宇，孙子钧，赵薇，柳景明，
申请(专利权)人：北京猿力教育科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人