样本构建方法及装置制造方法及图纸

技术编号:36691979 阅读:16 留言:0更新日期:2023-02-27 20:00
本说明书提供样本构建方法及装置,其中所述样本构建方法包括:获取多个历史对话序列,将多个历史对话序列中包含关键词的至少两个对话序列作为初始对话序列,并在多个历史对话序列中筛选第一负对话序列;生成至少两个初始对话序列分别对应的初始对话样本,以及所述第一负对话序列对应的第一负对话样本;根据至少两个初始对话样本的属性信息,将至少两个初始对话样本划分为第一正对话样本和第二负对话样本,其中,所述第一正对话样本和所述第二负对话样本均包含关键词;将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合,将所述第一正对话样本存储至正对话样本集合。将所述第一正对话样本存储至正对话样本集合。将所述第一正对话样本存储至正对话样本集合。

【技术实现步骤摘要】
样本构建方法及装置


[0001]本说明书涉及计算机
,特别涉及一种样本构建方法。本说明书同时涉及一种样本构建装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,线上服务逐渐走进人们的学习和生活。线上交流模式会产生大量的对话数据,通过对这些对话数据进行检测,即可确定服务方在提供咨询、问题解决等服务的过程中是否出现不合规的服务方式或服务用语等。
[0003]现有技术中,在对对话数据进行合规性检测时,通常使用人工阅读对话数据,以及关键词检索的方法。然而人工阅读的方式需要耗费大量的人力资源,且准确率较低;关键词检索的方法直接基于对话数据进行关键词检测,样本较为单一,且具有较大的局限性,误召回概率高,预测准确度低,因此,亟需一种样本构建方法以解决上述问题。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种样本构建方法。本说明书同时涉及一种样本构建装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种样本构建方法,包括:
[0006]获取多个历史对话序列,将多个历史对话序列中包含关键词的至少两个对话序列作为初始对话序列,并在多个历史对话序列中筛选第一负对话序列;
[0007]生成至少两个初始对话序列分别对应的初始对话样本,以及所述第一负对话序列对应的第一负对话样本;
[0008]根据至少两个初始对话样本的属性信息,将至少两个初始对话样本划分为第一正对话样本和第二负对话样本,其中,所述第一正对话样本和所述第二负对话样本均包含关键词;
[0009]将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合,将所述第一正对话样本存储至正对话样本集合。
[0010]根据本说明书实施例的第二方面,提供了一种样本构建装置,包括:
[0011]获取模块,被配置为获取多个历史对话序列,将多个历史对话序列中包含关键词的至少两个对话序列作为初始对话序列,并在多个历史对话序列中筛选第一负对话序列;
[0012]生成模块,被配置为生成至少两个初始对话序列分别对应的初始对话样本,以及所述第一负对话序列对应的第一负对话样本;
[0013]划分模块,被配置为根据至少两个初始对话样本的属性信息,将至少两个初始对话样本划分为第一正对话样本和第二负对话样本,其中,所述第一正对话样本和所述第二负对话样本均包含关键词;
[0014]存储模块,被配置为将所述第一负对话样本和所述第二负对话样本存储至负对话
样本集合,将所述第一正对话样本存储至正对话样本集合。
[0015]根据本说明书实施例的第三方面,提供了一种计算设备,包括:
[0016]存储器和处理器;
[0017]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现所述样本构建方法的步骤。
[0018]根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述样本构建方法的步骤。
[0019]本说明书提供的样本构建方法,获取多个历史对话序列,将多个历史对话序列中包含关键词的至少两个对话序列作为初始对话序列,并在多个历史对话序列中筛选第一负对话序列;生成至少两个初始对话序列分别对应的初始对话样本,以及样本构建第一负对话序列对应的第一负对话样本;根据至少两个初始对话样本的属性信息,将至少两个初始对话样本划分为第一正对话样本和第二负对话样本,其中,样本构建第一正对话样本和样本构建第二负对话样本均包含关键词;将样本构建第一负对话样本和样本构建第二负对话样本存储至负对话样本集合,将样本构建第一正对话样本存储至正对话样本集合。
[0020]本说明书一实施例实现了在多个历史对话序列中选择包含关键词的至少两个初始对话序列,再根据每个初始对话序列对应的初始对话样本属性信息将初始对话样本划分为第一正对话样本和第二负对话样本。在多个历史对话序列中筛选第一负对话序列,生成第一负对话样本,进而提高了样本的多样性,在后续基于第一负对话样本、第一正对话样本和第二负对话样本进行检测模型的训练,提升了检测模型的预测准确度。
附图说明
[0021]图1是本说明书一实施例提供的一种样本构建方法的样本构建示意图;
[0022]图2是本说明书一实施例提供的一种样本构建方法的流程图;
[0023]图3是本说明书一实施例提供的一种样本构建方法的示意图;
[0024]图4是本说明书一实施例提供的一种应用于对话数据的样本构建方法的处理流程图;
[0025]图5是本说明书一实施例提供的一种样本构建装置的结构示意图;
[0026]图6是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
[0027]在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0028]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0029]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描
述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0030]首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
[0031]BERT(Bidirectional Encoder Representation from Transformers):用于自然语言处理的预训练技术。BERT利用大量的无监督数据预训练一个Transformer堆叠的神经网络,再应用于下游任务中,Transformer可以编码单词双向信息,能够更好地完成文本理解。
[0032]对话内容质检:通过自然语言处理技术判断对话中,是否存在违规行为。主要质检内容:违规词语、违规行为、服务态度等。
[0033]Focal Loss:Focal loss(聚焦损失函数)主要是为了解决有监督机器学习场景中正负样本比例严重失衡的问题,通过设计新的损失函数,使模型在训练过程中能够自动分配样本权重,达到平本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本构建方法,其特征在于,包括:获取多个历史对话序列,将多个历史对话序列中包含关键词的至少两个对话序列作为初始对话序列,并在多个历史对话序列中筛选第一负对话序列;生成至少两个初始对话序列分别对应的初始对话样本,以及所述第一负对话序列对应的第一负对话样本;根据至少两个初始对话样本的属性信息,将至少两个初始对话样本划分为第一正对话样本和第二负对话样本,其中,所述第一正对话样本和所述第二负对话样本均包含关键词;将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合,将所述第一正对话样本存储至正对话样本集合。2.根据权利要求1所述的方法,其特征在于,所述至少两个初始对话序列中,任意一个初始对话序列对应的初始对话样本的确定,包括:在所述初始对话序列中确定包含关键词的中心对话语句;基于所述初始对话序列生成包含所述中心对话语句的初始对话样本。3.根据权利要求2所述的方法,其特征在于,所述基于所述初始对话序列生成包含所述中心对话语的初始对话样本,包括:在所述初始对话序列中选择与所述中心对话语句对应的前序对话文本和后续对话文本;将所述前序对话文本、所述后续对话文本与所述中心对话语句进行组合,获得初始对话样本。4.根据权利要求1所述的方法,其特征在于,所述将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合,将所述第一正对话样本存储至正对话样本集合,包括:对所述第一负对话样本和所述第二负对话样本进行调整处理后存储至负对话样本集合,对所述第一正对话样本进行调整处理后存储至正对话样本集合。5.根据权利要求4所述的方法,其特征在于,所述对所述第一负对话样本和所述第二负对话样本进行调整处理后存储至负对话样本集合,对所述第一正对话样本进行调整处理后存储至正对话样本集合,包括:分别对所述第一负对话样本和所述第二负对话样本包含的噪声数据进行删除或修改,获得第一负去噪对话样本和第二负去噪对话样本,并分别对所述第一负去噪对话样本和所述第二负去噪对话样本进行整合处理,将处理结果存储至负对话样本集合;对所述第一正对话样本包含的噪声数据进行删除或修改,获得第一正去噪对话样本,对所述第一正去噪对话样本进行整合处理,将处理结果存储至正对话样本集合。6.根据权利要求1所述的方法,其特征在于,所述将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合,将所述第一正对话样本存储至正对话样本集合步骤执行之后,还包括:在所述负对话样本集合和所述正对话样本集合中提取目标对话样本,其中,所述目标对话样本包含目标正对话子样本和目标负对应子样本;基于所述目标对话样本训练对话检测模型,直至获得满足训练停止条件的目标对话检测模型。7.根据权利要求6所述的方法,其特征在于,所述在所述负对话样本集合和所述正对话
样本集合...

【专利技术属性】
技术研发人员:阎覃张天宇孙子钧赵薇柳景明
申请(专利权)人:北京猿力教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1