训练样本扩充方法及装置、计算机存储介质、电子设备制造方法及图纸

技术编号:39248670 阅读:9 留言:0更新日期:2023-10-30 12:00
本公开涉及数据处理技术领域,提供了一种训练样本扩充方法、训练样本扩充装置、计算机存储介质、电子设备,其中,训练样本扩充方法包括:采集语料数据,并从语料数据中提取备选问题;通过更新后的领域检测模型基于第一识别逻辑识别备选问题与多个预设问题标签之间的关联关系,获得备选问题所关联的第一问题标签;以及,通过更新后的领域检测模型基于第二识别逻辑识别备选问题与多个预设问题标签之间的关联关系,获得备选问题所关联的第二问题标签;若第一问题标签与第二问题标签一致,利用备选问题扩充更新后的领域检测模型对应的训练样本。本公开能够提升训练样本的数据质量,从而提升智能问答模型的问答质量。从而提升智能问答模型的问答质量。从而提升智能问答模型的问答质量。

【技术实现步骤摘要】
训练样本扩充方法及装置、计算机存储介质、电子设备


[0001]本公开涉及数据处理
,特别涉及一种训练样本扩充方法、训练样本扩充装置、计算机存储介质及电子设备。

技术介绍

[0002]智能问答模型以一问一答形式,精确的定位网站用户所需要的提问知识,通过与网站用户进行交互,为网站用户提供个性化的信息服务,而智能问答模型的问答效果依赖于训练数据的质量,一般而言,训练数据的质量越高,错误数据越少,智能问答模型的问答效果就越好。
[0003]目前,一般是通过人工收集知识点以及每个知识点下的问题,构建并扩充智能问答模型的训练样本。然而,上述方案会导致训练样本的数据质量越来越低,从而影响智能问答模型的问答效果。
[0004]鉴于此,本领域亟需开发一种新的训练样本扩充方法及装置。
[0005]需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解。

技术实现思路

[0006]本公开的目的在于提供一种训练样本扩充方法、训练样本扩充装置、计算机存储介质及电子设备,进而至少在一定程度上克服相关技术中由于训练样本质量低下而导致的影响智能问答模型的问答效果的技术问题。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0008]根据本公开的第一方面,提供一种训练样本扩充方法,包括:采集语料数据,并从所述语料数据中提取备选问题;通过更新后的领域检测模型基于第一识别逻辑识别所述备选问题与多个预设问题标签之间的关联关系,获得所述备选问题所关联的第一问题标签;以及,通过所述更新后的领域检测模型基于第二识别逻辑识别所述备选问题与多个预设问题标签之间的关联关系,获得所述备选问题所关联的第二问题标签;若所述第一问题标签与所述第二问题标签一致,利用所述备选问题扩充所述更新后的领域检测模型对应的训练样本。
[0009]在本公开的示例性实施例中,所述预设问题标签包括所述知识点标签或提问意图标签。
[0010]在本公开的示例性实施例中,所述通过更新后的领域检测模型基于第一识别逻辑识别所述备选问题与多个预设问题标签之间的关联关系,获得所述备选问题所关联的第一问题标签,包括:通过更新后的领域检测模型提取所述备选问题对应的隐特征向量;获取每个预设问题标签对应的隐特征向量;计算所述备选问题对应的隐特征向量与所述每个预设问题标签对应的隐特征向量之间的第一向量距离;根据多个所述第一向量距离,确定所述
备选问题所关联的第一问题标签。
[0011]在本公开的示例性实施例中,所述更新后的领域检测模型包括n个网络层,n为大于1的整数;所述通过更新后的领域检测模型提取所述备选问题对应的隐特征向量,包括:对所述n个网络层中每个网络层的输出特征进行池化处理,得到每个网络层对应的输出向量;计算第n个网络层对应的输出向量与所述每个网络层对应的输出向量之间的相似度,得到n个相似度;将所述n个相似度作为所述n个网络层对应的输出向量的加权系数,对n个所述网络层对应的n个输出向量进行加权处理,得到所述备选问题对应的隐特征向量。
[0012]在本公开的示例性实施例中,所述根据多个所述第一向量距离,确定所述备选问题所关联的第一问题标签,包括:从多个所述第一向量距离中筛选出数值最小的第一向量距离,并将所述数值最小的第一向量距离对应的预设问题标签确定为所述备选问题所关联的候选第一问题标签;查找与所述候选第一问题标签对应的指定距离阈值;若所述数值最小的第一向量距离大于所述指定距离阈值,确定所述备选问题与所述候选第一问题标签之间不具备关联关系;若所述数值最小的第一向量距离不大于所述指定距离阈值,将所述候选第一问题标签确定为所述备选问题所关联的第一问题标签。
[0013]在本公开的示例性实施例中,在确定所述样本问题与所述候选第一问题标签之间不具备关联关系之后,所述方法还包括:舍弃所述备选问题。
[0014]在本公开的示例性实施例中,所述通过所述更新后的领域检测模型基于第二识别逻辑识别所述备选问题与多个预设问题标签之间的关联关系,获得所述备选问题所关联的第二问题标签,包括:从所述备选问题对应的隐特征向量中抽取CLS向量,所述CLS向量用于表征所述备选问题与每个所述预设问题标签的相关性;根据所述CLS向量,从所述多个预设问题标签中确定所述备选问题所关联的第二问题标签。
[0015]在本公开的示例性实施例中,所述更新后的领域检测模型通过以下方式训练得到:获取初始训练样本,所述初始训练样本包括多个预设问题标签,每个所述预设问题标签下关联有多个样本问题;根据所述初始训练样本对待训练的领域检测模型进行迭代训练,得到初始领域检测模型;利用所述初始领域检测模型对所述初始训练样本进行数据清洗,得到清洗后训练样本;将所述清洗后训练样本作为所述训练样本,并根据所述训练样本对所述初始领域检测模型进行迭代训练,得到所述更新后的领域检测模型。
[0016]在本公开的示例性实施例中,所述根据所述初始训练样本对待训练的领域检测模型进行迭代训练,得到初始领域检测模型,包括:将所述初始训练样本输入至所述待训练的领域检测模型中,得到所述待训练的领域检测模型输出的每个所述样本问题所关联的预测问题标签;根据所述预测问题标签与所述样本问题所关联的预设问题标签之间的差异程度,以及,所述多个样本问题中任意两个样本问题之间的差异程度,确定所述待训练的领域检测模型的损失值;根据所述损失值,对所述待训练的领域检测模型进行迭代训练,得到所述初始领域检测模型。
[0017]在本公开的示例性实施例中,所述根据所述预测问题标签与所述样本问题所关联的预设问题标签之间的差异程度,以及,所述多个样本问题中任意两个样本问题之间的差异程度,确定所述待训练的领域检测模型的损失值,包括:根据所述预测问题标签与所述样本问题所关联的预设问题标签之间的差异程度,计算第一类损失值;以及,根据所述多个样本问题中任意两个样本问题之间的差异程度,计算第二类损失值;根据所述第一类损失值
和所述第二类损失值,确定所述待训练的领域检测模型的损失值。
[0018]在本公开的示例性实施例中,所述利用所述初始领域检测模型对所述初始训练样本进行数据清洗,得到清洗后训练样本,包括:利用所述初始领域检测模型获取所述每个样本问题对应的隐特征向量;根据所述每个预设问题标签下所关联的目标样本问题对应的隐特征向量,确定所述每个预设问题标签对应的隐特征向量;根据所述样本问题对应的隐特征向量与所述每个预设问题标签对应的隐特征向量之间的第二向量距离,确定所述每个样本问题所关联的第三问题标签;根据所述第三问题标签与所述目标样本问题所关联的预设问题标签之间的一致性对比结果,对所述初始训练样本进行数据清洗,得到清洗后训练样本。
[0019]在本公开的示例性实施例中,所述初始领域检测模型包括n个网络层,n为大于1的整数;所述利用所述初始领域检测模型获取所述每个样本问题对应的隐特征向量,包括:对所述n个网络层中每个网络层的输出特征进行池化处理,得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练样本扩充方法,其特征在于,包括:采集语料数据,并从所述语料数据中提取备选问题;通过更新后的领域检测模型基于第一识别逻辑识别所述备选问题与多个预设问题标签之间的关联关系,获得所述备选问题所关联的第一问题标签;以及,通过所述更新后的领域检测模型基于第二识别逻辑识别所述备选问题与多个预设问题标签之间的关联关系,获得所述备选问题所关联的第二问题标签;若所述第一问题标签与所述第二问题标签一致,利用所述备选问题扩充所述更新后的领域检测模型对应的训练样本。2.根据权利要求1所述的方法,其特征在于,所述预设问题标签包括所述知识点标签或提问意图标签。3.根据权利要求1或2所述的方法,其特征在于,所述通过更新后的领域检测模型基于第一识别逻辑识别所述备选问题与多个预设问题标签之间的关联关系,获得所述备选问题所关联的第一问题标签,包括:通过更新后的领域检测模型提取所述备选问题对应的隐特征向量;获取每个预设问题标签对应的隐特征向量;计算所述备选问题对应的隐特征向量与所述每个预设问题标签对应的隐特征向量之间的第一向量距离;根据多个所述第一向量距离,确定所述备选问题所关联的第一问题标签。4.根据权利要求3所述的方法,其特征在于,所述更新后的领域检测模型包括n个网络层,n为大于1的整数;所述通过更新后的领域检测模型提取所述备选问题对应的隐特征向量,包括:对所述n个网络层中每个网络层的输出特征进行池化处理,得到每个网络层对应的输出向量;计算第n个网络层对应的输出向量与所述每个网络层对应的输出向量之间的相似度,得到n个相似度;将所述n个相似度作为所述n个网络层对应的输出向量的加权系数,对n个所述网络层对应的n个输出向量进行加权处理,得到所述备选问题对应的隐特征向量。5.根据权利要求3所述的方法,其特征在于,所述根据多个所述第一向量距离,确定所述备选问题所关联的第一问题标签,包括:从多个所述第一向量距离中筛选出数值最小的第一向量距离,并将所述数值最小的第一向量距离对应的预设问题标签确定为所述备选问题所关联的候选第一问题标签;查找与所述候选第一问题标签对应的指定距离阈值;若所述数值最小的第一向量距离大于所述指定距离阈值,确定所述备选问题与所述候选第一问题标签之间不具备关联关系;若所述数值最小的第一向量距离不大于所述指定距离阈值,将所述候选第一问题标签确定为所述备选问题所关联的第一问题标签。6.根据权利要求5所述的方法,其特征在于,在确定所述样本问题与所述候选第一问题标签之间不具备关联关系之后,所述方法还包括:舍弃所述备选问题。
7.根据权利要求4所述的方法,其特征在于,所述通过所述更新后的领域检测模型基于第二识别逻辑识别所述备选问题与多个预设问题标签之间的关联关系,获得所述备选问题所关联的第二问题标签,包括:从所述备选问题对应的隐特征向量中抽取CLS向量,所述CLS向量用于表征所述备选问题与每个所述预设问题标签的相关性;根据所述CLS向量,从所述多个预设问题标签中确定所述备选问题所关联的第二问题标签。8.根据权利要求1或2所述的方法,其特征在于,所述更新后的领域检测模型通过以下方式训练得到:获取初始训练样本,所述初始训练样本包括多个预设问题标签,每个所述预设问题标签下关联有多个样本问题;根据所述初始训练样本对待训练的领域检测模型进行迭代训练,得到初始领域检测模型;利用所述初始领域检测模型对所述初始训练样本进行数据清洗,得到清洗后训练样本;将所述清洗后训练样本作为所述训练样本,并根据所述训练样本对所述初始领域检测模型进行迭代训练,得到所述更新后的领域检测模型。9.根据权利要求8所述的方法,其特征在于,所述根据所述初始训练样本对待训练的领域检测模型进行迭代训练,得到初始领域检测模型,包括:将所述初始训练样本输入至所述待训练的领域检测模型中,得到所述待训练的领域检测模型输出的每个所述样本问题所关联的预测问题标签;根据所述预测问题标签与所述样本问题所关联的预设问题标签之间的差异程度,以及,所述多个样本问题中任意两个样本问题之间的差异程度,确定所述待训练的领域检测模型的损失值;根据所述损失值,对所述待训练的领域检测模型进行迭代训练,得到所述初始领域检测模型。10.根据权利要求9所述的方法,其特征在于,所述根据所述预测问题标签与所述样本问题所关联的预设问题标签之间的差异程度,以及,所述多个样本问题中任意两个样本问题之间的差异程度,确定所述待训练的领域检测模型的损失值,包括:根据所述预测问题标签与所述样本问题所关联的预设问题标签之间的差异程度,计算第一类损失值;以及,根据所述多个样本问题中任意两个样本问题之间的差异程度,计算第二类损失值;根据所述第一类损失值和所述第二类损失值,确定所述待训练的领域检测模型的损失值。11.根据权利要求8所述的方法,其特征在于,所述利用所述初始领域检测模型对所述初始训练样本进行数据清洗,得到清洗后训练样本,包括:利用所述初始领域检测模型获取所述每个样本问题对应的隐特征向量;根据所述每个预设问题标签下所关联的目标样本问题对应的隐特征向量,确定所述每个预设问题标签对应的隐特征向量;
根据所述样本...

【专利技术属性】
技术研发人员:刘航冯明超李浩斌陈蒙
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1