一种反事实样本的生成方法、相关装置、设备及存储介质制造方法及图纸

技术编号:38897050 阅读:10 留言:0更新日期:2023-09-22 14:18
本申请公开了一种反事实样本的生成方法,可应用的领域包括但不限于人机交互等领域。本申请包括:基于原始文本样本,通过文本分类模型获取类别概率分布;根据类别概率分布,确定原始文本样本中每个文本单元的关联分值;根据每个文本单元的关联分值,从原始文本样本中确定N个因果片段;对N个因果片段中的M个因果片段进行遮盖处理,得到目标文本样本;基于目标文本样本,通过文本生成模型获取M个目标片段;将原始文本样本中的M个因果片段替换为M个目标片段,得到反事实样本。本申请还提供了装置、设备及存储介质。本申请能够在无需人工介入的情况下,自动生成反事实样本,从而降低数据增广的成本。广的成本。广的成本。

【技术实现步骤摘要】
一种反事实样本的生成方法、相关装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种反事实样本的生成方法、相关装置、设备及存储介质。

技术介绍

[0002]反事实样本(Counterfactual)是指通过略微改变原样本的前提条件,以此反转样本的语义,从而得到对应标签发生变化的新样本(即,反事实样本)。例如,原始样本为“孩子们在草地上踢球”,其对应的一个反事实样本可以是“孩子们在球场里打球”。
[0003]反事实样本生成方法多用于评测模型鲁棒性。目前,通常需要人工标注出因果片段(Rationale),再对因果片段进行编写,以此生成反事实样本。例如,原始样本为“孩子们在草地上踢球”,标注出的因果片段为“草地”和“踢球”,基于此,可将“草地”替换为“球场”,并将“踢球”替换为“打球”,从而得到一个反事实样本。
[0004]然而,专利技术人发现现有方案中至少存在如下问题,反事实样本的生成依赖于人工标注和编写。即,需要人工标注原始样本中影响标签预测结果的因果片段,因此,会导致获得反事实样本的成本较高。

技术实现思路

[0005]本申请实施例提供了一种反事实样本的生成方法、相关装置、设备及存储介质。本申请能够在无需人工介入的情况下,自动生成反事实样本,从而降低数据增广的成本。
[0006]有鉴于此,本申请一方面提供一种反事实样本的生成方法,包括:
[0007]基于原始文本样本,通过文本分类模型获取类别概率分布,其中,原始文本样本包括T个文本单元,T为大于1的整数;
[0008]根据类别概率分布,确定原始文本样本中每个文本单元所对应的关联分值;
[0009]根据每个文本单元所对应的关联分值,从原始文本样本中确定N个因果片段,其中,每个因果片段包括至少一个文本单元,N为大于或等于1的整数;
[0010]对N个因果片段中的M个因果片段进行遮盖处理,得到目标文本样本,其中,M为大于或等于1,且小于或等于N的整数;
[0011]基于目标文本样本,通过文本生成模型获取M个目标片段,其中,目标片段与因果片段具有对应关系;
[0012]将原始文本样本中的M个因果片段替换为M个目标片段,得到反事实样本。
[0013]本申请另一方面提供一种样本生成装置,包括:
[0014]获取模块,用于基于原始文本样本,通过文本分类模型获取类别概率分布,其中,原始文本样本包括T个文本单元,T为大于1的整数;
[0015]确定模块,用于根据类别概率分布,确定原始文本样本中每个文本单元所对应的关联分值;
[0016]确定模块,还用于根据每个文本单元所对应的关联分值,从原始文本样本中确定N
个因果片段,其中,每个因果片段包括至少一个文本单元,N为大于或等于1的整数;
[0017]处理模块,用于对N个因果片段中的M个因果片段进行遮盖处理,得到目标文本样本,其中,M为大于或等于1,且小于或等于N的整数;
[0018]获取模块,还用于基于目标文本样本,通过文本生成模型获取M个目标片段,其中,目标片段与因果片段具有对应关系;
[0019]处理模块,还用于将原始文本样本中的M个因果片段替换为M个目标片段,得到反事实样本。
[0020]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0021]确定模块,还用于基于原始文本样本,通过文本分类模型获取类别概率分布之后,根据类别概率分布,确定真实分类标签所对应的概率值,其中,原始文本样本已标注为真实分类标签,类别概率分布中每个概率值对应于一个分类标签;
[0022]确定模块,还用于若真实分类标签所对应的概率值大于或等于第一概率阈值,则执行根据类别概率分布,确定原始文本样本中每个文本单元所对应的关联分值的步骤。
[0023]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0024]获取模块,具体用于对原始文本样本进行文本单元切分,得到T个文本单元;
[0025]根据T个文本单元生成T个嵌入向量,其中,嵌入向量与文本单元具有对应关系;
[0026]基于T个嵌入向量,通过文本分类模型获取类别概率分布。
[0027]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0028]确定模块,具体用于基于类别概率分布以及原始文本样本所对应的真实分类标签,通过分类损失函数计算分类损失值;
[0029]根据分类损失值,计算得到第一偏导数;
[0030]针对原始文本样本中的每个文本单元,根据文本单元所对应的嵌入向量,计算得到第二偏导数;
[0031]针对原始文本样本中的每个文本单元,根据第一偏导数以及文本单元所对应的第二偏导数,确定文本单元所对应的关联分值。
[0032]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0033]获取模块,具体用于基于T个嵌入向量,通过文本分类模型中的隐藏层获取平均嵌入向量;
[0034]基于平均嵌入向量,通过文本分类模型中的输出层获取类别概率分布。
[0035]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0036]获取模块,具体用于根据T个嵌入向量生成二维矩阵;
[0037]基于二维矩阵,通过文本分类模型中的卷积层获取至少两个特征向量;
[0038]基于至少两个特征向量,通过文本分类模型中的池化层获取目标特征向量;
[0039]基于目标特征向量,通过文本分类模型中的全连接层获取类别概率分布。
[0040]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0041]获取模块,具体用于基于T个嵌入向量,通过文本分类模型中的双向编码网络获取至少一个时间步长所对应的隐藏状态;
[0042]基于至少一个时间步长所对应的隐藏状态,通过文本分类模型中的全连接层,获取类别概率分布。
[0043]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,T个文本单元包括第一文本单元以及第二文本单元,其中,第一文本单元与第二文本单元为相邻的文本单元;
[0044]确定模块,具体用于若第一文本单元所对应的关联分值大于或等于关联分阈值,则将第一文本单元作为候选因果片段中的一个文本单元;
[0045]若第二文本单元所对应的关联分值大于或等于关联分阈值,则将第二文本单元作为候选因果片段中的另一个文本单元;
[0046]若第二文本单元所对应的关联分值小于关联分阈值,则将候选因果片段作为N个因果片段中的一个因果片段。
[0047]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0048]获取模块,具体用于基于目标文本样本,通过文本生成模型中的编码器获取编码特征向量;
[0049]基于编码特征向量,通过文本生成模型中的解码器获取字典中每个预设文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种反事实样本的生成方法,其特征在于,包括:基于原始文本样本,通过文本分类模型获取类别概率分布,其中,所述原始文本样本包括T个文本单元,所述T为大于1的整数;根据所述类别概率分布,确定所述原始文本样本中每个文本单元所对应的关联分值;根据所述每个文本单元所对应的关联分值,从所述原始文本样本中确定N个因果片段,其中,每个因果片段包括至少一个文本单元,所述N为大于或等于1的整数;对所述N个因果片段中的M个因果片段进行遮盖处理,得到目标文本样本,其中,所述M为大于或等于1,且小于或等于所述N的整数;基于所述目标文本样本,通过文本生成模型获取M个目标片段,其中,所述目标片段与所述因果片段具有对应关系;将所述原始文本样本中的所述M个因果片段替换为所述M个目标片段,得到反事实样本。2.根据权利要求1所述的生成方法,其特征在于,所述基于原始文本样本,通过文本分类模型获取类别概率分布之后,所述方法还包括:根据所述类别概率分布,确定真实分类标签所对应的概率值,其中,所述原始文本样本已标注为所述真实分类标签,所述类别概率分布中每个概率值对应于一个分类标签;若所述真实分类标签所对应的概率值大于或等于第一概率阈值,则执行所述根据所述类别概率分布,确定所述原始文本样本中每个文本单元所对应的关联分值的步骤。3.根据权利要求1所述的生成方法,其特征在于,所述基于原始文本样本,通过文本分类模型获取类别概率分布,包括:对所述原始文本样本进行文本单元切分,得到所述T个文本单元;根据所述T个文本单元生成T个嵌入向量,其中,所述嵌入向量与所述文本单元具有对应关系;基于所述T个嵌入向量,通过所述文本分类模型获取所述类别概率分布。4.根据权利要求3所述的生成方法,其特征在于,所述根据所述类别概率分布,确定所述原始文本样本中每个文本单元所对应的关联分值,包括:基于所述类别概率分布以及所述原始文本样本所对应的真实分类标签,通过分类损失函数计算分类损失值;根据所述分类损失值,计算得到第一偏导数;针对所述原始文本样本中的所述每个文本单元,根据文本单元所对应的嵌入向量,计算得到第二偏导数;针对所述原始文本样本中的所述每个文本单元,根据所述第一偏导数以及文本单元所对应的第二偏导数,确定所述文本单元所对应的关联分值。5.根据权利要求3所述的生成方法,其特征在于,所述基于所述T个嵌入向量,通过所述文本分类模型获取所述类别概率分布,包括:基于所述T个嵌入向量,通过所述文本分类模型中的隐藏层获取平均嵌入向量;基于所述平均嵌入向量,通过所述文本分类模型中的输出层获取所述类别概率分布。6.根据权利要求3所述的生成方法,其特征在于,所述基于所述T个嵌入向量,通过所述文本分类模型获取所述类别概率分布,包括:
根据所述T个嵌入向量生成二维矩阵;基于所述二维矩阵,通过所述文本分类模型中的卷积层获取至少两个特征向量;基于所述至少两个特征向量,通过所述文本分类模型中的池化层获取目标特征向量;基于所述目标特征向量,通过所述文本分类模型中的全连接层获取类别概率分布。7.根据权利要求1所述的生成方法,其特征在于,所述基于所述T个嵌入向量,通过所述文本分类模型获取所述类别概率分布,包括:基于所述T个嵌入向量,通过所述文本分类模型中的双向编码网络获取至少一个时间步长所对应的隐藏状态;基于所述至少一个时间步长所对应的隐藏状态,通过所述文本分类模型中的全连接层,获取所述类别概率分布。8.根据权利要求1所述的生成方法,其特征在于,所述T个文本单元包括第一文本单元以及第二文本单元,其中,所述第一文本单元与所述第二文本单元为相邻的文本单元;所述根据所述每个文本单元所对应的关联分值,从所述原始文本样本中确定N个因果片段,包括:若所述第一文本单元所对应的关联分值大于或等于关联分阈值,则将所述第一文本单元作为候选因果片段中的一个文本单元;若所述第二文本单元所对应的关联分值大于或等于所述关联分阈值,则将所述第二文本单元作为所述候选因果片段中的另一个文本单元;若所述第二文本单元所对应的关联分值小于所述关联分阈值,则将所述候选因果片段作为所述N个因果片段中的一个因果片段。9.根据权利要求1至8中任一项所述的生成方法,其特征在于,所述基于所述目标文本样本,通过文本生成模型获取M个目标片段,包括:基于所述目标文本样本,通过所述文本生成模型中的编码器获取编码特征向量;基于所述编码特征向量,通过所述文本生成模型中的解码器获取字典中每个预设文本单元在第一时间步长所对应的概率值;将各个预设文本单元在所述第一时间步长所对应的概率值按照从大到小排序后,将前P个预设文本单元作为P个第一候选文本单元,其中,所述P为大于或等于1的整数;基于所述编码特征向量以及P个第一候选文本单元,通过所述文本生成模型中的所述解码器获取字典中每个预设文本单元在第二时间步长所对应的概率值,其中,所述第二时间步长为所述第一时间步长相邻的下一个时间步长;将各个预设文本单元在所述第二时间步长所对应的概率值按照从大到小排序后,将前P个预设文本单元作为P个第二候选文本...

【专利技术属性】
技术研发人员:朱叶霜张金超周杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1