一种基于词替换的文本生成方法、系统及存储介质技术方案

技术编号：37543813 阅读：12 留言：0更新日期：2023-05-12 16:13

本发明专利技术提供一种基于词替换的文本生成方法、系统及存储介质，包括：获取数据集中的原始样本，确定原始样本的因果特征；所述原始样本包括多个单词组成的文本和分类标签，将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构；基于重构的因果特征建立反事实样本生成模型，设置目标函数对所述反事实样本生成模型进行训练，通过所述反事实样本生成模型进行文本生成。本发明专利技术解决了现有反事实样本生成效率低、质量差的缺陷，以实现不依赖人力的情况下生成高质量、高多样性的反事实样本，提高自然语言理解模型的鲁棒性。提高自然语言理解模型的鲁棒性。提高自然语言理解模型的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词替换的文本生成方法、系统及存储介质

[0001]本专利技术涉及自然语言处理
，尤其涉及一种基于词替换的文本生成方法、系统及存储介质。

技术介绍

[0002]随着人工智能的快速发展，自然语言理解模型在同分布的测试集上达到了优异的性能，在GLUE，SuperGLUE等测试基准上的性能甚至超过了人类。然而，研究者们发现这些强大的自然语言理解模型具有捷径学习的现象，即模型会学习数据集中虚假的特征，从而导致了较差的泛化性。因此，捷径学习的现象阻碍了自然语言理解模型在现实场景中的应用。
[0003]现有的研究者们从不同的角度探索缓解捷径学习、提升鲁棒性的方法。其中，反事实样本由于其简单性和有效性在近期获得了研究者们的关注。具体而言，反事实样本要求修改原样本中的因果特征，从而改变样本标签。由于这一过程的复杂性，目前许多已有的工作仍然依赖人工改写的方式构造反事实样本，时间成本和金钱成本都很高。虽然近期出现了一些针对特定任务(如情感分类、问答)的自动反事实样本生成方法，但仍缺少对通用的自动反事实样本生成方法的探索。

技术实现思路

[0004]本专利技术提供一种基于词替换的文本生成方法、系统及存储介质，用以解决现有反事实样本生成效率低、质量差的缺陷，以实现不依赖人力的情况下生成高质量、高多样性的反事实样本，提高自然语言理解模型的鲁棒性。
[0005]本专利技术提供一种基于词替换的文本生成方法，包括：
[0006]获取数据集中的原始样本，确定原始样本的因果特征；
[0007]...

【技术保护点】

【技术特征摘要】
1.一种基于词替换的文本生成方法，其特征在于，包括：获取数据集中的原始样本，确定原始样本的因果特征；所述原始样本包括多个单词组成的文本和分类标签，将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构；基于重构的因果特征建立反事实样本生成模型，设置目标函数对所述反事实样本生成模型进行训练，通过所述反事实样本生成模型进行文本生成。2.根据权利要求1所述的基于词替换的文本生成方法，其特征在于，所述获取数据集中的原始样本，确定原始样本的因果特征，具体包括：获取数据集中的原始样本(x,y),其中x＝(t1,t2,
…
,t
n
)是由n个单词组成的文本，y是分类标签；基于预设的自然语言理解模型，计算对于单词t
i
的嵌入表示e
i
的梯度；计算所述梯度的L2范数并进行归一化处理，得到单词ti的重要性分数si，经过计算得到因果特征。3.根据权利要求2所述的基于词替换的文本生成方法，其特征在于，所述计算所述梯度的L2范数并进行归一化处理，得到单词ti的重要性分数si，经过计算得到因果特征，具体包括：所述重要性分数si的计算公式为：s
i
＝||g(t
i
)||2/Σ||g(t
j
)||2将所述重要性分数在topπ％的单词视为因果特征z。4.根据权利要求1所述的基于词替换的文本生成方法，其特征在于，将所述原始样本中因果特征的位置通过占位符进行替换，得到去因果特征文本，将所述去因果特征文本和分类标签输入至预设的填空式文本生成模型，对因果特征进行重构，具体包括：获取原始样本(x,y)和样本的因果特征z；将原始样本x中的因果特征z的位置通过占位符[MASK
‑
i]进行替换，得到去因果特征文本x
‑
z；将所述...

【专利技术属性】
技术研发人员：黄民烈，温佳鑫，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人