一种基于关键词掩码的负样本生成方法技术

技术编号：42418301 阅读：32 留言：0更新日期：2024-08-16 16:34

本发明专利技术公开了一种基于关键词掩码的负样本生成方法，包括如下步骤：S1、正样本集合获取；S2、负样本集合获取；S3、训练样本集合获取；S4、模型精调；本发明专利技术涉及人工智能和自然语言处理技术领域。该基于关键词掩码的负样本生成方法，通过基于任务提示词，生成丰富的正样本数据，并通过对正样本数据进行掩码处理的方式，配合任务提示词，生成丰富的负样本数据，为目标任务模型提供充足的更具有挑战性且更加难以分辨的训练样本，有利于目标任务模型收敛成为识别能力更加鲁棒和精准的模型，进而更好地应用于零样本条件下的文本分类任务，提高零样本情况下文本分类模型的预测准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能和自然语言处理，具体为一种基于关键词掩码的负样本生成方法。

技术介绍

1、预训练语言模型在大量任务特定训练数据上进行微调时已经达到了人类水平的自然语言理解任务性能。然而，这种监督式微调范式与人类执行这些任务的方式截然不同：人类几乎不需要看到许多任务特定的训练样本就能表现良好，而只需要看到关于任务的描述即能理解并具体实施。最近，许多研究揭示了预训练语言模型引人入胜的少样本学习潜力：通过将任务描述转换为自然语言提示并将其注入预训练语言模型中，基于提示的方法利用任务特定信息提高了训练数据效率，并取得了显著的少样本结果。

2、然而，当基于提示的方法应用于零样本设置时，预训练语言模型的预测准确性大大降低。例如，相对于其少样本性能，gpt-3的零样本性能要大大下降，特别是在挑战性任务如自然语言推理方面。在没有任何任务特定样本的情况下，对于预训练语言模型来说，有效地解释以不同格式呈现且在预训练数据中未见的提示确实具有挑战性。为了让预训练语言模型熟悉各种提示以实现对未见任务的零样本泛化，最近的一项研究提出了指导调节，该...

【技术保护点】

1.一种基于关键词掩码的负样本生成方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于关键词掩码的负样本生成方法，其特征在于：所述S1中正样本的生成方式包括：

3.根据权利要求2所述的一种基于关键词掩码的负样本生成方法，其特征在于：所述S1中正样本集合的获取方式包括：

4.根据权利要求1所述的一种基于关键词掩码的负样本生成方法，其特征在于：所述S2中掩码样本集合的获取包括：

5.根据权利要求4所述的一种基于关键词掩码的负样本生成方法，其特征在于：所述S2中负样本集合的获取方式包括：

6.根据权利要求1所述的一种基于...

【技术特征摘要】

1.一种基于关键词掩码的负样本生成方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于关键词掩码的负样本生成方法，其特征在于：所述s1中正样本的生成方式包括：

3.根据权利要求2所述的一种基于关键词掩码的负样本生成方法，其特征在于：所述s1中正样本集合的获取方式包括：

4.根据权利要...

【专利技术属性】
技术研发人员：潘一腾，刘翔，
申请(专利权)人：东莞理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人