一种基于数据增强的可信文本语义检测方法技术

技术编号：40996935 阅读：22 留言：0更新日期：2024-04-18 21:36

本发明专利技术涉及一种基于数据增强的可信文本语义检测检测方法，包括：利用文本语义评估模型对种子数据集进行评估，提取所有的硬负样本和简单样本构建待增强样本集；将种子数据集通过预先设定好的指令微调模板转换为指令微调数据集；利用指令微调数据集对大语言模型进行训练；将待增强样本集输入训练好的大语言模型对每个待增强样本生成与其语义相近或相反的元语义句子；将每个元语义模板输入句子生成器生成多个增强句子，根据元语义句子和增强句子构建增强样本集，并利用多重标签校验的方式获得增强样本的真实标签；利用增强样本集对文本语义评估模型进行训练，通过训练好的文本语义评估模型对可信文本进行语义检测，提高了文本语义评估模型稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理和文本信息处理，特别涉及一种基于数据增强的可信文本语义检测与评估框架。

技术介绍

1、文本语义评估是自然语言处理中的一项基础任务，它的目标是衡量两段文本在语义上的相似程度，这在很多nlp应用中都非常重要，比如信息检索、问答系统、机器翻译、文本摘要和语义搜索等。例如，在信息检索应用中，用户输入一个查询，系统需要从大量的文档中找出与查询语义最相似的文档；在问答系统应用中，系统需要找到与用户问题语义最相似的已知问题，然后返回相应的答案。因此，文本语义评估是许多nlp任务的关键组成部分，对于提升这些任务的性能至关重要。

2、由于缺乏监督训练数据，先前的文本语义评估方法依赖于在高维空间中编码句子并使用基于向量的语义相似度计算。后来人们提出了一些自然语言推理数据集，其中每个句子对都经过手动注释，根据它们之间是否存在逻辑关系，分为蕴涵、中性和矛盾。随着自然语言推理数据集的出现，文本语义评估通过对比学习来训练这种学习目标相似的任务，大大超越了以往的无监督方法。但是无论是无监督方法还是基于自然语言推理的方法都受到缺乏直接监督信号的影响，即对于一对句子，能够有一个标注好的包含了细粒度语义的相似度分数。这种类型的数据集稀缺的原因是，需要大量的人力物力来进行标注数据。另外一些研究对现有方法进行了分析，发现现有模型无法准确识别表达同一个语义的不同句法启发式，其中一个主要原因是现有的数据集泛化性不足，并且还缺乏风格多样化的正样本和硬负样本，导致模型在真实场景下容易受到对抗性样本误导，在下游任务中出现语义评估方面的错误。

技术实现思路

1、为了解决
技术介绍
中存在的问题，本专利技术提供一种基于数据增强的可信文本语义检测方法，该方法包括：

2、s1：获取用于训练句子嵌入的有监督种子数据集，并利用文本语义评估模型对种子数据集进行评估，提取所有的硬负样本和简单样本；

3、s2：从硬负样本集和简单样本集中按预设的比例进行采样构建待增强样本集；

4、s3：将种子数据集通过预先设定好的指令微调模板转换为指令微调数据集；

5、s4：利用指令微调数据集对大语言模型进行训练以对齐人类评估维度；将待增强样本集输入训练好的大语言模型对每个待增强样本生成与其语义相近或相反的元语义句子，再利用句法解析器解析，得到元语义模板集；

6、s5：将每个元语义模板输入句子生成器生成多个增强句子，根据元语义句子和增强句子构建增强样本集，并利用多重标签校验的方式获得增强样本的真实标签；

7、s6：利用增强样本集对文本语义评估模型进行训练，通过训练好的文本语义评估模型对可信文本进行语义检测。

8、优选地，所述文本语义评估模型包括但不限于simcse-bert语言模型。

9、优选地，所述指令微调模板包括但不限于standard、few-shot或cot类型的模板。

10、优选地，所述大语言模型包括但不限于llama2-7b开源的大语言模型或gpt-3.5闭源的大语言模型。

11、优选地，所述句法解析器包括但不限于nltk工具包。

12、优选地，所述句子生成器包括但不限于训练好的大预言模型或现有的数据增强算法。

13、优选地，所述利用多重标签校验的方式获得增强样本的真实标签包括：

14、s1：将增强句子和元语义句子组成增强样本输入训练好的大预言模型得到其相似度值

15、s2：将增强句子和元语义句子组成增强样本输入文本语义评估模型得到其相似度值

16、s3：令若k大于设定的阈值，则人工评估增强样本i的标签值作为真实标签，若k小于等于设定的阈值，则将作为增强样本i的真实标签值。

17、本专利技术至少具有以下有益效果

18、本专利技术通过对齐大语言模型来生成不同风格的同义句和反义句，解决了传统对比学习方法用于句子嵌入训练时，存在正样本稀缺和硬负样本稀缺的问题。通过对齐大语言模型来生成大量元语义模板，进而生成大量增强样本，这些样本都是一些ood(out ofdistribution)数据，解决了训练数据泛化性不够的问题。通过对齐大语言模型来标注生成的增强样本，然后再通过已有的文本语义评估模型评估过滤，最后再人工检查标注有差异的样本，这大大减少了文本语义相似度数据集的标注成本和人力物力。

本文档来自技高网...

【技术保护点】

1.一种基于数据增强的可信文本语义检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于数据增强的可信文本语义检测方法，其特征在于，所述文本语义评估模型包括但不限于Simcse-bert语言模型。

3.根据权利要求1所述的一种基于数据增强的可信文本语义检测方法，其特征在于，所述指令微调模板包括但不限于standard、few-shot或cot类型的模板。

4.根据权利要求1所述的一种基于数据增强的可信文本语义检测方法，其特征在于，所述大语言模型包括但不限于llama2-7B开源的大语言模型或GPT-3.5闭源的大语言模型。

5.根据权利要求1所述的一种基于数据增强的可信文本语义检测方法，其特征在于，所述句法解析器包括但不限于NLTK工具包。

6.根据权利要求1所述的一种基于数据增强的可信文本语义检测方法，其特征在于，所述句子生成器包括但不限于训练好的大预言模型或现有的数据增强算法。

7.根据权利要求1所述的一种基于数据增强的可信文本语义检测方法，其特征在于，所述利用多重标签校验的方式获得增强样本的真实标签包括：

...

【技术特征摘要】

1.一种基于数据增强的可信文本语义检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于数据增强的可信文本语义检测方法，其特征在于，所述文本语义评估模型包括但不限于simcse-bert语言模型。

3.根据权利要求1所述的一种基于数据增强的可信文本语义检测方法，其特征在于，所述指令微调模板包括但不限于standard、few-shot或cot类型的模板。

4.根据权利要求1所述的一种基于数据增强的可信文本语义检测方法，其特征在于，所述大语言模型包括但不限...

【专利技术属性】
技术研发人员：常光辉，谭翔，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人