基于N-gram算法并利用下游任务筛选文本的文本增强方法技术

技术编号：38143543 阅读：7 留言：0更新日期：2023-07-08 09:59

本发明专利技术涉及基于N

全部详细技术资料下载

【技术实现步骤摘要】
基于N
‑
gram算法并利用下游任务筛选文本的文本增强方法

[0001]本专利技术属于文本智能识别领域，具体涉及一种基于N
‑
gram算法并利用下游任务筛选文本的文本增强方法。

技术介绍

[0002]伴随深度学习的发展，训练数据作为提升模型性能的关键因素之一，其质量的和规模对模型效果有深刻的影响。一些包含个人隐私的文本，例如电子病历文本，医疗对话文本通常难以获取。这使得自然语言处理的相关模型难以运用于这些领域。然而，通过对患者诊疗记录的信息抽取，一方面可以帮助患者了解个人身体情况，另一方面可以辅助医生对患者病情进行分析和诊断。因此，使用文本增强方法生成高质量的文本十分必要。
[0003]现有的文本增强方法包括随机插入、随机删除、随机替换、回译等。由于这些方法具有一定的随机性，所生成文本的质量不可控，因此经常会出现大量不通顺、不连贯的文本。这些不能保证质量的新文本会给深度学习的模型训练带来噪声，从而使语言模型的性能显著下降。

技术实现思路

[0004]本专利技术的技术问题是现有的文本增强方法生成的文本质量不可控，易出现生成文本不通顺、不连贯的问题。
[0005]本专利技术的目的是针对上述问题，提供一种基于N
‑
gram算法并利用下游任务筛选文本的文本增强方法，一方面采用基于N
‑
gram和联合概率公式的评分函数对文本进行过滤，使生成的文本的文本风格更接近原始文本的文本风格；另一方面，加权平均的评分函数对文本进行过滤，...

【技术保护点】

【技术特征摘要】
1.基于N
‑
gram算法并利用下游任务筛选文本的文本增强方法，其特征在于，包括以下步骤：步骤1：选择采用文本生成器，生成与原始文本相近的文本；步骤2：设定用于评价文本生成质量的评分函数，并对每一批次生成的文本进行评分；步骤2.1：建立基于N
‑
gram算法和联合概率公式的评分函数，设定第一分数线，对生成的文本进行打分，筛选出得分大于第一分数线的文本；步骤2.2：建立基于加权平均的评分函数，设定第二分数线，对步骤2.1筛选得到的文本进行打分，筛选出得分大于第二分数线的文本；步骤3：在下游任务上对筛选出的文本进行评价；步骤3.1：将步骤2筛选得到的文本与原始文本合并，用于下游任务的预训练；步骤3.2：使用多种文本增强方式，生成与筛选出的文本数据量相同的数据，用于下游任务的预训练；步骤3.3：对步骤3.1和步骤3.2得到的文本进行评分，并设定第三分数线，筛选出得分大于第三分数线的文本；步骤4：从步骤3得到的文本中选出语义通顺的文本作为下一批次文本生成过程的输入，重复步骤1
‑
3得到所需数量的新文本。2.根据权利要求1所述的文本增强方法，其特征在于，步骤1中，所述文本生成器为LSTM模型或GRU模型或BERT模型或GPT模型。3.根据权利要求2所述的文本增强方法，其特征在于，步骤2.1中，将文本数据划分成unigram和bigram形式后，分别制作成unigram形式的字典unigram_dict和bigram形式的语料字典bigram_dict，字典的索引是字符，字典的值是该unigram字符或bigram字符在训练语料中出现的频数；基于N
‑
gram算法和...

【专利技术属性】
技术研发人员：苏志同，陈鹏，余肖生，张猛，
申请(专利权)人：三峡大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人