当前位置: 首页 > 专利查询>三峡大学专利>正文

基于N-gram算法并利用下游任务筛选文本的文本增强方法技术

技术编号:38143543 阅读:7 留言:0更新日期:2023-07-08 09:59
本发明专利技术涉及基于N

【技术实现步骤摘要】
基于N

gram算法并利用下游任务筛选文本的文本增强方法


[0001]本专利技术属于文本智能识别领域,具体涉及一种基于N

gram算法并利用下游任务筛选文本的文本增强方法。

技术介绍

[0002]伴随深度学习的发展,训练数据作为提升模型性能的关键因素之一,其质量的和规模对模型效果有深刻的影响。一些包含个人隐私的文本,例如电子病历文本,医疗对话文本通常难以获取。这使得自然语言处理的相关模型难以运用于这些领域。然而,通过对患者诊疗记录的信息抽取,一方面可以帮助患者了解个人身体情况,另一方面可以辅助医生对患者病情进行分析和诊断。因此,使用文本增强方法生成高质量的文本十分必要。
[0003]现有的文本增强方法包括随机插入、随机删除、随机替换、回译等。由于这些方法具有一定的随机性,所生成文本的质量不可控,因此经常会出现大量不通顺、不连贯的文本。这些不能保证质量的新文本会给深度学习的模型训练带来噪声,从而使语言模型的性能显著下降。

技术实现思路

[0004]本专利技术的技术问题是现有的文本增强方法生成的文本质量不可控,易出现生成文本不通顺、不连贯的问题。
[0005]本专利技术的目的是针对上述问题,提供一种基于N

gram算法并利用下游任务筛选文本的文本增强方法,一方面采用基于N

gram和联合概率公式的评分函数对文本进行过滤,使生成的文本的文本风格更接近原始文本的文本风格;另一方面,加权平均的评分函数对文本进行过滤,使生成的文本更加通顺。
[0006]本专利技术的技术方案是基于N

gram算法并利用下游任务筛选文本的文本增强方法,包括以下步骤:
[0007]步骤1:选择采用文本生成器,生成与原始文本相近的文本;
[0008]步骤2:设定用于评价文本生成质量的评分函数,并对每一批次生成的文本进行评分;
[0009]步骤2.1:建立基于N

gram和联合概率公式的评分函数,设定第一分数线,对生成的文本进行打分,筛选出得分大于第一分数线的文本;
[0010]步骤2.2:建立基于加权平均的评分函数,设定第二分数线,对步骤2.1筛选得到的文本进行打分,筛选出得分大于第二分数线的文本;
[0011]步骤3:在下游任务上对筛选出的文本进行评价;
[0012]步骤3.1:将步骤2筛选得到的文本与原始文本合并,用于下游任务的预训练;
[0013]步骤3.2:使用随机插入、随机删除、同义词替换的文本增强方式,生成与筛选出的文本数据量相同的数据,用于下游任务的预训练;
[0014]步骤3.3:对步骤3.1和步骤3.2得到的文本进行评价,并设定第三分数线,筛选出
得分大于第三分数线的文本;
[0015]步骤4:从步骤3得到的文本中选出语义通顺的文本作为下一批次文本生成过程的输入,重复步骤1

3得到所需数量的新文本。
[0016]进一步地,步骤1中,所述文本生成器为LSTM模型或GRU模型或BERT模型或GPT模型。
[0017]步骤2.1中,将文本数据划分成unigram和bigram形式后,分别制作成unigram形式的字典unigram_dict和bigram形式的语料字典bigram_dict,字典的索引是字符,字典的值是该unigram字符或bigram字符在训练语料中出现的频数;
[0018]基于N

gram算法和联合概率公式的评分函数如下:
[0019][0020][0021]其中score1(c1,c2,c3,...,c
n
)表示当前批次的文本字符串c1,c2,c3,...,c
n
的基于N

gram算法的评分,c
i
、c
i+1
分别表示当前批次文本的第i、i+1个字符,w(c
i
,c
i+1
)表示语料字典bigram_dict中查到的字符串c
i
,c
i+1
在语料中出现频数,w(c
i
)表示字典unigram_dict中查到的字符c
i
在语料中出现的频数,V表示训练语料中字符的种类数;字符串c
i
,c
i+1
不属于语料字典bigram_dict时,w(c
i
,c
i+1
)+1取0;n表示当前批次的文本的长度。
[0022]为便于计算,式(1)的评分函数采用对数函数的形式,最终的得分score1范围为[0,1];score1可衡量新生成语料的概率分布与训练语料的概率分布的相似程度,即对于新生成的文本,其score1越高,则表示新文本的字符组合越符合训练语料中的字符组合。
[0023]进一步地,步骤2.2中,基于加权平均的评分函数如下:
[0024][0025]式中score2表示基于加权平均的文本字符串c1,c2,c3,...,c
n
的评分。
[0026]优选地,步骤3.3中采用F1分数对步骤3.1和步骤3.2得到的文本进行评分和筛选。
[0027]相比现有技术,本专利技术的有益效果包括:
[0028]1)本专利技术同时采用基于N

gram算法和加权平均的评分方式并结合下游任务评价生成文本的质量,使文本增强方法生成文本更通顺、连贯,有利于智能语言模型的训练。
[0029]2)本专利技术使用基于N

gram和联合概率公式的评分函数对文本进行过滤,使生成的文本的文本风格更接近原始文本的文本风格。
[0030]3)本专利技术使用加权平均的评分函数对文本进行过滤,使生成的文本更加通顺。
[0031]4)本专利技术通过在需要完成的下游任务上评价文本生成的质量,使生成的新文本能够更加贴合下游任务,提高下游任务的效果。
[0032]5)本专利技术可将众多不同类型的语言模型作为生成器,具有良好的扩展性。
附图说明
[0033]下面结合附图和实施例对本专利技术作进一步说明。
[0034]图1为本专利技术的基于N

gram算法并利用下游任务筛选文本的文本增强方法的流程示意图。
具体实施方式
[0035]实施例中,命名实体识别为下游任务。
[0036]如图1所示,基于N

gram算法并利用下游任务筛选文本的文本增强方法,包括以下步骤:
[0037]步骤1:选择采用文本生成器,生成与原始文本相近的文本;
[0038]实施例中,选用长短期记忆网络(Long short

term memory,LSTM)作为文本生成器。
[0039]步骤2:设定用于评价文本生成质量的评分函数,并对每一批次生成的文本进行评分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于N

gram算法并利用下游任务筛选文本的文本增强方法,其特征在于,包括以下步骤:步骤1:选择采用文本生成器,生成与原始文本相近的文本;步骤2:设定用于评价文本生成质量的评分函数,并对每一批次生成的文本进行评分;步骤2.1:建立基于N

gram算法和联合概率公式的评分函数,设定第一分数线,对生成的文本进行打分,筛选出得分大于第一分数线的文本;步骤2.2:建立基于加权平均的评分函数,设定第二分数线,对步骤2.1筛选得到的文本进行打分,筛选出得分大于第二分数线的文本;步骤3:在下游任务上对筛选出的文本进行评价;步骤3.1:将步骤2筛选得到的文本与原始文本合并,用于下游任务的预训练;步骤3.2:使用多种文本增强方式,生成与筛选出的文本数据量相同的数据,用于下游任务的预训练;步骤3.3:对步骤3.1和步骤3.2得到的文本进行评分,并设定第三分数线,筛选出得分大于第三分数线的文本;步骤4:从步骤3得到的文本中选出语义通顺的文本作为下一批次文本生成过程的输入,重复步骤1

3得到所需数量的新文本。2.根据权利要求1所述的文本增强方法,其特征在于,步骤1中,所述文本生成器为LSTM模型或GRU模型或BERT模型或GPT模型。3.根据权利要求2所述的文本增强方法,其特征在于,步骤2.1中,将文本数据划分成unigram和bigram形式后,分别制作成unigram形式的字典unigram_dict和bigram形式的语料字典bigram_dict,字典的索引是字符,字典的值是该unigram字符或bigram字符在训练语料中出现的频数;基于N

gram算法和...

【专利技术属性】
技术研发人员:苏志同陈鹏余肖生张猛
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1