面向长文本自动摘要任务的数据增强系统及其方法技术方案

技术编号:35831910 阅读:11 留言:0更新日期:2022-12-03 14:01
本发明专利技术涉及面向长文本自动摘要任务的数据增强系统及方法,由文本处理模块,读取数据进行分词并将其映射到唯一的索引;由文本表示模块,通过文本表示将非数值型文本编码成数值型数据;由模型构建模块,根据摘要任务构建模型的框架;由关键信息评分模块,对通过构建模型的运算且经过特征提取之后的信息进行评分排序并进行分类重组;由解码模块,将分类重组的文本生成摘要。将文本进行数据预处理,对文本进行分词,对一些错误和无用的数据进行剔除;通过数据清洗,有效减少模型训练时间成本。有效减少模型训练时间成本。有效减少模型训练时间成本。

【技术实现步骤摘要】
面向长文本自动摘要任务的数据增强系统及其方法


[0001]本专利技术涉及一种面向长文本自动摘要任务的数据增强系统及其方法。

技术介绍

[0002]目前,机器学习和深度学习已经在自动文本摘要任务上取得了不错的效果。而模型的好坏也依赖于训练数据的规模和质量,但是训练数据的收集通常都十分消耗人力。数据增强常用于视觉和语音领域,可以训练鲁棒性更高的模型,特别是在使用较少的数据集时,可以取得更好的性能。然而,由于很难构建出通用的语言转化规则,NLP中通用的数据增强技术还没有被探索出来。万莹等人提出利用BERT获取句子特征,并结合实体和实体上下文信息送入到简单神经网络中进行分类。在之前的研究中,已经提出了一些用在NLP任务中的数据增强方法,如通过将句子翻译成其他语言,再翻译成目标语言来生成新的数据。即使这些方法很有效,但是由于高额的计算成本,这些方法都很少被应用。Wei J等人提出了成本较低的方法,并且在文本分类上具有很好的增益效果,如单词的同义词替换,词序调换等。在短文本上,这些方式通过修改少量的数据可以很好的影响到句子的表征,而对于长文本而言,过多的替换和修改很有可能影响到原有句子的表述。
[0003]Ding M等人提出将文本进行压缩后作为新的语料文本可以出色的完成下游任务,将压缩后的语料文本作为新的数据集在自动问答、文本匹配、文本分类等领域上,取得了不俗的表现。使用深度学习模型对源文本进行压缩,并且在压缩时,根据任务的不同设置了目标文本。在自动问答中,将目标文本设置为问题文本,使得抽取出的新文本尽可能和问题相关;在文本匹配任务中,设置目标文本为匹配的短文本;而在分类任务中,没有预先设置目标文本,在抽取过程中,将抽取出的文本作为目标文本,使得抽取出的文本语义更加集中,这种方式保证了压缩后的文本和下游任务的主题一致性,对计算能力也是一项挑战。但是这一工作没有探讨生成的数据集能否作为一种增强数据来使用。
[0004]由此,需设计一种面向长文本自动摘要任务的数据增强策略及方法。

技术实现思路

[0005]本专利技术的目的是克服现有技术存在的不足,提供一种面向长文本自动摘要任务的数据增强系统及其方法。
[0006]本专利技术的目的通过以下技术方案来实现:
[0007]面向长文本自动摘要任务的数据增强系统,特点是:包含文本处理模块、文本表示模块、模型构建模块、关键信息评分模块以及解码模块;
[0008]所述文本处理模块,读取数据进行分词并将其映射到唯一的索引;
[0009]所述文本表示模块,通过文本表示将非数值型文本编码成数值型数据;
[0010]所述模型构建模块,根据摘要任务构建模型的框架;
[0011]所述关键信息评分模块,对通过构建模型的运算且经过特征提取之后的信息进行评分排序并进行分类重组;
[0012]所述解码模块,将分类重组的文本生成摘要。
[0013]进一步地,上述的面向长文本自动摘要任务的数据增强系统,其中,所述文本处理模块包含中文词切分模块和数据筛选模块,所述中文词切分词模块,用于摘要源文本中文分词,依赖词表将文本中的词语进行切分,采用分词工具,得到一串词汇序列;所述数据筛选模块,对分词后所得的数据进行重新检查数据的一致性,处理无效数据与缺失数据。
[0014]进一步地,上述的面向长文本自动摘要任务的数据增强系统,其中,所述文本表示模块,将文本处理模块处理后的源文本数据采用LSTM模型进行编码,通过拼接前向嵌入与后向嵌入表示出字符级单词向量。
[0015]进一步地,上述的面向长文本自动摘要任务的数据增强系统,其中,所述模型构建模块包含预训练模块和词信息特征提取模块;所述预训练模块,词向量在进入特征提取前,将文本编码后生成的单词表示向量采用LSTM预训练模型训练生成上下文相关的词向量;所述词信息特征提取模块,预训练模型生成的上下文相关的词向量进行运算,从词向量提取关键信息的特征。
[0016]进一步地,上述的面向长文本自动摘要任务的数据增强系统,其中,所述关键信息评分模块,将经过模型构建模块的预训练模块和词信息特征提取模块后的数据进行关键信息提取,利用LSTM将一个序列经过运算映射成一个中间语义向量,并对每个关键信息进行评分排序。
[0017]进一步地,上述的面向长文本自动摘要任务的数据增强系统,其中,所述解码模块,将生成的中间语义向量解码生成最终的摘要。
[0018]本专利技术面向长文本自动摘要任务的数据增强方法,包括以下步骤:
[0019]首先,将源文本进行文本处理;
[0020]然后,将文本处理之后的文本数据进行BiLSTM编码,将生成的字符级词向量序列输入到LSTM预训练模型模块进行训练,生成上下文相关的词向量;
[0021]之后,将词向量输入到模型构建模块的词信息特征提取模块进行关键信息的特征提取,提取到输入文本的关键信息,特征在数学上的表示均是高维向量;
[0022]继而,将特征向量输入关键信息评分模块,提取的中间语义信息通过softmax映射到对应文本长度的区间长度的0/1向量,这一向量用来表示文本的关键信息;
[0023]最后,将关键信息输入到解码模块,生成最终的摘要。
[0024]更进一步地,上述的面向长文本自动摘要任务的数据增强方法,其中,由文本处理模块,对源文本进行中文分词以及去除停用词;由文本表示模块,对文本序列采用BiLSTM编码;由模型构建模块,将词向量输入预训练模块形成上下文相关的词向量,由词信息特征提取模块进行词向量的特征提取;由关键信息评分模块,将提取的特征进行信息评分;由解码模块,经信息评分排序形成源文本的摘要。
[0025]更进一步地,上述的面向长文本自动摘要任务的数据增强方法,其中,由文本处理模块的中文词切分模块,对源文本中文本中文分词,采用分词工具将源文本中的词语进行单个字符切分,形成一串中文词汇序列;
[0026]由文本表示模块将文本数据采用BiLSTM编码表示为可理解和处理的编码序列;通过记忆门、遗忘门计算词向量,并对文本序列的前后词信息及其特征进行捕捉,充分学习源文本上下文长距离的依赖关系,记忆门和遗忘门的计算如下:
[0027]计算遗忘门,为减少计算量,需遗忘部分的信息,其输入为上一个时刻的词向量h
t
‑1,当前时刻的输入词向量为x
i
,w
j
为该层权重矩阵用于去除部分冗余信息,b
f
为该层的偏差矩阵,σ为激活函数,最后输出是遗忘门的值∫
t
,即为遗忘部分信息之后的词向量,将其代入公式(4);
[0028]f
t
=σ(W
f
·
[h
t
‑1,x
t
+b
f
])
ꢀꢀ
(1)
[0029]计算记忆门,除了遗忘门还需要对重要的信息进行保留,输入为前一时刻的词向量h
t
‑1,当前时刻本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向长文本自动摘要任务的数据增强系统,其特征在于:包含文本处理模块(1)、文本表示模块(2)、模型构建模块(3)、关键信息评分模块(4)以及解码模块(5);所述文本处理模块(1),读取数据进行分词并将其映射到唯一的索引;所述文本表示模块(2),通过文本表示将非数值型文本编码成数值型数据;所述模型构建模块(3),根据摘要任务构建模型的框架;所述关键信息评分模块(4),对通过构建模型的运算且经过特征提取之后的信息进行评分排序并进行分类重组;所述解码模块(5),将分类重组的文本生成摘要。2.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统,其特征在于:所述文本处理模块(1)包含中文词切分模块(101)和数据筛选模块(102),所述中文词切分词模块(101),用于摘要源文本中文分词,依赖词表将文本中的词语进行切分,采用分词工具,得到一串词汇序列;所述数据筛选模块(102),对分词后所得的数据进行重新检查数据的一致性,处理无效数据与缺失数据。3.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统,其特征在于:所述文本表示模块(2),将文本处理模块(1)处理后的源文本数据采用LSTM模型进行编码,通过拼接前向嵌入与后向嵌入表示出字符级单词向量。4.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统,其特征在于:所述模型构建模块(3)包含预训练模块(301)和词信息特征提取模块(302);所述预训练模块(301),词向量在进入特征提取前,将文本编码后生成的单词表示向量采用LSTM预训练模型训练生成上下文相关的词向量;所述词信息特征提取模块(302),预训练模型生成的上下文相关的词向量进行运算,从词向量提取关键信息的特征。5.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统,其特征在于:所述关键信息评分模块(4),将经过模型构建模块(3)的预训练模块(301)和词信息特征提取模块(302)后的数据进行关键信息提取,利用LSTM将一个序列经过运算映射成一个中间语义向量,并对每个关键信息进行评分排序。6.根据权利要求1所述的面向长文本自动摘要任务的数据增强系统,其特征在于:所述解码模块(5),将生成的中间语义向量解码生成最终的摘要。7.权利要求1所述的系统实现面向长文本自动摘要任务的数据增强方法,其特征在于:包括以下步骤:首先,将源文本进行文本处理;然后,将文本处理之后的文本数据进行BiLSTM编码,将生成的字符级词向量序列输入到LSTM预训练模型模块进行训练,生成上下文相关的词向量;之后,将词向量输入到模型构建模块(3)进行关键信息的特征提取,提取到输入文本的关键信息,特征在数学上的表示均是高维向量;继而,将特征向量输入关键信息评分模块(4),提取的中间语义信息通过softmax映射到对应文本长度的区间长度的0/1向量,这一向量用来表示文本的关键信息;最后,将关键信息输入到解码模块(5),生成最终的摘要。8.根据权利要求7所述的面向长文本自动摘要任务的数据增强方法,其特征在于:由文本处理模块(1),对源文本进行中文分词以及去除停用词;由文本表示模块(2),对文本序列
采用BiLSTM编码;由模型构建模块(3),将词向量输入预训练模块形成上下文相关的词向量,由词信息特征提取模块(302)进行词向量的特征提取;由关键信息评分模块(4),将提取的特征进行信息评分;由解码模块(5),经信息评分排序形成源文本的摘要。9.根据权利要求7所述的面向长文本自动摘要任务的数据增强方法,其特征在于:由文本处理模块(1)的中文词切分模块(101),对源文本中文本中文分词,采用分词工具将源文本中的词语进行单个字符切分,形成一串中文词汇序列;由文本表示模块(2)将文本数据采用BiLSTM编码表示为可理解和处理的编码序列;通过记忆门、遗忘门计算词向量,并对文本序列的前后词信息及其特征进行捕捉,充分学习源文本上下文长距离的依赖关系,记忆门和遗忘门的计算如下:计算遗忘门,为减少计算量,需遗忘部分的信息,其输入为上一个时刻的词向量h
t
‑1,当前时刻的...

【专利技术属性】
技术研发人员:皮洲刘迪奚雪峰左严崔志明
申请(专利权)人:江苏新希望科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1