一种基于输入共享的文本摘要生成方法技术

技术编号:34253302 阅读:16 留言:0更新日期:2022-07-24 12:04
本发明专利技术公开了一种基于输入共享的文本摘要生成方法。所述方法包括以下步骤:对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,得到候选摘要数据集;得到模型输入序列,计算模型输入序列的注意力掩码矩阵;构建文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;使用候选摘要得分,以候选摘要文本的真实得分监督文本摘要生成模型的训练,得到训练好的文本摘要生成模型;获取待推理文本,进行预处理后输入训练好的文本摘要生成模型,选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。本发明专利技术能够减少输入到模型中的词数,在保留大部分生成效果的前提下,极大提高模型的训练速度与推理速度。极大提高模型的训练速度与推理速度。极大提高模型的训练速度与推理速度。

A text summarization generation method based on input sharing

【技术实现步骤摘要】
一种基于输入共享的文本摘要生成方法


[0001]本专利技术涉及深度学习和自然语言处理,尤其是涉及一种基于输入共享的文本摘要生成方法。

技术介绍

[0002]自动文本摘要指用程序处理长文本,得到保留主要语义的摘要的过程。随着进入数据量飞速增长的大数据时代,能够有效减少需要阅读的文字数量的自动文本摘要方法愈加受到关注。当前自动文本摘要方法可分成两大类:生成式摘要方法和抽取式摘要方法,生成式摘要方法根据原文生成得到摘要,可生成原文未有的新词,而抽取式摘要方法则从原文中摘取部分句子或片段,组成摘要,更具连贯性。
[0003]目前主流的抽取式摘要方法多为句子级摘要抽取算法,即使用模型获取句子表征,再使用序列标注框架:通过对每个句子表征进行独立的预测是否属于摘要文本;或者使用自回归形式:每次解码获得本次需要抽取的句子,并在下次解码预测时,考虑上次抽取出的句子的影响。
[0004]当前出现了一种文档级别的抽取式摘要生成算法(Extractive Summarization as Text Matching),即对多个候选摘要进行打分,而非句子级别打分。此方法避免了句子级方法的缺点,但多个候选摘要同时输入模型进行计算,也暴露出该方法在计算量、显存占用上的缺点,因而需要采用一种输入共享的方法,缓解该方法的缺点。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而设计的一种基于输入共享的文本摘要抽取方法,该方法基于现有文档级抽取式摘要生成方法,通过共享文档和候选摘要的文本输入以减少显存占用量并提高训练和推理速度,通过使用多专家模块提高文档向量表征的多样性以提高效果,具有广泛的实用价值。
[0006]本专利技术的目的至少通过如下技术方案之一实现。
[0007]一种基于输入共享的文本摘要生成方法,包括以下步骤:
[0008]S1、基于句子级别的抽取式摘要生成算法,对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,进而得到候选摘要数据集;
[0009]S2、在原文本序列前后补充代表文本和候选摘要文本的特殊符,得到模型输入序列,计算模型输入序列的注意力掩码矩阵;
[0010]S3、构建文本摘要生成模型,将模型输入序列和模型输入序列的注意力掩码矩阵输入到文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;
[0011]S4、损失计算与推理,使用步骤S3中得到的候选摘要得分,在训练时以候选摘要文本的真实得分监督文本摘要生成模型的训练,并以KL散度函数作为指导增大多专家模块之间的多样性,提高多专家模块的集成效果,得到训练好的文本摘要生成模型;
[0012]S5、获取待推理文本,进行预处理后输入训练好的文本摘要生成模型,选取候选摘
要得分的候选摘要文本作为待推理文本的摘要文本。
[0013]进一步地,步骤S1中,具体如下:
[0014]获取多个文本,使用开源的句子级别的抽取式文本摘要生成算法,对每一个文本都进行处理并计算,获得该文本中评分排名高的最多10个句子,然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本;
[0015]获取每个文本对应的T个候选摘要文本的真实得分,得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集。
[0016]进一步地,获取文本对应的参考摘要,将候选摘要文本与参考摘要进行比较,分别计算ROUGE

1得分、ROUGE

2得分和ROUGE

L得分,并计算三者的平均值,作为候选摘要文本的真实得分。
[0017]进一步地,步骤S2中,在原文本序列前后补充代表原文本和候选摘要文本的特殊符,得到模型输入序列,具体如下:
[0018]原文本序列表示为d={s1,s2,

,s
m
},其中m为文本的句子数量,每个句子s
i
={w
i1
,w
i2
,

,w
in
},其中n为句子s
i
包含的单词数量,w
in
表示句子s
i
的第n个词语;
[0019]模型输入序列中,将文本的多个句子文本使用特殊符[SEP]连接起来;代表文本和代表候选摘要文本的特殊符相同,在原文本序列头部补充特殊符[CLS]作为原文本表示词,在原文本序列尾部补充多个特殊符[CLS]t
作为候选摘要文本表示词,[CLS]t
表示原文本中得到的第t个候选摘要文本对应的特殊符,t=1~T,T为候选摘要文本的个数;
[0020]对原文本序列处理后,得到的模型输入序列表示为:
[0021]z={CLS,w
11
,

,w
1n
,SEP,

,w
m1
,

,w
mn
,SEP,CLS1,

,CLS
T
}
[0022]获取模型输入序列对应的位置编码序列,对所有的[CLS]特殊符,其位置编码均为0,而文本词语的位置编码按序列长度增长;
[0023]获取模型输入序列对应的片段编码序列,对所有的[CLS]t
特殊符,其片段编码均为S0,而文本词语的片段编码是使用S0、S1两种编码,按照句子索引,交错分布;
[0024]最后依据BERT模型的词表将模型输入序列、位置编码序列、片段编码序列分别映射为各自的one hot向量。
[0025]进一步地,步骤S2中,计算模型输入序列的注意力掩码矩阵具体如下:
[0026]注意力计算式:
[0027][0028]式中mask即为掩码矩阵中的值,为0代表不被遮蔽,为1代表被遮蔽,因计算得到的注意力还会经过SoftMax函数,因而被遮蔽即减去10000.0,会使得SoftMax函数的结果为0,即构成遮蔽注意力的效果;
[0029]所述注意力掩码矩阵用于BERT模型的自注意力计算模块,用于屏蔽不相关内容的注意力交互;其中代表原文本的特殊符和原文本的词语能够进行相互的注意力计算,即在注意力掩码矩阵上并未屏蔽原文本和原文本的词语之间的计算;而代表候选摘要文本的特殊符仅能与部分原文本的词语进行相互的注意力计算,具体为代表候选摘要文本的特殊符,仅能与其代表的候选摘要文本中的词语进行注意力计算,原文本的词语也只能与被包含到的候选摘要文本的特殊符进行注意力计算。
[0030]进一步地,步骤S3中,文本摘要生成模型包括BERT模型和多个专家模块,其中BERT模型作为编码层,BERT模型的输出连接多个专家模块的输入。
[0031]进一步地,基于三种one hot向量,采用已经完成预训练的BERT模型的词嵌入矩阵、位置编码嵌入矩阵、片段编码嵌入矩阵对模型输入序列进行表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于输入共享的文本摘要生成方法,其特征在于,包括以下步骤:S1、基于句子级别的抽取式摘要生成算法,对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,进而得到候选摘要数据集;S2、在原文本序列前后补充代表文本和候选摘要文本的特殊符,得到模型输入序列,计算模型输入序列的注意力掩码矩阵;S3、构建文本摘要生成模型,将模型输入序列和模型输入序列的注意力掩码矩阵输入到文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;S4、使用步骤S3中得到的候选摘要得分,以候选摘要文本的真实得分监督文本摘要生成模型的训练,得到训练好的文本摘要生成模型;S5、获取待推理文本,进行预处理后输入训练好的文本摘要生成模型,选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。2.根据权利要求1所述的一种基于输入共享的文本摘要生成方法,其特征在于,步骤S1中,具体如下:获取多个文本,使用开源的句子级别的抽取式文本摘要生成算法,对每一个文本都进行处理并计算,获得该文本中评分排名高的最多10个句子,然后对获得的句子每2个句子或每3个句子组合得到该文本对应的T个候选摘要文本;获取每个文本对应的T个候选摘要文本的真实得分,得到包括原文本、原文本对应的T个候选摘要文本以及原文本对应的T个候选摘要文本的真实的得分的候选摘要数据集。3.根据权利要求2所述的一种基于输入共享的文本摘要生成方法,其特征在于,获取文本对应的参考摘要,将候选摘要文本与参考摘要进行比较,分别计算ROUGE

1得分、ROUGE

2得分和ROUGE

L得分,并计算三者的平均值,作为候选摘要文本的真实得分。4.根据权利要求1所述的一种基于输入共享的文本摘要生成方法,其特征在于,步骤S2中,在原文本序列前后补充代表原文本和候选摘要文本的特殊符,得到模型输入序列,具体如下:原文本序列表示为d={s1,s2,

,s
m
},其中m为文本的句子数量,每个句子s
i
={w
i1
,w
i2
,

,w
in
},其中n为句子s
i
包含的单词数量,w
in
表示句子s
i
的第n个词语;模型输入序列中,将文本的多个句子文本使用特殊符[SEP]连接起来;代表文本和代表候选摘要文本的特殊符相同,在原文本序列头部补充特殊符[CLS]作为原文本表示词,在原文本序列尾部补充多个特殊符[CLS]
t
作为候选摘要文本表示词,[CLS]
t
表示原文本中得到的第t个候选摘要文本对应的特殊符,t=1~T,T为候选摘要文本的个数;对原文本序列处理后,得到的模型输入序列表示为:z={CLS,w
11
,

,w
1n
,SEP,

,w
m1
,

,w
mn
,SEP,CLS1,

,CLS
T
}获取模型输入序列对应的位置编码序列,对所有的[CLS]特殊符,其位置编码均为0,而文本词语的位置编码按序列长度增长;获取模型输入序列对应的片段编码序列,对所有的[CLS]
t
特殊符,其片段编码均为S0,而文本词语的片段编码是使用S0、S1两种编码,按照句子索引,交错分布;最后依据BERT模型的词表将模型输入序列、位置编码序列、片段编码序列分别映射为各自的one hot向量。5.根据权利要求1所述的一种基于输入共享的文本摘要生成方法,其特征在于,步骤S2
中,计算模型输入序列的注意力掩码矩阵具体如下:注意力计算式:式中mask即为掩码矩阵中的值,为0代表不被遮蔽,为1代表被遮蔽,因计算得到的注意力还会经过SoftMax函数,因而被遮蔽即减去10000.0,会使得SoftMax函数的结果为0,即构成遮蔽注意力的效果;所述注意力掩码矩阵用于BERT模型的自注意力计算模块,用于屏蔽不相关内容的注意力交互;其中代表原文本的特殊符和原文本的词语能够进行相互的注意力计算,即在注意力掩码矩阵上并未屏蔽原文本和原文本的词语之间的计算;而代表候选摘要文本的特殊符仅能与部分原文本的词语进行相互的注意力计算,具体为代表候选摘要文本的特殊符,仅能与其代表的候选摘要文本中的词语进行注意力计算,原文本的词语也只能与被包含到的候选摘要文本的特殊符进行注意力计算。6.根据权利要求1~5所述的一种基于输入共享的文本摘要生成方法,其特征在于,步骤S3中,文本摘要生成模型包括BERT模型和多个专家模块,其中BERT模型作为编码层,BERT模型的输出连接多个专家模块的输入。7.根据权利要求6所述的一种基于输入共享的文本摘要生成方法,其特征在于,基于三种one hot向量,采用已经完成预训练的BERT模型的词嵌入矩阵、位置编码嵌入矩阵、片段编码嵌入矩阵对模型输入序列进行表示,将模型输入序列和模型输入...

【专利技术属性】
技术研发人员:苏锦钿位慧泽
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1