一种基于BERT和外部知识的生成式自动文摘方法技术

技术编号：33247040 阅读：56 留言：0更新日期：2022-04-27 18:01

本发明专利技术属于自然语言处理领域，具体涉及一种基于BERT和外部知识的生成式自动文摘方法，包括获取文档数据，并通过TextRank模块获取文档数据对应的关键词；将文档数据输入到BERT模型中进行编码，得到编码后的文档信息；通过关键词从外部知识模块检索外部知识，通过门控机制将外部知识与文档信息进行融合；将融合后的信息输入到Transformer模型进行解码，生成摘要；本发明专利技术使用BERT模型对文档数据编码捕捉更多的上下文信息和内部信息，提高编码的质量，使用关键词获取外部知识与文档信息进行融合，用Transformer模型丰富生成文摘的语义，提高生成摘要的流畅性和完整性，生成高质量的摘要。要。要。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT和外部知识的生成式自动文摘方法

[0001]本专利技术属于自然语言处理领域，具体涉及一种基于BERT和外部知识的生成式自动文摘方法。

技术介绍

[0002]随着科技的进步和移动互联网行业的蓬勃发展，每个网民甚至每个终端都成为了互联网信息的生产者。面对海量的信息，信息过载的现象日益严重，如何让人们高效的获取所需要的信息成为当今时代极大的挑战。为了更高效的获取到所需要的信息，自动文本摘要逐渐成为一门不可或缺的技术。
[0003]自动文本摘要可以分为抽取式自动文本摘要和生成式自动文本摘要。抽取式文摘通过从原始文档中选择一些相关句子来生成摘要，文摘的长度取决于压缩率，这是一种简单而有效的文本摘要方法。生成式文摘通过抽象概括生成摘要，其基本思路是在理解原文语义的基础上，凝练原始文档的思想与概念，以实现语义重构。Mihalcea等人提出了TextRank方法来进行文本摘要。Erkan等人提出了LexRank方法来进行文本摘要，TextRank通过句中词共现个数计算句子相似度，主要应用在单文档自动摘要生成中，而LexRank是基于统计词频TF
‑
IDF向量的余弦相似度，主要应用在多文档自动摘要生成方面。Mehdad等人在基于图排序的生成式方法的基础上提出了基于图排序算法的最佳路径排名策略，将其应用于生成式文本摘要中。吴仁守等人在编码器端引入全局自匹配机制进行全局优化，并利用全局门控单元抽取出文本的核心内容，该模型能有效融合全局信息，挖掘出原文本的核心内容，在LCSTS数据集上实验表明，该模

【技术保护点】

【技术特征摘要】
1.一种基于BERT和外部知识的生成式自动文摘方法，其特征在于，获取文档数据并进行预处理；将预处理后的文档数据输入到训练好的生成式自动文摘模型中生成文档对应的摘要；生成式自动文摘模型包括TextRank模块、BERT模块、外部知识模块和Transformer模型；生成式自动文摘模型的训练过程包括：S1.获取原始文摘数据，对原始文摘数据进行预处理；S2.将预处理后的原始文摘数据送入TextRank模块获取关键词，同时将预处理后的原始文摘数据输入到BERT模块中进行编码，得到编码数据；S3.根据关键词从外部知识模块中检索相关的知识信息，将知识信息与编码数据通过门控机制进行融合；S4.将融合后的数据输入到Transformer模型进行解码，得到解码数据，将解码数据输入全连接层，将全连接层的输出结果输入softmax层生成摘要；设置迭代初始次数；S5.采用交叉熵损失函数训练生成式自动文摘模型，采用Adam算法优化生成式自动文摘模型，即调整BERT模块和Transformer模型的参数；判断交叉熵损失函数计算结果是否达到最小值，若是，则结束训练，否则进入步骤S6；S6.判断迭代次数是否达到最大迭代次数，若达到，则完成生成式自动文摘模型的训练，否则返回步骤S5，且迭代次数加1。2.根据权利要求1所述的一种基于BERT和外部知识的生成式自动文摘方法，其特征在于，对原始文摘数据进行预处理的过程为：S11.对原始文摘数据进行分词处理，并使用BERT的词表将分词处理后的原始文摘数据转化为id文件；S12.设定序列长度最大值，根据序列长度最大值对id文件进行填充padding。3.根据权利要求1所述的一种基于BERT和外部知识的生成式自动文摘方法，其特征在于，获取编码数据的过程包括：S21.对预处理后的原始文摘数据进行标记，得到标记文档，标记文档表示为：S＝[CLS],D
11
,
…
,D
1m
,[SEP],
…
D
ij
…
,[CLS],D
n1
,
…
,D
nx
,[SEP]；S22.对标记文档进行embedding，获取标记文档的文档词嵌入，文档词嵌入表示为：h＝BERT.embedding(S)；S23.将文档词嵌入输入到BERT模型中获取编码数据，编码数据表示为：T
d
＝BERT(h)；其中，D表示预处理后的原始文摘数据，S表示标记文档，D
i
表示预处理后的原始文摘数据中的第i句话，D
ij
表示预处理后的原始文摘数据中第i句话的第j个单词，[CLS]和[SEP]为每句话的分隔符；h表示文档词嵌入，BERT.embedding(
·
)表示embedding操作；BERT(
·
)表示BERT模型，T
d
＝T
[CLS]
,T
11
,
…
,T
1m
,T
[SEP]
,
…
T
ij
…
,T
[CLS]
,T
n1
,
…
,T
nx
,T
[SEP]
表示编码数据，T
[SEP]...

【专利技术属性】
技术研发人员：张璞，尘勇，谢传威，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人