一种基于BERT和外部知识的生成式自动文摘方法技术

技术编号:33247040 阅读:56 留言:0更新日期:2022-04-27 18:01
本发明专利技术属于自然语言处理领域,具体涉及一种基于BERT和外部知识的生成式自动文摘方法,包括获取文档数据,并通过TextRank模块获取文档数据对应的关键词;将文档数据输入到BERT模型中进行编码,得到编码后的文档信息;通过关键词从外部知识模块检索外部知识,通过门控机制将外部知识与文档信息进行融合;将融合后的信息输入到Transformer模型进行解码,生成摘要;本发明专利技术使用BERT模型对文档数据编码捕捉更多的上下文信息和内部信息,提高编码的质量,使用关键词获取外部知识与文档信息进行融合,用Transformer模型丰富生成文摘的语义,提高生成摘要的流畅性和完整性,生成高质量的摘要。要。要。

【技术实现步骤摘要】
一种基于BERT和外部知识的生成式自动文摘方法


[0001]本专利技术属于自然语言处理领域,具体涉及一种基于BERT和外部知识的生成式自动文摘方法。

技术介绍

[0002]随着科技的进步和移动互联网行业的蓬勃发展,每个网民甚至每个终端都成为了互联网信息的生产者。面对海量的信息,信息过载的现象日益严重,如何让人们高效的获取所需要的信息成为当今时代极大的挑战。为了更高效的获取到所需要的信息,自动文本摘要逐渐成为一门不可或缺的技术。
[0003]自动文本摘要可以分为抽取式自动文本摘要和生成式自动文本摘要。抽取式文摘通过从原始文档中选择一些相关句子来生成摘要,文摘的长度取决于压缩率,这是一种简单而有效的文本摘要方法。生成式文摘通过抽象概括生成摘要,其基本思路是在理解原文语义的基础上,凝练原始文档的思想与概念,以实现语义重构。Mihalcea等人提出了TextRank方法来进行文本摘要。Erkan等人提出了LexRank方法来进行文本摘要,TextRank通过句中词共现个数计算句子相似度,主要应用在单文档自动摘要生成中,而LexRank是基于统计词频TF

IDF向量的余弦相似度,主要应用在多文档自动摘要生成方面。Mehdad等人在基于图排序的生成式方法的基础上提出了基于图排序算法的最佳路径排名策略,将其应用于生成式文本摘要中。吴仁守等人在编码器端引入全局自匹配机制进行全局优化,并利用全局门控单元抽取出文本的核心内容,该模型能有效融合全局信息,挖掘出原文本的核心内容,在LCSTS数据集上实验表明,该模型的性能有显著提高。Li等人提出了一种用于文本摘要的双注意力指针网络,该方法引入了自我关注机制来获取源文本的关键信息,并且结合门控机制控制信息的选择。在现有覆盖机制的基础上,增加了截断参数,防止该机制干扰其他目标的生成。
[0004]以上技术都是基于原文档直接生成摘要,和人工撰写摘要相比,没有考虑外部先验知识,导致生成的摘要无法准确的表达文档主旨,而且难以保证生成摘要的连贯性和一致性。

技术实现思路

[0005]为解决上述问题,本专利技术提供了一种基于BERT和外部知识的生成式自动文摘方法,获取文档数据并进行预处理;将预处理后的文档数据输入到训练好的生成式自动文摘模型中生成文档对应的摘要;生成式自动文摘模型包括TextRank模块、BERT模块、外部知识模块和Transformer模型;
[0006]生成式自动文摘模型的训练过程包括:
[0007]S1.获取原始文摘数据,对原始文摘数据进行预处理;
[0008]S2.将预处理后的原始文摘数据送入TextRank模块获取关键词,同时将预处理后的原始文摘数据输入到BERT模块中进行编码,得到编码数据;
[0009]S3.根据关键词从外部知识模块中检索相关的知识信息,将知识信息与编码数据通过门控机制进行融合;
[0010]S4.将融合后的数据输入到Transformer模型进行解码,得到解码数据,将解码数据输入全连接层,将全连接层的输出结果输入softmax层生成摘要;设置迭代初始次数;
[0011]S5.采用交叉熵损失函数训练生成式自动文摘模型,采用Adam算法优化生成式自动文摘模型,即调整BERT模块和Transformer模型的参数;判断交叉熵损失函数计算结果是否达到最小值,若是,则结束训练,否则进入步骤S6;
[0012]S6.判断迭代次数是否达到最大迭代次数,若达到,则完成生成式自动文摘模型的训练,否则返回步骤S5,且迭代次数加1。
[0013]进一步的,对原始文摘数据进行预处理的过程为:
[0014]S11.对原始文摘数据进行分词处理,并使用BERT的词表将分词处理后的原始文摘数据转化为id文件;
[0015]S12.设定序列长度最大值,根据序列长度最大值对id文件进行填充padding。
[0016]进一步的,获取编码数据的过程包括:
[0017]S21.对预处理后的原始文摘数据进行标记,得到标记文档,标记文档表示为:
[0018]S=[CLS],D
11
,

,D
1m
,[SEP],

D
ij

,[CLS],D
n1
,

,D
nx
,[SEP];
[0019]S22.对标记文档进行embedding,获取标记文档的文档词嵌入,文档词嵌入表示为:
[0020]h=BERT.embedding(S);
[0021]S23.将文档词嵌入输入到BERT模型中获取编码数据,编码数据表示为:
[0022]T
d
=BERT(h);
[0023]其中,D表示预处理后的原始文摘数据,S表示标记文档,D
i
表示预处理后的原始文摘数据中的第i句话,D
ij
表示预处理后的原始文摘数据中第i句话的第j个单词,[CLS]和[SEP]为每句话的分隔符;h表示文档词嵌入,BERT.embedding(
·
)表示embedding操作;BERT(
·
)表示BERT模型,T
d
=T
[CLS],T
11
,

,T
1m
,T
[SEP],

T
ij

,T
[CLS],T
n1
,

,T
nx
,T
[SEP]表示编码数据,T
[SEP]和T
[CLS]表示编码数据中每句话的分隔符,T
ij
表示编码数据中第i句话的第j个单词。
[0024]进一步的,BERT模型中采用多头注意力机制,其表示为:
[0025][0026]head
i
=Attention(QW
iQ
,KW
iK
,VW
iV
);
[0027]MultHead(Q,K,V)=Concat(head1,

,head
h
)W
O

[0028]其中,Attention(
·
)表示注意力机制;Q表示查询向量,K表示键向量、V表示值向量;softmax(
·
)表示归一化函数,T为矩阵转置的标识,d
k
表示键向量的维度,head
i
为第h次投影得到的Attention值,i为投影的次数,W
iQ
为Q向量训练权重矩阵,W
iK
为K向量训练权重矩阵,W
iV
为V向量训练权重矩阵,MultHead(
·
)表示多头注意力机制的最终输出,W
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,获取文档数据并进行预处理;将预处理后的文档数据输入到训练好的生成式自动文摘模型中生成文档对应的摘要;生成式自动文摘模型包括TextRank模块、BERT模块、外部知识模块和Transformer模型;生成式自动文摘模型的训练过程包括:S1.获取原始文摘数据,对原始文摘数据进行预处理;S2.将预处理后的原始文摘数据送入TextRank模块获取关键词,同时将预处理后的原始文摘数据输入到BERT模块中进行编码,得到编码数据;S3.根据关键词从外部知识模块中检索相关的知识信息,将知识信息与编码数据通过门控机制进行融合;S4.将融合后的数据输入到Transformer模型进行解码,得到解码数据,将解码数据输入全连接层,将全连接层的输出结果输入softmax层生成摘要;设置迭代初始次数;S5.采用交叉熵损失函数训练生成式自动文摘模型,采用Adam算法优化生成式自动文摘模型,即调整BERT模块和Transformer模型的参数;判断交叉熵损失函数计算结果是否达到最小值,若是,则结束训练,否则进入步骤S6;S6.判断迭代次数是否达到最大迭代次数,若达到,则完成生成式自动文摘模型的训练,否则返回步骤S5,且迭代次数加1。2.根据权利要求1所述的一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,对原始文摘数据进行预处理的过程为:S11.对原始文摘数据进行分词处理,并使用BERT的词表将分词处理后的原始文摘数据转化为id文件;S12.设定序列长度最大值,根据序列长度最大值对id文件进行填充padding。3.根据权利要求1所述的一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,获取编码数据的过程包括:S21.对预处理后的原始文摘数据进行标记,得到标记文档,标记文档表示为:S=[CLS],D
11
,

,D
1m
,[SEP],

D
ij

,[CLS],D
n1
,

,D
nx
,[SEP];S22.对标记文档进行embedding,获取标记文档的文档词嵌入,文档词嵌入表示为:h=BERT.embedding(S);S23.将文档词嵌入输入到BERT模型中获取编码数据,编码数据表示为:T
d
=BERT(h);其中,D表示预处理后的原始文摘数据,S表示标记文档,D
i
表示预处理后的原始文摘数据中的第i句话,D
ij
表示预处理后的原始文摘数据中第i句话的第j个单词,[CLS]和[SEP]为每句话的分隔符;h表示文档词嵌入,BERT.embedding(
·
)表示embedding操作;BERT(
·
)表示BERT模型,T
d
=T
[CLS]
,T
11
,

,T
1m
,T
[SEP]
,

T
ij

,T
[CLS]
,T
n1
,

,T
nx
,T
[SEP]
表示编码数据,T
[SEP]...

【专利技术属性】
技术研发人员:张璞尘勇谢传威
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1