基于BERT预训练模型的中文文本摘要抽取方法及装置制造方法及图纸

技术编号:33306906 阅读:20 留言:0更新日期:2022-05-06 12:17
本发明专利技术提供一种基于BERT预训练模型的中文文本摘要抽取方法及装置,所述方法包括:获取待抽取文本并基于LDA融合算法待抽取文本的关键词;将所述待抽取文本输入至BERT预训练语言模型中,得到所述待抽取文本固定维度的句向量;其中,所述BERT预训练语言模型通过对多个文本样本以及对应的样本句向量生成结果训练获取;对所述句向量进行权重计算并基于所述关键词进行权重修正,得到所述待抽取文本的文本摘要。本发明专利技术能够通过关键词反映文本的上下文语义,从而提高文本摘要的质量。从而提高文本摘要的质量。从而提高文本摘要的质量。

【技术实现步骤摘要】
基于BERT预训练模型的中文文本摘要抽取方法及装置


[0001]本专利技术涉及文本摘要提取
,尤其涉及一种基于BERT预训练模型的中文文本摘要抽取方法及装置。

技术介绍

[0002]近年来,随着互联网的快速发展与信息技术的进步,文本数据呈指数级速度增长。面对海量的文本数据,传统的阅读方式人们首先需要对文章进行通篇阅读,然后对文章进行总结,概括文章核心内容,整个流程人工成本高,效率低。因此,在面对长文本的场景下,为了快速获取文章摘要,节约人工成本,自动文摘技术就应运而生了。
[0003]自动文摘目前主要有抽取式摘要和生成式摘要这两种研究方向。然而,现有技术中对中文文本摘要进行摘取的方法还存在着对句子的语义理解不够透彻,无法捕获长文本的上下文语义以及忽略句子的关键词等问题。
[0004]因此,如何通过提取文章中的关键词,提高关键词与文本的语义关系,从而提高抽取的文本摘要的质量,是当前课题亟需解决的技术问题。

技术实现思路

[0005]本专利技术提供一种基于BERT预训练模型的中文文本摘要抽取方法及装置,用以解决现有技术中抽取的文本摘要质量不高的缺陷,实现对抽取的文本摘要质量的提高。
[0006]本专利技术提供一种基于BERT预训练模型的中文文本摘要抽取方法,包括:
[0007]获取待抽取文本并基于LDA融合算法待抽取文本的关键词;
[0008]将所述待抽取文本输入至BERT预训练语言模型中,得到所述待抽取文本固定维度的句向量;
[0009]其中,所述BERT预训练语言模型通过对多个文本样本以及对应的样本句向量生成结果训练获取;
[0010]对所述句向量进行权重计算并基于所述关键词进行权重修正,得到所述待抽取文本的文本摘要。
[0011]根据本专利技术提供的一种基于BERT预训练模型的中文文本摘要抽取方法,基于LDA融合算法待抽取文本的关键词,具体包括:
[0012]将所述待抽取文本输入至LDA主题模型中,得到所述待抽取文本的关键词;
[0013]其中,所述LDA主题模型为对多个文本样本数据集进行无监督训练生成的。
[0014]根据本专利技术提供的一种基于BERT预训练模型的中文文本摘要抽取方法,所述对所述句向量进行权重计算并基于所述关键词进行权重修正,得到所述待抽取文本的文本摘要,具体包括:
[0015]获取所述句向量中任一目标句子与其他句子的余弦相似度;
[0016]基于所述余弦相似度计算得到各个所述句向量的权重;
[0017]对所述句向量的权重基于所述句子关键词、句子位置以及句子长度进行修正,输
出所述句向量的权重修正结果,并基于所述权重修正结果得到所述待抽取文本的文本摘要。
[0018]根据本专利技术提供的一种基于BERT预训练模型的中文文本摘要抽取方法,所述基于所述余弦相似度计算得到各个所述句向量的权重,通过以下公式实现:
[0019][0020]所述余弦相似度通过以下公式实现:
[0021][0022]其中,v
i
、v
j
和v
k
为不同的句子,d为阻尼系数,w
ji
和w
jk
分别为句子v
i
和句子v
j
之间的余弦相似度以及句子v
k
和句子v
j
之间的余弦相似度,WS(v
i
)和WS(v
j
)分别为句子v
i
和v
j
的权重;A、B是句子v
i
、v
j
所对应的句向量。
[0023]根据本专利技术提供的一种基于BERT预训练模型的中文文本摘要抽取方法,所述对所述句向量的权重基于所述句子关键词、句子位置以及句子长度进行修正,包括:
[0024]对所述句向量基于所述句子关键词进行判断,若所述句向量对应的句子包括所述关键词,则提高所述句向量的权重;
[0025]对所述句向量基于句子位置进行判断,若所述句向量对应的句子位于待抽取文本的首句,则提高所述句向量的权重;
[0026]对所述句向量基于句子长度进行判断,若所述句向量的长度小于目标长度,则降低所述句向量的权重。
[0027]根据本专利技术提供的一种基于BERT预训练模型的中文文本摘要抽取方法,所述BERT预训练语言模型包括:嵌入层、编码层和平均池化层;
[0028]所述将所述待抽取文本和所述关键词输入至BERT预训练语言模型中,得到所述待抽取文本固定维度的句向量,具体包括:
[0029]基于所述嵌入层,将所述待抽取文本以及对应的所述关键词转换为句向量;
[0030]将所述句向量输入至所述编码层,输出多种维度的句向量的表征信息;
[0031]将多种维度的句向量的表征信息输入至所述平均池化层,对多维度的句向量的表征信息进行处理,生成固定维度的句向量。
[0032]本专利技术还提供一种基于BERT预训练模型的中文文本摘要抽取装置,包括:
[0033]文本及关键词获取模块,用于获取待抽取文本并基于LDA融合算法待抽取文本的关键词;
[0034]句向量获取模块,用于将所述待抽取文本输入至BERT预训练语言模型中,得到所述待抽取文本固定维度的句向量;
[0035]其中,所述BERT预训练语言模型通过对多个文本样本、关键词样本以及对应的样本句向量生成结果训练获取;
[0036]文本摘要获取模块,用于对所述句向量进行权重计算并基于所述关键词进行权重修正,得到所述待抽取文本的文本摘要。
[0037]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理
器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于BERT预训练模型的中文文本摘要抽取装置方法的步骤。
[0038]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于BERT预训练模型的中文文本摘要抽取装置方法的步骤。
[0039]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于BERT预训练模型的中文文本摘要抽取装置方法的步骤。
[0040]本专利技术提供的基于BERT预训练模型的中文文本摘要抽取方法及装置,通过获取待抽取文本以及对待抽取文本进行关键词提取,并将待抽取文本基于BERT预训练语言模型获取固定维度的句向量,然后对句向量进行权重计算和权重修正,得到待抽取文本的文本摘要。本专利技术所获取的文本摘要基于待抽取文本进行关键词的获取,因此能够通过关键词反映文本的上下文语义,从而提高了文本摘要的质量。
附图说明
[0041]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT预训练模型的中文文本摘要抽取方法,其特征在于,包括:获取待抽取文本并基于LDA融合算法待抽取文本的关键词;将所述待抽取文本输入至BERT预训练语言模型中,得到所述待抽取文本固定维度的句向量;其中,所述BERT预训练语言模型通过对多个文本样本以及对应的样本句向量生成结果训练获取;对所述句向量进行权重计算并基于所述关键词进行权重修正,得到所述待抽取文本的文本摘要。2.根据权利要求1所述的基于BERT预训练模型的中文文本摘要抽取方法,其特征在于,基于LDA融合算法待抽取文本的关键词,具体包括:将所述待抽取文本输入至LDA主题模型中,得到所述待抽取文本的关键词;其中,所述LDA主题模型为对多个文本样本数据集进行无监督训练生成的。3.根据权利要求1所述的基于BERT预训练模型的中文文本摘要抽取方法,其特征在于,所述对所述句向量进行权重计算并基于所述关键词进行权重修正,得到所述待抽取文本的文本摘要,具体包括:获取所述句向量中任一目标句子与其他句子的余弦相似度;基于所述余弦相似度计算得到各个所述句向量的权重;对所述句向量的权重基于所述句子关键词、句子位置以及句子长度进行修正,输出所述句向量的权重修正结果,并基于所述权重修正结果得到所述待抽取文本的文本摘要。4.根据权利要求3所述的基于BERT预训练模型的中文文本摘要抽取方法,其特征在于,所述基于所述余弦相似度计算得到各个所述句向量的权重,通过以下公式实现:所述余弦相似度通过以下公式实现:其中,v
i
、v
j
和v
k
为不同的句子,d为阻尼系数,w
ji
和w
jk
分别为句子v
i
和句子v
j
之间的余弦相似度以及句子v
k
和句子v
j
之间的余弦相似度,WS(v
i
)和WS(v
j
)分别为句子v
i
和v
j
的权重;A、B是句子v
i
、v
j
所对应的句向量。5.根据权利要求...

【专利技术属性】
技术研发人员:雷盟林怡静布宇凡
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1