基于BERT预训练模型的中文文本摘要抽取方法及装置制造方法及图纸

技术编号：33306906 阅读：20 留言：0更新日期：2022-05-06 12:17

本发明专利技术提供一种基于BERT预训练模型的中文文本摘要抽取方法及装置，所述方法包括：获取待抽取文本并基于LDA融合算法待抽取文本的关键词；将所述待抽取文本输入至BERT预训练语言模型中，得到所述待抽取文本固定维度的句向量；其中，所述BERT预训练语言模型通过对多个文本样本以及对应的样本句向量生成结果训练获取；对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要。本发明专利技术能够通过关键词反映文本的上下文语义，从而提高文本摘要的质量。从而提高文本摘要的质量。从而提高文本摘要的质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于BERT预训练模型的中文文本摘要抽取方法及装置

[0001]本专利技术涉及文本摘要提取
，尤其涉及一种基于BERT预训练模型的中文文本摘要抽取方法及装置。

技术介绍

[0002]近年来，随着互联网的快速发展与信息技术的进步，文本数据呈指数级速度增长。面对海量的文本数据，传统的阅读方式人们首先需要对文章进行通篇阅读，然后对文章进行总结，概括文章核心内容，整个流程人工成本高，效率低。因此，在面对长文本的场景下，为了快速获取文章摘要，节约人工成本，自动文摘技术就应运而生了。
[0003]自动文摘目前主要有抽取式摘要和生成式摘要这两种研究方向。然而，现有技术中对中文文本摘要进行摘取的方法还存在着对句子的语义理解不够透彻，无法捕获长文本的上下文语义以及忽略句子的关键词等问题。
[0004]因此，如何通过提取文章中的关键词，提高关键词与文本的语义关系，从而提高抽取的文本摘要的质量，是当前课题亟需解决的技术问题。

技术实现思路

[0005]本专利技术提供一种基于BERT预训练模型的中文文本摘要抽取方法及装置，用以解决现有技术中抽取的文本摘要质量不高的缺陷，实现对抽取的文本摘要质量的提高。
[0006]本专利技术提供一种基于BERT预训练模型的中文文本摘要抽取方法，包括：
[0007]获取待抽取文本并基于LDA融合算法待抽取文本的关键词；
[0008]将所述待抽取文本输入至BERT预训练语言模型中，得到所述待抽取文本固定维度的句向量；
[0009]其中，所述B...

【技术保护点】

【技术特征摘要】
1.一种基于BERT预训练模型的中文文本摘要抽取方法，其特征在于，包括：获取待抽取文本并基于LDA融合算法待抽取文本的关键词；将所述待抽取文本输入至BERT预训练语言模型中，得到所述待抽取文本固定维度的句向量；其中，所述BERT预训练语言模型通过对多个文本样本以及对应的样本句向量生成结果训练获取；对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要。2.根据权利要求1所述的基于BERT预训练模型的中文文本摘要抽取方法，其特征在于，基于LDA融合算法待抽取文本的关键词，具体包括：将所述待抽取文本输入至LDA主题模型中，得到所述待抽取文本的关键词；其中，所述LDA主题模型为对多个文本样本数据集进行无监督训练生成的。3.根据权利要求1所述的基于BERT预训练模型的中文文本摘要抽取方法，其特征在于，所述对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要，具体包括：获取所述句向量中任一目标句子与其他句子的余弦相似度；基于所述余弦相似度计算得到各个所述句向量的权重；对所述句向量的权重基于所述句子关键词、句子位置以及句子长度进行修正，输出所述句向量的权重修正结果，并基于所述权重修正结果得到所述待抽取文本的文本摘要。4.根据权利要求3所述的基于BERT预训练模型的中文文本摘要抽取方法，其特征在于，所述基于所述余弦相似度计算得到各个所述句向量的权重，通过以下公式实现：所述余弦相似度通过以下公式实现：其中，v
i
、v
j
和v
k
为不同的句子，d为阻尼系数，w
ji
和w
jk
分别为句子v
i
和句子v
j
之间的余弦相似度以及句子v
k
和句子v
j
之间的余弦相似度，WS(v
i
)和WS(v
j
)分别为句子v
i
和v
j
的权重；A、B是句子v
i
、v
j
所对应的句向量。5.根据权利要求...

【专利技术属性】
技术研发人员：雷盟，林怡静，布宇凡，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人