一种文本摘要生成方法及系统技术方案

技术编号:37135566 阅读:18 留言:0更新日期:2023-04-06 21:34
本发明专利技术是关于一种文本摘要生成方法及系统。该方法包括:对文本进行预处理;提取所述文本中的关键词;采用BERTopic方法预训练类标签分类器,提取所述文本的类标签;根据所述关键词和类标签对所述文本中的句子进行排名,提取排名靠前的关键句;结合所述关键句在所述文本中的位置信息进行重新排序,并根据排序结果输出摘要。本发明专利技术提供的技术方案,基于信息论中的信息瓶颈技术,通过融合关键词提取,聚类和预训练语言模型的表示学习,对长文本进行自动通顺摘要生成。不仅对任何领域的长文档都有效,包括学术文章政府报告等,同时不需要人工构建训练语料,且不依赖于文本的语言种类。且不依赖于文本的语言种类。且不依赖于文本的语言种类。

【技术实现步骤摘要】
一种文本摘要生成方法及系统


[0001]本专利技术涉及文本处理领域,尤其涉及一种文本摘要生成方法及系统。

技术介绍

[0002]在自然语言处理快速发展的今天,文本自动摘要已经被应用在各种场景:例如新闻题目标题生成,学术摘要撰写等。可靠的文本摘要模型需要多个要素:准确的文本表示,覆盖上下文的分析,篇章结构信息的提取和通顺的自然语言生成。
[0003]随着数字信息技术的发展,越来越多的文献检索机构希望可以使用计算机自动总结刊论文中的文本信息。现有文本技术分为两种:一种抽取式文本摘要,即忽略输入文本的结构信息,对文本进行分句后提取全文的关键句,典型算法有TextRank;另一种是生成式摘要,即采用序列到序列的训练方法,构造大规模的篇章摘要训练对,依赖Transformer模型进行端对端的训练,典型的模型有T5,BART。
[0004]基于抽取式的方法将文本摘要转换成了信息检索的任务,对输入文本的所有句子进行排序后选择排名靠前的关键句子作为最终的摘要。然而,用这种方法输出的摘要通畅性较差,而且这些关键局的数量选择也难以把控,很大程度上依赖于输入文本的长度。
[0005]基于生成式方案则高度依赖序列到序列的训练模型。利用这种方法主要有两个缺点;首先需要构造大规模的训练语料,目前这些语料大多来源于新闻领域,人工构造这些语料难度大时间成本高。其次是序列到序列的模型不能很好地对长文本进行建模,目前利用Transformer编码器最长可支持4096个单词输入,对更长的文本输入的学习表示难以用Transformer模型进行训练学习。

技术实现思路

[0006]为克服相关技术中存在的问题,本专利技术提供一种文本摘要生成方法及系统。
[0007]根据本专利技术实施例的第一方面,提供一种文本摘要生成方法,包括:
[0008]对文本进行预处理;
[0009]提取所述文本中的关键词;
[0010]采用BERTopic方法预训练类标签分类器,提取所述文本的类标签;
[0011]根据所述关键词和类标签对所述文本中的句子进行排名,提取排名靠前的关键句;
[0012]结合所述关键句在所述文本中的位置信息进行重新排序,并根据排序结果输出摘要。
[0013]进一步,所述对文本进行预处理,具体包括:
[0014]将输入文本的所有句子进行切分,只保留句子长度大于预设长度的句子。
[0015]进一步,所述提取所述文本中的关键词,具体包括:
[0016]采用RAKE算法进行关键词提取,基于停用词和标点符号对所有句子进行分词处理,进而提取所有的实体词汇短语;
[0017]构建所述实体词汇短语的共现频度矩阵;
[0018]根据所述共现频度矩阵计算每个所述实体词汇短语的关键值;
[0019]通过对所述关键值的排序从所述实体词汇短语中抽取出排名靠前的关键词。
[0020]进一步,所述采用BERTopic方法预训练类标签分类器,提取所述文本的类标签,具体包括:
[0021]将预训练语言模型BERT在所述文本上进行微调;
[0022]利用微调好的BERT对所述文本进行向量表示;
[0023]利用UMAP降维算法对所有文本向量进行降维处理,然后利用DBSCAN算法对降维后的文本向量进行聚类;
[0024]根据聚类结果提取每个簇下面tfidf值超过预设阈值的词语作为每个簇的类标签。
[0025]进一步,所述根据所述关键词和类标签对所述文本中的句子进行排名,提取排名靠前的关键句,具体包括:
[0026]循环判断所述文本中每个句子含有所述关键词的数量并进行平滑操作得到的第一概率值,以及所述句子输入所述类标签分类器得到对应正确类标签的第二概率值,将所述第一概率值和第二概率值相乘得到该句子的选择值;
[0027]提取选择值排名靠前的句子作为关键句。
[0028]进一步,所述结合所述关键句在所述文本中的位置信息进行重新排序,并根据排序结果输出摘要,具体包括:
[0029]从位置靠前的句子依次向位置靠后的句子进行滑动,通过BERT计算每两个位置之间的句子连贯值,该连贯值是BERT中下句话预测策略的附属输出结果;
[0030]基于所有的连贯值进行beam检索,得出不同的检索路径;
[0031]对beam检索的结果进行排序,挑选出排名最靠前的句子路径;
[0032]按照挑选出的句子路径输出相应的句子,作为所述文本的摘要。
[0033]根据本专利技术实施例的第二方面,提供一种文本摘要生成系统,包括:
[0034]文本预处理模块,用于对文本进行预处理;
[0035]关键词提取模块,用于提取所述文本中的关键词;
[0036]类标签提取模块,用于采用BERTopic方法预训练类标签分类器,提取所述文本的类标签;
[0037]关键句提取模块,用于根据所述关键词和类标签对所述文本中的句子进行排名,提取排名靠前的关键句;
[0038]摘要输出模块,用于结合所述关键句在所述文本中的位置信息进行重新排序,并根据排序结果输出摘要。
[0039]进一步,所述类标签提取模块,具体用于:
[0040]将预训练语言模型BERT在所述文本上进行微调;
[0041]利用微调好的BERT对所述文本进行向量表示;
[0042]利用UMAP降维算法对所有文本向量进行降维处理,然后利用DBSCAN算法对降维后的文本向量进行聚类;
[0043]根据聚类结果提取每个簇下面tfidf值超过预设阈值的词语作为每个簇的类标
签。
[0044]进一步,所述关键句提取模块,具体用于:
[0045]循环判断所述文本中每个句子含有所述关键词的数量并进行平滑操作得到的第一概率值,以及所述句子输入所述类标签分类器得到对应正确类标签的第二概率值,将所述第一概率值和第二概率值相乘得到该句子的选择值;
[0046]提取选择值排名靠前的句子作为关键句。
[0047]进一步,所述摘要输出模块,具体用于:
[0048]从位置靠前的句子依次向位置靠后的句子进行滑动,通过BERT计算每两个位置之间的句子连贯值,该连贯值是BERT中下句话预测策略的附属输出结果;
[0049]基于所有的连贯值进行beam检索,得出不同的检索路径;
[0050]对beam检索的结果进行排序,挑选出排名最靠前的句子路径;
[0051]按照挑选出的句子路径输出相应的句子,作为所述文本的摘要。
[0052]本专利技术的实施例提供的技术方案可以包括以下有益效果:
[0053]本专利技术基于信息论中的信息瓶颈技术,通过融合关键词提取,聚类和预训练语言模型的表示学习,对长文本进行自动通顺摘要生成。不仅对任何领域的长文档都有效,包括学术文章政府报告等,同时不需要人工构建训练语料,且不依赖于文本的语言种类。
[0054]应当理解的是,以上的一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本摘要生成方法,其特征在于,包括:对文本进行预处理;提取所述文本中的关键词;采用BERTopic方法预训练类标签分类器,提取所述文本的类标签;根据所述关键词和类标签对所述文本中的句子进行排名,提取排名靠前的关键句;结合所述关键句在所述文本中的位置信息进行重新排序,并根据排序结果输出摘要。2.根据权利要求1所述的方法,其特征在于,所述对文本进行预处理,具体包括:将输入文本的所有句子进行切分,只保留句子长度大于预设长度的句子。3.根据权利要求1所述的方法,其特征在于,所述提取所述文本中的关键词,具体包括:采用RAKE算法进行关键词提取,基于停用词和标点符号对所有句子进行分词处理,进而提取所有的实体词汇短语;构建所述实体词汇短语的共现频度矩阵;根据所述共现频度矩阵计算每个所述实体词汇短语的关键值;通过对所述关键值的排序从所述实体词汇短语中抽取出排名靠前的关键词。4.根据权利要求1所述的方法,其特征在于,所述采用BERTopic方法预训练类标签分类器,提取所述文本的类标签,具体包括:将预训练语言模型BERT在所述文本上进行微调;利用微调好的BERT对所述文本进行向量表示;利用UMAP降维算法对所有文本向量进行降维处理,然后利用DBSCAN算法对降维后的文本向量进行聚类;根据聚类结果提取每个簇下面tfidf值超过预设阈值的词语作为每个簇的类标签。5.根据权利要求4所述的方法,其特征在于,所述根据所述关键词和类标签对所述文本中的句子进行排名,提取排名靠前的关键句,具体包括:循环判断所述文本中每个句子含有所述关键词的数量并进行平滑操作得到的第一概率值,以及所述句子输入所述类标签分类器得到对应正确类标签的第二概率值,将所述第一概率值和第二概率值相乘得到该句子的选择值;提取选择值排名靠前的句子作为关键句。6.根据权利要求5所述的方法,其特征在于,所述结合所述关键句在所述文本中的位置信息进行重新排序,并根据排序结果输出摘要,具体包括:从位置靠前的句子依次向位置靠后的句子进行滑动,通过...

【专利技术属性】
技术研发人员:刘铭张鹤李沄沨许若华田阳杰吴冠昊崔赫候学杰蔡欣达
申请(专利权)人:中图科信数智技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1