一种文本摘要生成方法及系统技术方案

技术编号：37135566 阅读：18 留言：0更新日期：2023-04-06 21:34

本发明专利技术是关于一种文本摘要生成方法及系统。该方法包括：对文本进行预处理；提取所述文本中的关键词；采用BERTopic方法预训练类标签分类器，提取所述文本的类标签；根据所述关键词和类标签对所述文本中的句子进行排名，提取排名靠前的关键句；结合所述关键句在所述文本中的位置信息进行重新排序，并根据排序结果输出摘要。本发明专利技术提供的技术方案，基于信息论中的信息瓶颈技术，通过融合关键词提取，聚类和预训练语言模型的表示学习，对长文本进行自动通顺摘要生成。不仅对任何领域的长文档都有效，包括学术文章政府报告等，同时不需要人工构建训练语料，且不依赖于文本的语言种类。且不依赖于文本的语言种类。且不依赖于文本的语言种类。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本摘要生成方法及系统

[0001]本专利技术涉及文本处理领域，尤其涉及一种文本摘要生成方法及系统。

技术介绍

[0002]在自然语言处理快速发展的今天，文本自动摘要已经被应用在各种场景：例如新闻题目标题生成，学术摘要撰写等。可靠的文本摘要模型需要多个要素：准确的文本表示，覆盖上下文的分析，篇章结构信息的提取和通顺的自然语言生成。
[0003]随着数字信息技术的发展，越来越多的文献检索机构希望可以使用计算机自动总结刊论文中的文本信息。现有文本技术分为两种：一种抽取式文本摘要，即忽略输入文本的结构信息，对文本进行分句后提取全文的关键句，典型算法有TextRank；另一种是生成式摘要，即采用序列到序列的训练方法，构造大规模的篇章摘要训练对，依赖Transformer模型进行端对端的训练，典型的模型有T5，BART。
[0004]基于抽取式的方法将文本摘要转换成了信息检索的任务，对输入文本的所有句子进行排序后选择排名靠前的关键句子作为最终的摘要。然而，用这种方法输出的摘要通畅性较差，而且这些关键局的数量选择也难以把控，很大程度上依赖于输入文本的长度。
[0005]基于生成式方案则高度依赖序列到序列的训练模型。利用这种方法主要有两个缺点；首先需要构造大规模的训练语料，目前这些语料大多来源于新闻领域，人工构造这些语料难度大时间成本高。其次是序列到序列的模型不能很好地对长文本进行建模，目前利用Transformer编码器最长可支持4096个单词输入，对更长的文本输入的学习表示难以用Transforme...

【技术保护点】

【技术特征摘要】
1.一种文本摘要生成方法，其特征在于，包括：对文本进行预处理；提取所述文本中的关键词；采用BERTopic方法预训练类标签分类器，提取所述文本的类标签；根据所述关键词和类标签对所述文本中的句子进行排名，提取排名靠前的关键句；结合所述关键句在所述文本中的位置信息进行重新排序，并根据排序结果输出摘要。2.根据权利要求1所述的方法，其特征在于，所述对文本进行预处理，具体包括：将输入文本的所有句子进行切分，只保留句子长度大于预设长度的句子。3.根据权利要求1所述的方法，其特征在于，所述提取所述文本中的关键词，具体包括：采用RAKE算法进行关键词提取，基于停用词和标点符号对所有句子进行分词处理，进而提取所有的实体词汇短语；构建所述实体词汇短语的共现频度矩阵；根据所述共现频度矩阵计算每个所述实体词汇短语的关键值；通过对所述关键值的排序从所述实体词汇短语中抽取出排名靠前的关键词。4.根据权利要求1所述的方法，其特征在于，所述采用BERTopic方法预训练类标签分类器，提取所述文本的类标签，具体包括：将预训练语言模型BERT在所述文本上进行微调；利用微调好的BERT对所述文本进行向量表示；利用UMAP降维算法对所有文本向量进行降维处理，然后利用DBSCAN算法对降维后的文本向量进行聚类；根据聚类结果提取每个簇下面tfidf值超过预设阈值的词语作为每个簇的类标签。5.根据权利要求4所述的方法，其特征在于，所述根据所述关键词和类标签对所述文本中的句子进行排名，提取排名靠前的关键句，具体包括：循环判断所述文本中每个句子含有所述关键词的数量并进行平滑操作得到的第一概率值，以及所述句子输入所述类标签分类器得到对应正确类标签的第二概率值，将所述第一概率值和第二概率值相乘得到该句子的选择值；提取选择值排名靠前的句子作为关键句。6.根据权利要求5所述的方法，其特征在于，所述结合所述关键句在所述文本中的位置信息进行重新排序，并根据排序结果输出摘要，具体包括：从位置靠前的句子依次向位置靠后的句子进行滑动，通过...

【专利技术属性】
技术研发人员：刘铭，张鹤，李沄沨，许若华，田阳杰，吴冠昊，崔赫，候学杰，蔡欣达，
申请(专利权)人：中图科信数智技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人