基于特点主题的文本摘要生成方法技术

技术编号：39046703 阅读：13 留言：0更新日期：2023-10-10 11:59

本发明专利技术提供的一种基于特点主题的文本摘要生成方法，包括以下步骤：S2.对事件新闻进行预处理；S3.对预处理后的事件新闻中的语句进行权重计算，并将各语句的权重进行由大到小进行排序，选择权重最大的m个语句，并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息；S4.采用Bert模型对预处理后的新闻事件进行处理，得到文本X，并将文本输入至SRU模型中进行训练，并将SRU模型的输出输入至注意力模型中进行提取，得到注意力特征A，并基于注意力特征A得到事件新闻文本第i个语句的预测结果；S5.构建摘要生成模型UniLM,将第i个语句的预测结果和步骤S3中形成的摘要信息输入至摘要生成模型UniLM中并对摘要生成模型UniLM进行训练；S6.获取目标事件新闻，将目标事件新闻通过步骤S2、S3和S4处理后，将步骤S3处理后得到的摘要信息和步骤S4中的SRU模型输出的信息输入至步骤S5训练完成后的摘要生成模型UniLM中处理，输出最终的文本摘要。输出最终的文本摘要。输出最终的文本摘要。

全部详细技术资料下载

【技术实现步骤摘要】
基于特点主题的文本摘要生成方法

[0001]本专利技术涉及一种文本摘要生成方法，尤其涉及一种基于特点主题的文本摘要生成方法。

技术介绍

[0002]信息技术的发展，文本内容爆发式增长，从文本中提取关键信息变得至关重要。自动生成摘要技术是自然语言处理领域重要研究内容之一，自动文本摘要技术能够提升信息获取速度和效率，减少冗余信息，在信息检索领域有巨大价值，为用户能够快速了解文本提供极大的便捷。
[0003]现有技术中，对于文本的摘要提取主要有两类方法，一类是抽取式摘要生成方法和生成式摘要生成方法，抽取式摘要方法是将自动文摘简单的看成二元分类任务，判断文档中的句子是否属于摘要内容，这种方法存在冗余、语义不连贯的问题，导致生成的摘要内容不便于用户使用，理解困难；生成式摘要生成方法对训练数据的文本摘要对的学习，根据不同的算法生成摘要，这种方式则存在生成的摘要与文本的原文事实存在巨大的偏差，摘要所包含的事件事实错误，不能为用户提供准确的信息。
[0004]因此，为了解决上述技术问题，亟需提出一种新的技术手段。

技术实现思路

[0005]有鉴于此，本专利技术的目的是提供一种基于特点主题的文本摘要生成方法，将抽取式和生成式两类摘要生成方法进行有机结合，从而能够从事件新闻的文本中提取出语义连贯、简略的摘要，而且摘要所包含的事件事实与原文本能够保持一致，方便用户使用。
[0006]本专利技术提供的一种基于特点主体的文本摘要生成方法，包括以下步骤：
[0007]S1.获取同一事件新闻，该新闻...

【技术保护点】

【技术特征摘要】
1.一种基于特点主题的文本摘要生成方法，其特征在于：包括以下步骤：S1.获取同一事件新闻，该新闻包括新闻标题和新闻内容；S2.对事件新闻进行预处理；S3.对预处理后的事件新闻中的语句进行权重计算，并将各语句的权重进行由大到小进行排序，选择权重最大的m个语句，并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息；S4.采用Bert模型对预处理后的新闻事件进行处理，得到文本X，并将文本输入至SRU模型中进行训练，并将SRU模型的输出输入至注意力模型中进行提取，得到注意力特征A，并基于注意力特征A得到事件新闻文本第i个语句的预测结果；S5.构建摘要生成模型UniLM,将第i个语句的预测结果和步骤S3中形成的摘要信息输入至摘要生成模型UniLM中并对摘要生成模型UniLM进行训练；S6.获取目标事件新闻，将目标事件新闻通过步骤S2、S3和S4处理后，将步骤S3处理后得到的摘要信息和步骤S4中的SRU模型输出的信息输入至步骤S5训练完成后的摘要生成模型UniLM中处理，输出最终的文本摘要。2.根据权利要求1所述基于特点主题的文本摘要生成方法，其特征在于：步骤S3中，根据如下方法得到语句的权重：其中，score
i
为事件新闻的第i个语句的权重，ω
ij
为事件新闻的第i个语句的第j个词的权重。3.根据权利要求2所述基于特点主题的文本摘要生成方法，其特征在于：通过如下方法确定第j个词的权重ω
ij
：其中：n
j
为第j个词在事件新闻出现的文本次数，N表示事件新闻的文本总数，tf
ij
为第j个词在事件新闻的文本i中出现的频率。4.根据权利要求1所述基于特点主题的文本摘要生成方法，其特征在于：步骤S4中，SRU模型中采用如下公式进行计算：y
t
＝σ(WT
t
...

【专利技术属性】
技术研发人员：胡波，黄挺，
申请(专利权)人：北京大学重庆大数据研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人