基于特点主题的文本摘要生成方法技术

技术编号:39046703 阅读:13 留言:0更新日期:2023-10-10 11:59
本发明专利技术提供的一种基于特点主题的文本摘要生成方法,包括以下步骤:S2.对事件新闻进行预处理;S3.对预处理后的事件新闻中的语句进行权重计算,并将各语句的权重进行由大到小进行排序,选择权重最大的m个语句,并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息;S4.采用Bert模型对预处理后的新闻事件进行处理,得到文本X,并将文本输入至SRU模型中进行训练,并将SRU模型的输出输入至注意力模型中进行提取,得到注意力特征A,并基于注意力特征A得到事件新闻文本第i个语句的预测结果;S5.构建摘要生成模型UniLM,将第i个语句的预测结果和步骤S3中形成的摘要信息输入至摘要生成模型UniLM中并对摘要生成模型UniLM进行训练;S6.获取目标事件新闻,将目标事件新闻通过步骤S2、S3和S4处理后,将步骤S3处理后得到的摘要信息和步骤S4中的SRU模型输出的信息输入至步骤S5训练完成后的摘要生成模型UniLM中处理,输出最终的文本摘要。输出最终的文本摘要。输出最终的文本摘要。

【技术实现步骤摘要】
基于特点主题的文本摘要生成方法


[0001]本专利技术涉及一种文本摘要生成方法,尤其涉及一种基于特点主题的文本摘要生成方法。

技术介绍

[0002]信息技术的发展,文本内容爆发式增长,从文本中提取关键信息变得至关重要。自动生成摘要技术是自然语言处理领域重要研究内容之一,自动文本摘要技术能够提升信息获取速度和效率,减少冗余信息,在信息检索领域有巨大价值,为用户能够快速了解文本提供极大的便捷。
[0003]现有技术中,对于文本的摘要提取主要有两类方法,一类是抽取式摘要生成方法和生成式摘要生成方法,抽取式摘要方法是将自动文摘简单的看成二元分类任务,判断文档中的句子是否属于摘要内容,这种方法存在冗余、语义不连贯的问题,导致生成的摘要内容不便于用户使用,理解困难;生成式摘要生成方法对训练数据的文本摘要对的学习,根据不同的算法生成摘要,这种方式则存在生成的摘要与文本的原文事实存在巨大的偏差,摘要所包含的事件事实错误,不能为用户提供准确的信息。
[0004]因此,为了解决上述技术问题,亟需提出一种新的技术手段。

技术实现思路

[0005]有鉴于此,本专利技术的目的是提供一种基于特点主题的文本摘要生成方法,将抽取式和生成式两类摘要生成方法进行有机结合,从而能够从事件新闻的文本中提取出语义连贯、简略的摘要,而且摘要所包含的事件事实与原文本能够保持一致,方便用户使用。
[0006]本专利技术提供的一种基于特点主体的文本摘要生成方法,包括以下步骤:
[0007]S1.获取同一事件新闻,该新闻包括新闻标题和新闻内容;
[0008]S2.对事件新闻进行预处理;
[0009]S3.对预处理后的事件新闻中的语句进行权重计算,并将各语句的权重进行由大到小进行排序,选择权重最大的m个语句,并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息;
[0010]S4.采用Bert模型对预处理后的新闻事件进行处理,得到文本X,并将文本输入至SRU模型中进行训练,并将SRU模型的输出输入至注意力模型中进行提取,得到注意力特征A,并基于注意力特征A得到事件新闻文本第i个语句的预测结果;
[0011]S5.构建摘要生成模型UniLM,将第i个语句的预测结果和步骤S3中形成的摘要信息输入至摘要生成模型UniLM中并对摘要生成模型UniLM进行训练;
[0012]S6.获取目标事件新闻,将目标事件新闻通过步骤S2、S3和S4处理后,将步骤S3处理后得到的摘要信息和步骤S4中的SRU模型输出的信息输入至步骤S5训练完成后的摘要生成模型UniLM中处理,输出最终的文本摘要。
[0013]进一步,步骤S3中,根据如下方法得到语句的权重:
[0014][0015]其中,score
i
为事件新闻的第i个语句的权重,ω
ij
为事件新闻的第i个语句的第j个词的权重。
[0016]进一步,通过如下方法确定第j个词的权重ω
ij

[0017][0018]其中:n
j
为第j个词在事件新闻的文本中出现的次数,N表示文档中词的总数,tf
ij
为第j个词在事件新闻的文本中出现的频率。
[0019]进一步,步骤S4中,SRU模型中采用如下公式进行计算:
[0020]y
t
=σ(WT
t
)
[0021]f
t
=σ(W
f
T
t
+b
f
)
[0022]r
t
=σ(W
r
T
t
+b
r
)
[0023]c
t
=f
t

c
t
‑1+(1

f
t
)

y
t
[0024]h
t
=r
t

g(c
t
)+(1

r
t
)

T
t
[0025]其中:c
t
表示时刻t的隐状态,c
t
‑1表示t

1的隐状态,h
t
表示t时刻的输出,f
t
表示SRU模型的遗忘门输出,r
t
表示SRU模型的重置门输出,σ表示Sigmoid函数,g表示SRU模型的激活函数,W
f
,W
r
和W是参数矩阵,b
f
和b
r
是偏置常数。
[0026]进一步,SRU模型输出的结构拼接到一起得到输出H
t
,然后将输出H
t
输入至注意力模块,提取注意力特征A;
[0027]事件文本的文本每个语句的预测输出为y
i

[0028]y
i
=σ(W
s
A+b
s
)。
[0029]进一步,所述注意力模块的损失函数为:
[0030][0031][0032]l
n
是第n个句子的标签,y
n
是第n个句子的预测结果;λ为权重参数,为第n个句子的句向量与摘要向量S的余弦相似度。
[0033]进一步,步骤S2中,对事件新闻进行预处理包括对新闻文本进行分词、去除停用词处理。
[0034]本专利技术的有益效果:通过本专利技术,将抽取式和生成式两类摘要生成方法进行有机结合,从而能够从事件新闻的文本中提取出语义连贯、简略的摘要,而且摘要所包含的事件事实与原文本能够保持一致,方便用户使用。
附图说明
[0035]下面结合附图和实施例对本专利技术作进一步描述:
[0036]图1为本专利技术的流程图。
具体实施方式
[0037]以下进一步对本专利技术做出详细说明:
[0038]本专利技术提供的一种基于特点主体的文本摘要生成方法,包括以下步骤:
[0039]S1.获取同一事件新闻,该新闻包括新闻标题和新闻内容;
[0040]S2.对事件新闻进行预处理;
[0041]S3.对预处理后的事件新闻中的语句进行权重计算,并将各语句的权重进行由大到小进行排序,选择权重最大的m个语句,并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息;其中,m的取值一般为3个,当然,也可以为4个或者5个,根据实际情况设定,当然,m的个数是要小于文本中的语句个数的;
[0042]S4.采用Bert模型对预处理后的新闻事件进行处理,得到文本X,并将文本输入至SRU模型中进行训练,并将SRU模型的输出输入至注意力模型中进行提取,得到注意力特征A,并基于注意力特征A得到事件新闻文本第i个语句的预测结果;
[0043]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特点主题的文本摘要生成方法,其特征在于:包括以下步骤:S1.获取同一事件新闻,该新闻包括新闻标题和新闻内容;S2.对事件新闻进行预处理;S3.对预处理后的事件新闻中的语句进行权重计算,并将各语句的权重进行由大到小进行排序,选择权重最大的m个语句,并将筛选出的m个语句在事件新闻原文中的顺序进行组合形成摘要信息;S4.采用Bert模型对预处理后的新闻事件进行处理,得到文本X,并将文本输入至SRU模型中进行训练,并将SRU模型的输出输入至注意力模型中进行提取,得到注意力特征A,并基于注意力特征A得到事件新闻文本第i个语句的预测结果;S5.构建摘要生成模型UniLM,将第i个语句的预测结果和步骤S3中形成的摘要信息输入至摘要生成模型UniLM中并对摘要生成模型UniLM进行训练;S6.获取目标事件新闻,将目标事件新闻通过步骤S2、S3和S4处理后,将步骤S3处理后得到的摘要信息和步骤S4中的SRU模型输出的信息输入至步骤S5训练完成后的摘要生成模型UniLM中处理,输出最终的文本摘要。2.根据权利要求1所述基于特点主题的文本摘要生成方法,其特征在于:步骤S3中,根据如下方法得到语句的权重:其中,score
i
为事件新闻的第i个语句的权重,ω
ij
为事件新闻的第i个语句的第j个词的权重。3.根据权利要求2所述基于特点主题的文本摘要生成方法,其特征在于:通过如下方法确定第j个词的权重ω
ij
:其中:n
j
为第j个词在事件新闻出现的文本次数,N表示事件新闻的文本总数,tf
ij
为第j个词在事件新闻的文本i中出现的频率。4.根据权利要求1所述基于特点主题的文本摘要生成方法,其特征在于:步骤S4中,SRU模型中采用如下公式进行计算:y
t
=σ(WT
t
...

【专利技术属性】
技术研发人员:胡波黄挺
申请(专利权)人:北京大学重庆大数据研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1