一种基于深度学习的新闻文本摘要生成方法技术

技术编号：34243907 阅读：115 留言：0更新日期：2022-07-24 09:54

一种基于深度学习的新闻文本摘要生成方法，包括以下步骤：1)爬取新闻标题和新闻文本，获得原始数据；2)对数据进行预处理，获得模型所需的数据格式；3)利用Bert模型作为核心来构建抽取式和生成式的摘要生成系统；4)抽取式模型先对输入文本抽取出与标题相关度高的句子，用作生成式模型的指导信号；5)输入文本和指导信号输入给生成式模型，生成最终摘要；6)将生成摘要与参考摘要进行对比评价。本发明专利技术结合抽取式与生成式摘要模型对新闻文本进行摘要生成，可以让冗长的文本精简化，快速获取其中的关键信息。关键信息。关键信息。

A method of news text summarization generation based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的新闻文本摘要生成方法

[0001]本专利技术涉及爬虫算法、新闻大数据、深度学习，提供了一种基于深度学习的新闻文本摘要生成方法。

技术介绍

[0002]随着信息技术的快速发展，大量的文本数据如潮水般涌现，怎样从一段冗长的文本中快速有效地获取其中的关键信息，在这个快速发展的互联网时代显得尤为重要。自动生成摘要技术是自然语言处理领域重要研究内容之一，其通过计算机对文本或者文本集合，进行自动抽取、总结或是精炼文本中的关键信息，提炼出能概括源文档的简洁、语义连贯的短文。自动文摘技术大大提高了信息获取的速度，有效地减小了人们的信息负担，在文档总结、信息检索等领域有较高的研究价值。
[0003]早期的文本摘要工作大都依靠人工完成，近年来，文本数据量呈井喷式爆发，自动文摘技术得到了广泛的关注和研究，涌现出大量的模型算法。目前主流的方法有抽取式摘要(Extractive)和生成式摘要(Abstractive)。抽取式摘要方法是将自动文摘简单的看成二元分类任务，判断文档中的句子是否属于摘要内容；生成式摘要方法是对训练数据的文本——摘要对的学习，根据不同的算法生成摘要。这些工作方法在一定程度上都取得了较好的结果，在医学、新闻、金融等领域都有应用，比如社交媒体摘要的使用，可以帮助用户快速地了解其中的关键信息。目前研究最多，效果最显著的是基于深度学习的自动摘要生成技术，该方法利用计算机对文档进行编码向量化，获取文档上下文以及语义的向量表示，然后利用深层网络进行训练学习，在文本摘要任务上实现了许多最优结果。然而现有的模

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的新闻文本摘要生成方法，其特征在于，所述方法包括以下步骤：1)通过爬虫算法爬取新闻网站上的新闻标题和新闻文本，每一个新闻文本和新闻标题组成一个story文件，文本与标题之间用@highlight标识符分隔；2)将上述的story文件用Stanford CoreNLP工具包进行分句分词，通过贪婪算法，选择出新闻文本中与标题句子ROUGE
‑
1/2指标分数最高的前三个句子打上label标签，最后生成确定格式的标注文本作为训练数据和验证数据；3)文本摘要生成方法使用的是抽取+生成的策略，先使用抽取式模型从新闻文本抽取出与标题相关度高的句子，然后将抽取出来的句子作为指导信号作用于另外一个生成式模型，去指导摘要的生成；4)抽取式模型采用Bert网络模型获取句子表示，Inter
‑
sentence Transformer层作为摘要层，来对确定格式的标注文本作文本摘要抽取式的训练；同时，用另两个Bert网络模型作为两个编码器，解码器采用Transformer的Decoder端，对输入文本和指导信号进行文本摘要生成式的训练，指导信号是打上label的关键句子，实现过程如下：4.1)给定token化的文本X＝[cls,x1,x2,
…
,x
n
,sep]其中cls和sep是每个句子的句首和句尾插入的token，x
t
是文本t位置上的token，将文本X输入Bert模型后，得到文本的隐藏表示H＝[h1,h2,
……
h
m
],进一步获取每个句子句首的clstoken的隐藏表示T＝[T1,T2,
…
T
t
]；4.2)将隐藏表示T传输给由两层Transformer Encoder layer组成的摘要层，输出得到h
l
,然后经过一个sigmoid层，得到每个句子的分数Y＝[y1,y2,
…
y
n
]，根据标注文本的label标签L＝[l1,l2,
…
l
n
]，然后使用二分类交叉熵损失函数对抽取式模型进行训练：]，然后使用二分类交叉熵损失函数对抽取式模型进行训练：y
i
＝σ(W
o
h
l
+b
o
)#(3)l
n
＝
‑
[l
n
·
logy
n
+(1
‑
l
n
)
·
...

【专利技术属性】
技术研发人员：李永强，吴毕亮，冯远静，范陈强，赵永智，姚辉，李文伟，林栋，叶衍统，汤家睿，薛志豪，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人