【技术实现步骤摘要】
一种基于深度学习的新闻文本摘要生成方法
[0001]本专利技术涉及爬虫算法、新闻大数据、深度学习,提供了一种基于深度学习的新闻文本摘要生成方法。
技术介绍
[0002]随着信息技术的快速发展,大量的文本数据如潮水般涌现,怎样从一段冗长的文本中快速有效地获取其中的关键信息,在这个快速发展的互联网时代显得尤为重要。自动生成摘要技术是自然语言处理领域重要研究内容之一,其通过计算机对文本或者文本集合,进行自动抽取、总结或是精炼文本中的关键信息,提炼出能概括源文档的简洁、语义连贯的短文。自动文摘技术大大提高了信息获取的速度,有效地减小了人们的信息负担,在文档总结、信息检索等领域有较高的研究价值。
[0003]早期的文本摘要工作大都依靠人工完成,近年来,文本数据量呈井喷式爆发,自动文摘技术得到了广泛的关注和研究,涌现出大量的模型算法。目前主流的方法有抽取式摘要(Extractive)和生成式摘要(Abstractive)。抽取式摘要方法是将自动文摘简单的看成二元分类任务,判断文档中的句子是否属于摘要内容;生成式摘要方法是对训练数据的文本——摘要对的学习,根据不同的算法生成摘要。这些工作方法在一定程度上都取得了较好的结果,在医学、新闻、金融等领域都有应用,比如社交媒体摘要的使用,可以帮助用户快速地了解其中的关键信息。目前研究最多,效果最显著的是基于深度学习的自动摘要生成技术,该方法利用计算机对文档进行编码向量化,获取文档上下文以及语义的向量表示,然后利用深层网络进行训练学习,在文本摘要任务上实现了许多最优结果。然而现有的模
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的新闻文本摘要生成方法,其特征在于,所述方法包括以下步骤:1)通过爬虫算法爬取新闻网站上的新闻标题和新闻文本,每一个新闻文本和新闻标题组成一个story文件,文本与标题之间用@highlight标识符分隔;2)将上述的story文件用Stanford CoreNLP工具包进行分句分词,通过贪婪算法,选择出新闻文本中与标题句子ROUGE
‑
1/2指标分数最高的前三个句子打上label标签,最后生成确定格式的标注文本作为训练数据和验证数据;3)文本摘要生成方法使用的是抽取+生成的策略,先使用抽取式模型从新闻文本抽取出与标题相关度高的句子,然后将抽取出来的句子作为指导信号作用于另外一个生成式模型,去指导摘要的生成;4)抽取式模型采用Bert网络模型获取句子表示,Inter
‑
sentence Transformer层作为摘要层,来对确定格式的标注文本作文本摘要抽取式的训练;同时,用另两个Bert网络模型作为两个编码器,解码器采用Transformer的Decoder端,对输入文本和指导信号进行文本摘要生成式的训练,指导信号是打上label的关键句子,实现过程如下:4.1)给定token化的文本X=[cls,x1,x2,
…
,x
n
,sep]其中cls和sep是每个句子的句首和句尾插入的token,x
t
是文本t位置上的token,将文本X输入Bert模型后,得到文本的隐藏表示H=[h1,h2,
……
h
m
],进一步获取每个句子句首的clstoken的隐藏表示T=[T1,T2,
…
T
t
];4.2)将隐藏表示T传输给由两层Transformer Encoder layer组成的摘要层,输出得到h
l
,然后经过一个sigmoid层,得到每个句子的分数Y=[y1,y2,
…
y
n
],根据标注文本的label标签L=[l1,l2,
…
l
n
],然后使用二分类交叉熵损失函数对抽取式模型进行训练:],然后使用二分类交叉熵损失函数对抽取式模型进行训练:y
i
=σ(W
o
h
l
+b
o
)#(3)l
n
=
‑
[l
n
·
logy
n
+(1
‑
l
n
)
·
...
【专利技术属性】
技术研发人员:李永强,吴毕亮,冯远静,范陈强,赵永智,姚辉,李文伟,林栋,叶衍统,汤家睿,薛志豪,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。