一种基于深度学习的新闻文本摘要生成方法技术

技术编号:34243907 阅读:115 留言:0更新日期:2022-07-24 09:54
一种基于深度学习的新闻文本摘要生成方法,包括以下步骤:1)爬取新闻标题和新闻文本,获得原始数据;2)对数据进行预处理,获得模型所需的数据格式;3)利用Bert模型作为核心来构建抽取式和生成式的摘要生成系统;4)抽取式模型先对输入文本抽取出与标题相关度高的句子,用作生成式模型的指导信号;5)输入文本和指导信号输入给生成式模型,生成最终摘要;6)将生成摘要与参考摘要进行对比评价。本发明专利技术结合抽取式与生成式摘要模型对新闻文本进行摘要生成,可以让冗长的文本精简化,快速获取其中的关键信息。关键信息。关键信息。

A method of news text summarization generation based on deep learning

【技术实现步骤摘要】
一种基于深度学习的新闻文本摘要生成方法


[0001]本专利技术涉及爬虫算法、新闻大数据、深度学习,提供了一种基于深度学习的新闻文本摘要生成方法。

技术介绍

[0002]随着信息技术的快速发展,大量的文本数据如潮水般涌现,怎样从一段冗长的文本中快速有效地获取其中的关键信息,在这个快速发展的互联网时代显得尤为重要。自动生成摘要技术是自然语言处理领域重要研究内容之一,其通过计算机对文本或者文本集合,进行自动抽取、总结或是精炼文本中的关键信息,提炼出能概括源文档的简洁、语义连贯的短文。自动文摘技术大大提高了信息获取的速度,有效地减小了人们的信息负担,在文档总结、信息检索等领域有较高的研究价值。
[0003]早期的文本摘要工作大都依靠人工完成,近年来,文本数据量呈井喷式爆发,自动文摘技术得到了广泛的关注和研究,涌现出大量的模型算法。目前主流的方法有抽取式摘要(Extractive)和生成式摘要(Abstractive)。抽取式摘要方法是将自动文摘简单的看成二元分类任务,判断文档中的句子是否属于摘要内容;生成式摘要方法是对训练数据的文本——摘要对的学习,根据不同的算法生成摘要。这些工作方法在一定程度上都取得了较好的结果,在医学、新闻、金融等领域都有应用,比如社交媒体摘要的使用,可以帮助用户快速地了解其中的关键信息。目前研究最多,效果最显著的是基于深度学习的自动摘要生成技术,该方法利用计算机对文档进行编码向量化,获取文档上下文以及语义的向量表示,然后利用深层网络进行训练学习,在文本摘要任务上实现了许多最优结果。然而现有的模型算法生成的摘要还是远远达不到人工标注的效果,该任务还有巨大的提升空间,还需要不断探索。
[0004]在这种情况下,抽取式和生成式结合的模型算法,可以大大提高生成的摘要质量,既缓解了抽取式模型生成的摘要存在冗余、语义不连贯的问题,也避免了生成式模型生成的摘要与原文存在事实性错误的现象。

技术实现思路

[0005]为了克服现有技术的不足,为了快速地获取其中的大致内容,本专利技术提出了一种基于深度学习的新闻文本摘要生成方法,在海量的新闻文本中,先用抽取式摘要模型抽取出文本中重要的句子,再通过生成式摘要模型生成语意连贯,言简意赅的摘要。
[0006]为了解决上述技术问题,本专利技术提供如下的技术方案:
[0007]一种基于深度学习的新闻文本摘要生成方法,所述方法包括以下步骤:
[0008]1)通过爬虫算法爬取新闻网站上的新闻标题和新闻文本,每一个新闻文本和新闻标题组成一个story文件,文本与标题之间用@highlight标识符分隔;
[0009]2)将上述的story文件用Stanford CoreNLP工具包进行分句分词,通过贪婪算法,选择出新闻文本中与标题句子ROUGE

1/2指标分数最高的前三个句子打上label标签,最后
生成确定格式的标注文本作为训练数据和验证数据;
[0010]3)文本摘要生成方法使用的是抽取+生成的策略,先使用抽取式模型从新闻文本抽取出与标题相关度高的句子,然后将抽取出来的句子作为指导信号作用于另外一个生成式模型,去指导摘要的生成;
[0011]4)抽取式模型采用Bert网络模型获取句子表示,Inter

sentence Transformer层作为摘要层,来对确定格式的标注文本作文本摘要抽取式的训练;同时,用另两个Bert网络模型作为两个编码器,解码器采用Transformer的Decoder端,对输入文本和指导信号进行文本摘要生成式的训练,指导信号是打上label的关键句子,实现过程如下:
[0012]4.1)给定token化的文本X=[cls,x1,x2,

,x
n
,sep]其中cls和sep是每个句子的句首和句尾插入的token,x
t
是文本t位置上的token,将文本X输入Bert模型后,得到文本的隐藏表示H=[h1,h2,
……
h
m
],进一步获取每个句子句首的clstoken的隐藏表示T=[T1,T2,

T
t
];
[0013]4.2)将隐藏表示T传输给由两层Transformer Encoder layer组成的摘要层,输出得到h
l
,然后经过一个sigmoid层,得到每个句子的分数Y=[y1,y2,

y
n
],根据标注文本的label标签L=[l1,l2,

l
n
],然后使用二分类交叉熵损失函数对抽取式模型进行训练:
[0014][0015][0016]y
i
=σ(W
o
h
l
+b
o
)#(3)
[0017][0018]l
n


[l
n
·
logy
n
+(1

l
n
)
·
log(1

y
n
)]#(5)
[0019]其中l表示Transformer Encoder layer的层数,MHAtt是对Transformer Encoder layer层的输出h
l
‑1做多头注意力运算,是经过层归一化操作LN之后的输出,然后对该输出做FFN前馈网络运算,生成第l层的输出向量h
l
,σ是sigmoid运算,W
o
是权重参数,b
o
是偏差,y
i
是第i个句子的预测分数,N是句子的个数,l
n
是第n个句子的标签,y
n
是第n个句子的预测分数;
[0020]4.3)将token化的输入文本X=[x1,x2,

,x
n
]与token化的指导信号G=[g1,g2,

,g
m
]分别输入给生成式模型的两个编码器Bert模型,分别得到隐藏表示H
x
=[h
x1
,h
x2
,

,h
xn
],H
g
=[h
g1
,h
g2
,

,h
gm
];
[0021]4.4)生成式模型的解码器端首先对上一层的输出y做一次self attention操作,其次利用Cross Attention机制关注指导信号并生成相应表示y1,然后再经过一个Cross Attention层,根据y1来处理整个输入文本,得到表示y2,最后经过一个前馈网络层,得到中间输出y3,经过6层Decoder layer之后,输出词的概率分布,计算损失,训练模型;...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的新闻文本摘要生成方法,其特征在于,所述方法包括以下步骤:1)通过爬虫算法爬取新闻网站上的新闻标题和新闻文本,每一个新闻文本和新闻标题组成一个story文件,文本与标题之间用@highlight标识符分隔;2)将上述的story文件用Stanford CoreNLP工具包进行分句分词,通过贪婪算法,选择出新闻文本中与标题句子ROUGE

1/2指标分数最高的前三个句子打上label标签,最后生成确定格式的标注文本作为训练数据和验证数据;3)文本摘要生成方法使用的是抽取+生成的策略,先使用抽取式模型从新闻文本抽取出与标题相关度高的句子,然后将抽取出来的句子作为指导信号作用于另外一个生成式模型,去指导摘要的生成;4)抽取式模型采用Bert网络模型获取句子表示,Inter

sentence Transformer层作为摘要层,来对确定格式的标注文本作文本摘要抽取式的训练;同时,用另两个Bert网络模型作为两个编码器,解码器采用Transformer的Decoder端,对输入文本和指导信号进行文本摘要生成式的训练,指导信号是打上label的关键句子,实现过程如下:4.1)给定token化的文本X=[cls,x1,x2,

,x
n
,sep]其中cls和sep是每个句子的句首和句尾插入的token,x
t
是文本t位置上的token,将文本X输入Bert模型后,得到文本的隐藏表示H=[h1,h2,
……
h
m
],进一步获取每个句子句首的clstoken的隐藏表示T=[T1,T2,

T
t
];4.2)将隐藏表示T传输给由两层Transformer Encoder layer组成的摘要层,输出得到h
l
,然后经过一个sigmoid层,得到每个句子的分数Y=[y1,y2,

y
n
],根据标注文本的label标签L=[l1,l2,

l
n
],然后使用二分类交叉熵损失函数对抽取式模型进行训练:],然后使用二分类交叉熵损失函数对抽取式模型进行训练:y
i
=σ(W
o
h
l
+b
o
)#(3)l
n


[l
n
·
logy
n
+(1

l
n
)
·
...

【专利技术属性】
技术研发人员:李永强吴毕亮冯远静范陈强赵永智姚辉李文伟林栋叶衍统汤家睿薛志豪
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1