双阶段文本摘要方法技术

技术编号:26762725 阅读:19 留言:0更新日期:2020-12-18 23:15
本发明专利技术公开了一种双阶段文本摘要方法,涉及自然语言处理领域。该方法首先从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词,然后将抽取出的内容作为生成式文本摘要模型的输入,进行第二阶段的学习和训练。本发明专利技术通过抽取重要的子句,去除了文本的无关或冗余内容,使得进入第二个阶段的语句输入尽量少,保证第二阶段输出摘要的质量尽量高。

【技术实现步骤摘要】
双阶段文本摘要方法
本专利技术涉及自然语言处理领域,具体涉及一种双阶段文本摘要方法。
技术介绍
随着我国社会经济以及互联网技术的高速发展,人们逐渐使用电子设备并通过网络通道进行日常的交流、工作和信息获取等。2019年8月30日,中国互联网络信息中心(CNNIC)在北京发布第44次《中国互联网络发展状况统计报告》。《报告》指出,到2019年6月,我国网民的数量比2018年年底增加了2598万,网民总数量达到了8.54亿,其中手机网民的数量达到了8.47亿,且网民通过手机上网的比例高达99.18%。如此庞大的互联网使用率导致了数据过载的问题,据统计,互联网数据量已跃至ZB级别,其中,文本信息成为人们使用互联网获取信息的主要来源,导致了文本信息的爆炸式增长,成为互联网数据的“主力军”。而随之出现的一系列营销号题文不对称的现象也让人们深恶痛绝,例如各大社交软件和新闻头条的“标题党”。至此,如何解决低效阅读和数据过载问题,快速获取文本中的关键信息成为当代互联网的首要问题,由此,文本摘要技术应运而生。目前国内外常用的自动文本摘要技术根据摘要产生的不同方法可以分为三种:抽取式、压缩式和生成式。抽取式方法实现简单,只是从文档中抽取已有的句子形成摘要,可以保留文档中完整的句子,生成的摘要可读性良好,可看作一个组合优化问题。早年抽取式方法应用较为广泛,发展至今,抽取式摘要已经是一种比较成熟的方案,其中Textrank排序算法以其简洁、高效的特点被工业界广泛运用。压缩式方法是同时对原文的句子进行抽取与压缩或抽取与融合,可以有效提高ROUGE值,但会牺牲句子的可读性。而生成式摘要通常需要自然语言理解技术来执行文本的语法和语义分析,融合信息,并使用自然语言生成技术生成新的摘要句子。随着2005年神经网络的二次兴起,深度学习在人工智能领域崛起,基于深度学习的生成式文本摘要方法在摘要生成质量和流畅度上都有了质的飞跃,也成为了摘要生成的主流研究方向,目前生成式文本摘要方法的做法是将数据集中的原文直接输入模型,让模型学习理解,但事实上原文中通常会包括一些无用信息和冗余信息,如果将这些冗余信息连同关键信息一起输入到生成式文本摘要模型中进行训练,一方面,这些信息会对文本主题的表达造成混乱,使得模型编码器编码得到的语义向量对文本主题的表征有偏差;另一方面,这些信息增加了模型的输入长度,且Seq2Seq模型中的编码器常使用RNN及其变体来实现,它们较适用于短序列,过长的序列一方面会导致文本信息在编码的过程中逐步丢失,另一方面会导致梯度在反向传播的过程中逐渐消失,则模型的效果会受到影响。
技术实现思路
针对上述问题,本专利技术提出一种双阶段式文本摘要方法,首先从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词,然后将抽取出的内容作为生成式文本摘要模型的输入,进行第二阶段的学习和训练。本专利技术中所使用的文本摘要数据集记为D,D中的每个文本摘要数据对记为(src,tgt),src表示每个文本摘要数据对中的原文,tgt表示每个文本摘要数据对中的标准摘要。本专利技术由两个阶段、4个步骤组成,其中第一阶段包括步骤S1)至步骤S3),第二阶段包括步骤S4),第一阶段中抽取子句的主要过程如图1所示。4个步骤的主要内容分别是:S1)获得关键词概率预测模型:对文本摘要数据集D中的每个文本摘要数据对(src,tgt)进行分析和处理,获得数据集T_W,根据序列标注的思想构建关键词概率预测模型,然后将数据集T_W划分为训练集、验证集和测试集,对关键词概率预测模型进行训练、验证和测试。S2)获得语义得分预测模型:对文本摘要数据集D中的每个文本摘要数据对(src,tgt)进行分析和处理,获得数据集T_S,根据序列标注的思想构建语义得分预测模型,然后将数据集T_S划分为训练集、验证集和测试集,对语义得分预测模型进行训练、验证和测试。S3)获得训练集D’:对文本摘要数据集D中的每个文本摘要数据对(src,tgt),根据标点符号“。、?、!”对src进行划分子句,使用步骤S1)中训练完成的关键词概率预测模型和步骤S2)中训练完成的语义得分预测模型分别获得原文src的子句关键词得分序列score_key和语义得分序列score_sim,然后权衡这两个得分,得到src的子句得分序列score,接下来根据此得分对src的子句进行抽取,获得抽取后的原文src’,组成新的文本摘要数据对(src’,tgt),从而获得文本摘要数据集D’。S4)训练生成式文本摘要模型:构建生成式文本摘要模型,将文本摘要数据集D’划分为训练集、验证集和测试集,对文本摘要模型进行训练、验证和测试。本专利技术通过抽取重要的子句,去除了文本的无关或冗余内容,使得进入第二个阶段的语句输入尽量少,保证第二阶段输出摘要的质量尽量高。附图说明图1为第一阶段抽取文本子句的主要过程图2为关键词概率预测模型的结构图图3为BERT获得子句语义向量的示意图具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。本专利技术具体实施由两个阶段、4个步骤组成,其中第一阶段包括步骤1至步骤3,第二阶段包括步骤4。4个步骤分别是:步骤1:获得关键词概率预测模型;步骤2:获得语义得分预测模型;步骤3:获得训练集D’;步骤4:训练生成式文本摘要模型其中步骤1获得关键词概率预测模型的具体方法为:步骤1.1:制作数据集T_W,它主要包括以下3个步骤:步骤1.1.1:对于对文本摘要数据集D中的每个文本摘要数据对(src,tgt),src表示每个文本摘要数据对中的原文,tgt表示每个文本摘要数据对中的标准摘要,使用改进的Textrank算法获得原文src的关键词集合Key,其具体做法为:a)对原文和标准摘要进行分词、去停用词,形成原文保留词集合和标准摘要保留词集合。使用原文保留词集合中的词语构成候选关键词集合C_k={c_k1,c_k2,…,c_kTx’},其中Tx’是保留的候选关键词的数量,使用原文保留词集合和标准摘要保留词集合交集中的词语构成此篇文档的线索词集合。b)构建图模型G=(V,E),其中V是图中的节点集合,E是图中的边集合。V中每个节点对应候选关键词集合C_k中的每个候选词,节点的权重代表此词语的重要性。E中每条边的权值即集合C_k中某两个候选词间的关联度。本文用词语间的共现关系来度量词语间的关联度。c)将线索词集合中词语所对应节点的初始权重设置为2,其余节点的初始权重设置为1,根据下式对图中各个节点的权重迭代计算,直至图中各个节点的权重达到收敛。其中WS(vi)表示第i个节点的权重,d是阻尼因子,经验值为0.85。wji表示词语c_kj和词语c_ki之间的关联度,Adj(vi)是图中第i个节点的相邻节点所构成的集合。<本文档来自技高网
...

【技术保护点】
1.一种双阶段文本摘要方法,其特征在于,第一阶段从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词;然后将抽取出的子句作为生成式文本摘要模型的输入,进行第二阶段的学习和训练,其中第一阶段包括步骤1至步骤3,第二阶段包括步骤4;/n该方法具体包括以下步骤:/n步骤1:获得关键词概率预测模型;/n步骤2:获得语义得分预测模型;/n步骤3:获得训练集D’;/n步骤4:训练生成式文本摘要模型;/n其中步骤1获得关键词概率预测模型的具体方法为:/n步骤1.1:制作数据集T_W,它主要包括以下3个步骤:/n步骤1.1.1:对于对文本摘要数据集D中的每个文本摘要数据对(src,tgt),src表示每个文本摘要数据对中的原文,tgt表示每个文本摘要数据对中的标准摘要,使用改进的Textrank算法获得原文src的关键词集合Key,其具体做法为:/na)对原文和标准摘要分别进行分词、去停用词,形成原文保留词集合和标准摘要保留词集合,使用原文保留词集合中的词语构成候选关键词集合C_k={c_k

【技术特征摘要】
1.一种双阶段文本摘要方法,其特征在于,第一阶段从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词;然后将抽取出的子句作为生成式文本摘要模型的输入,进行第二阶段的学习和训练,其中第一阶段包括步骤1至步骤3,第二阶段包括步骤4;
该方法具体包括以下步骤:
步骤1:获得关键词概率预测模型;
步骤2:获得语义得分预测模型;
步骤3:获得训练集D’;
步骤4:训练生成式文本摘要模型;
其中步骤1获得关键词概率预测模型的具体方法为:
步骤1.1:制作数据集T_W,它主要包括以下3个步骤:
步骤1.1.1:对于对文本摘要数据集D中的每个文本摘要数据对(src,tgt),src表示每个文本摘要数据对中的原文,tgt表示每个文本摘要数据对中的标准摘要,使用改进的Textrank算法获得原文src的关键词集合Key,其具体做法为:
a)对原文和标准摘要分别进行分词、去停用词,形成原文保留词集合和标准摘要保留词集合,使用原文保留词集合中的词语构成候选关键词集合C_k={c_k1,c_k2,…,c_kTx’},其中Tx’是保留的候选关键词的数量,使用原文保留词集合和标准摘要保留词集合交集中的词语构成此篇文档的线索词集合;
b)构建图模型G=(V,E),其中V是图中的节点集合,E是图中的边集合,V中每个节点对应候选关键词集合C_k中的每个候选词,节点的权重代表此词语的重要性,E中每条边的权值即集合C_k中某两个候选词间的关联度,采用词语间的共现关系来度量词语间的关联度;
c)将线索词集合中词语所对应节点的初始权重设置为2,其余节点的初始权重设置为1,根据下式对图中各个节点的权重迭代计算,直至图中各个节点的权重达到收敛:



其中WS(vi)表示第i个节点的权重,d是阻尼因子,经验值为0.85,wji表示词语c_kj和词语c_ki之间的关联度,Adj(vi)是图中第i个节点的相邻节点所构成的集合;
d)从各节点最终计算得到的权重中选取出前15个权重最高的词语构成提取出的关键词集合Key={key1,key2,…,key15};
步骤1.1.2:对原文src进行分词,得到序列x={x1,x2,…,xTx},xt表示原文中的第t个词语,Tx表示原文的词语数,然后使用上述的TextRank算法得到原文的关键词集合Key,然后将原文中属于集合Key中的词语标记为“1”,其余标记为“0”,从而得到原文的一个标签序列x_t={x_t1,x_t2,…,x_tTx},其中x_tt∈{0,1},表示原文中第t个词语的标签,若xt∈Key,则x_tt=1,否则x_tt=0;
步骤1.1.3:对文本摘要数据集D中的每个文本摘要数据对进行步骤1.1.2的处理,则得到数据集T_W,T_W数据集中每个数据对为(x,x_t);
步骤1.2:根据序列标注的思想构建关键词概率预测模型,将数据集T_W划分为训练集、验证集、测试集,对关键词概率预测模型进行训练、验证和测试;
步骤2获得子句语义得分预测模型的具体做法为:
步骤2.1:制作数据集T_S,它主要包括以下3个步骤:
步骤2.1.1:根据文本摘要数据对(src,tgt),获得原文src的子句语义向量序列s_v和文本主题向量v;
原文中各子句的语义向量的获得方法是,先对原文src按字符进行切分,获得序列c={c1,c2,…,cTc},c中的每个元素代表原文中的每个字符,Tc代表原文中的字符数量,然后按如下步骤获得文本各子句的语义向量:
a)根据标点符号“。、?、!”将原文本src切分成子句序列s={sub1,sub2,…,subTs},其中Ts是子句数,subk表示src中的第k条子句,再对每个子句按字符进行切分,获得sub_ck={ck1,ck2,…,ckTck},ckm表示第k条子句中的第m个字符,Tck是第k条子句的字符数量;
b)在每两条子句间添加符号‘SEP’,在每条子句开头添加符号‘CLS’,重新将子句整合为一条文本,即c’={’CLS’,c11,c12,…,ckTck,‘SEP’,’CLS’,ck+11,…};
c)将c’输入到BERT网络中,通过输出‘CLS’所对应位置的向量获得src的子句语义向量序列s_v=[s_v1,s_v2,…,s_vTs],s_vk表示src中第k条子句的语义向量;
文本主题向量v的获得方法是,将tgt按字符切分,输入到BERT模型中,然后使用BERT输出层末尾位置的输出向量作为tgt的语义向量,即src的主题向量;
步骤2.1.2:根据原文src中每个子句的语义向量序列s_v={s_v1,s_v2,…,s_vTs}和文本主题向量v使用余弦相似度计算得到src中每个子句与文本主题的相似度,然后根据相似性选取出相似性最高的Kss条子...

【专利技术属性】
技术研发人员:桂盛霖刘一飞
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1