双阶段文本摘要方法技术

技术编号：26762725 阅读：23 留言：0更新日期：2020-12-18 23:15

本发明专利技术公开了一种双阶段文本摘要方法，涉及自然语言处理领域。该方法首先从原文本中将与文本主题最为相关的子句抽取出，且尽可能的保证这些子句中包含更多文本关键词，然后将抽取出的内容作为生成式文本摘要模型的输入，进行第二阶段的学习和训练。本发明专利技术通过抽取重要的子句，去除了文本的无关或冗余内容，使得进入第二个阶段的语句输入尽量少，保证第二阶段输出摘要的质量尽量高。

全部详细技术资料下载

【技术实现步骤摘要】
双阶段文本摘要方法
本专利技术涉及自然语言处理领域，具体涉及一种双阶段文本摘要方法。
技术介绍
随着我国社会经济以及互联网技术的高速发展，人们逐渐使用电子设备并通过网络通道进行日常的交流、工作和信息获取等。2019年8月30日，中国互联网络信息中心(CNNIC)在北京发布第44次《中国互联网络发展状况统计报告》。《报告》指出，到2019年6月，我国网民的数量比2018年年底增加了2598万，网民总数量达到了8.54亿，其中手机网民的数量达到了8.47亿，且网民通过手机上网的比例高达99.18％。如此庞大的互联网使用率导致了数据过载的问题，据统计，互联网数据量已跃至ZB级别，其中，文本信息成为人们使用互联网获取信息的主要来源，导致了文本信息的爆炸式增长，成为互联网数据的“主力军”。而随之出现的一系列营销号题文不对称的现象也让人们深恶痛绝，例如各大社交软件和新闻头条的“标题党”。至此，如何解决低效阅读和数据过载问题，快速获取文本中的关键信息成为当代互联网的首要问题，由此，文本摘要技术应运而生。目前国内外常用的自动...

【技术保护点】
1.一种双阶段文本摘要方法，其特征在于，第一阶段从原文本中将与文本主题最为相关的子句抽取出，且尽可能的保证这些子句中包含更多文本关键词；然后将抽取出的子句作为生成式文本摘要模型的输入，进行第二阶段的学习和训练，其中第一阶段包括步骤1至步骤3，第二阶段包括步骤4；/n该方法具体包括以下步骤：/n步骤1：获得关键词概率预测模型；/n步骤2：获得语义得分预测模型；/n步骤3：获得训练集D’；/n步骤4：训练生成式文本摘要模型；/n其中步骤1获得关键词概率预测模型的具体方法为：/n步骤1.1：制作数据集T_W，它主要包括以下3个步骤：/n步骤1.1.1：对于对文本摘要数据集D中的每个文本摘要数据对(s...

【技术特征摘要】
1.一种双阶段文本摘要方法，其特征在于，第一阶段从原文本中将与文本主题最为相关的子句抽取出，且尽可能的保证这些子句中包含更多文本关键词；然后将抽取出的子句作为生成式文本摘要模型的输入，进行第二阶段的学习和训练，其中第一阶段包括步骤1至步骤3，第二阶段包括步骤4；
该方法具体包括以下步骤：
步骤1：获得关键词概率预测模型；
步骤2：获得语义得分预测模型；
步骤3：获得训练集D’；
步骤4：训练生成式文本摘要模型；
其中步骤1获得关键词概率预测模型的具体方法为：
步骤1.1：制作数据集T_W，它主要包括以下3个步骤：
步骤1.1.1：对于对文本摘要数据集D中的每个文本摘要数据对(src,tgt)，src表示每个文本摘要数据对中的原文，tgt表示每个文本摘要数据对中的标准摘要，使用改进的Textrank算法获得原文src的关键词集合Key，其具体做法为：
a)对原文和标准摘要分别进行分词、去停用词，形成原文保留词集合和标准摘要保留词集合，使用原文保留词集合中的词语构成候选关键词集合C_k＝{c_k1,c_k2,…,c_kTx’}，其中Tx’是保留的候选关键词的数量，使用原文保留词集合和标准摘要保留词集合交集中的词语构成此篇文档的线索词集合；
b)构建图模型G＝(V，E)，其中V是图中的节点集合，E是图中的边集合，V中每个节点对应候选关键词集合C_k中的每个候选词，节点的权重代表此词语的重要性，E中每条边的权值即集合C_k中某两个候选词间的关联度，采用词语间的共现关系来度量词语间的关联度；
c)将线索词集合中词语所对应节点的初始权重设置为2，其余节点的初始权重设置为1，根据下式对图中各个节点的权重迭代计算，直至图中各个节点的权重达到收敛：

其中WS(vi)表示第i个节点的权重，d是阻尼因子，经验值为0.85，wji表示词语c_kj和词语c_ki之间的关联度，Adj(vi)是图中第i个节点的相邻节点所构成的集合；
d)从各节点最终计算得到的权重中选取出前15个权重最高的词语构成提取出的关键词集合Key＝{key1,key2,…,key15}；
步骤1.1.2：对原文src进行分词，得到序列x＝{x1,x2,…,xTx}，xt表示原文中的第t个词语，Tx表示原文的词语数，然后使用上述的TextRank算法得到原文的关键词集合Key，然后将原文中属于集合Key中的词语标记为“1”，其余标记为“0”，从而得到原文的一个标签序列x_t＝{x_t1,x_t2,…,x_tTx}，其中x_tt∈{0,1}，表示原文中第t个词语的标签，若xt∈Key，则x_tt＝1，否则x_tt＝0；
步骤1.1.3：对文本摘要数据集D中的每个文本摘要数据对进行步骤1.1.2的处理，则得到数据集T_W，T_W数据集中每个数据对为(x，x_t)；
步骤1.2：根据序列标注的思想构建关键词概率预测模型，将数据集T_W划分为训练集、验证集、测试集，对关键词概率预测模型进行训练、验证和测试；
步骤2获得子句语义得分预测模型的具体做法为：
步骤2.1：制作数据集T_S，它主要包括以下3个步骤：
步骤2.1.1：根据文本摘要数据对(src,tgt)，获得原文src的子句语义向量序列s_v和文本主题向量v；
原文中各子句的语义向量的获得方法是，先对原文src按字符进行切分，获得序列c＝{c1,c2,…,cTc}，c中的每个元素代表原文中的每个字符，Tc代表原文中的字符数量，然后按如下步骤获得文本各子句的语义向量：
a)根据标点符号“。、？、！”将原文本src切分成子句序列s＝{sub1,sub2,…,subTs}，其中Ts是子句数，subk表示src中的第k条子句，再对每个子句按字符进行切分，获得sub_ck＝{ck1,ck2,…,ckTck}，ckm表示第k条子句中的第m个字符，Tck是第k条子句的字符数量；
b)在每两条子句间添加符号‘SEP’，在每条子句开头添加符号‘CLS’，重新将子句整合为一条文本，即c’＝{’CLS’,c11,c12,…,ckTck,‘SEP’,’CLS’,ck+11,…}；
c)将c’输入到BERT网络中，通过输出‘CLS’所对应位置的向量获得src的子句语义向量序列s_v＝[s_v1,s_v2,…,s_vTs]，s_vk表示src中第k条子句的语义向量；
文本主题向量v的获得方法是，将tgt按字符切分，输入到BERT模型中，然后使用BERT输出层末尾位置的输出向量作为tgt的语义向量，即src的主题向量；
步骤2.1.2：根据原文src中每个子句的语义向量序列s_v＝{s_v1，s_v2,…,s_vTs}和文本主题向量v使用余弦相似度计算得到src中每个子句与文本主题的相似度，然后根据相似性选取出相似性最高的Kss条子...

【专利技术属性】
技术研发人员：桂盛霖，刘一飞，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人