一种基于双编码指针混合网络的中文摘要生成方法技术

技术编号:33121756 阅读:46 留言:0更新日期:2022-04-17 00:21
本发明专利技术涉及一种双编码指针混合网络的中文摘要生成方法,包括:从语料数据集中获取中文文本数据,中文文本数据包括正文文本及对应的摘要;对获取的中文文本数据进行预处理,并将预处理后的中文文本数据按照设定的比例划分为训练集、验证集和测试集;根据训练集、验证集和测试集,创建对应的词典;基于双编码指针混合网络算法,构建双编码模型;基于训练集和验证集,对双编码模型进行训练和交叉验证;基于测试集对训练后的双编码模型进行测试,以得到中文摘要生成模型;将目标文本输入中文摘要生成模型,输出得到对应的中文摘要。与现有技术相比,本发明专利技术能够自动、准确地生成对应于中文文本的中文摘要,具有准确率高、概括能力强、语句通顺的优点。语句通顺的优点。语句通顺的优点。

【技术实现步骤摘要】
一种基于双编码指针混合网络的中文摘要生成方法


[0001]本专利技术涉及中文文本缩写
,尤其是涉及一种基于双编码指针混合网络的中文摘要生成方法。

技术介绍

[0002]随着网络技术的快速发展,信息传播速度和广度得到了有效提高,但如何从海量的信息中迅速而准确地获取最需要的信息,已经成为当前亟需解决的问题,目前主要借助中文文本摘要生成技术,以解决该问题。
[0003]摘要生成技术主要分为两类:抽取式摘要生成和生成式摘要生成(抽象式摘要生成)。第一种抽取式摘要生成是从原文中找到一些关键的句子,组合成一篇摘要;第二种生成式摘要生成需要计算机可以读懂原文的内容,并且用自己的意思将原文的意思展现出来。前者目前技术比较成熟,主要利用统计学的方法和对中文词频的排序算法,通过抽取在原文中得分比较高的句子然后组合成摘要,但是其结果较为机械。
[0004]生成式摘要的相关技术则尚未成熟,尤其是在中文领域。在当前深度学习理论算法不断完善、各种框架不断成熟的前提下,2014年由谷歌团队提出了一种端对端网络,并可以将此结构应用在自然语言处理领域中进行摘要生成,但是因为此网络有着长距离依赖的问题,所以当输入大量单词后会使得网络丢失一部分信息、导致摘要生成不准确;此外,有研究将attention机制用在自然语言处理领域中,这种机制可以在某种特定的情况下只关注跟它相关的内容忽略其它内容;在2016年Facebook团队提出了在端对端的编码阶段采用卷积网络来实现,在摘要生成任务中达到了当时的最高水准;2017年Facebook团队又提出将编码器和解码器都换成卷积网络单元,这使得效率得到了提升;还有研究提出了基于RNN的生成式摘要生成技术。但是上述这些技术均只能作用于生成较短句子或者标题等摘要,而且在中文领域没有良好表现。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双编码指针混合网络的中文摘要生成方法,以能够自动、准确地生成对应于中文文本的中文摘要。
[0006]本专利技术的目的可以通过以下技术方案来实现:一种双编码指针混合网络的中文摘要生成方法,包括以下步骤:
[0007]S1、从语料数据集中获取中文文本数据,其中,中文文本数据包括正文文本及对应的摘要;
[0008]S2、对获取的中文文本数据进行预处理,并将预处理后的中文文本数据按照设定的比例划分为训练集、验证集和测试集;
[0009]S3、根据训练集、验证集和测试集,创建对应的词典;
[0010]S4、基于双编码指针混合网络算法,构建双编码模型;
[0011]S5、基于训练集和验证集,对双编码模型进行训练和交叉验证;
[0012]基于测试集对训练后的双编码模型进行测试,以得到中文摘要生成模型;
[0013]S6、将目标文本输入中文摘要生成模型,输出得到对应的中文摘要。
[0014]进一步地,所述步骤S1中获取的中文文本数据采用csv格式,包含两列数据:第一列为摘要数据,第二列为正文文本。
[0015]进一步地,所述步骤S2具体包括以下步骤:
[0016]S21、对正文文本和摘要数据分别进行清洗;
[0017]S22、建立分词词图,通过计算全局概率,来获得最大的切分组合;
[0018]之后对中文、英文和数字进行区分并分开处理;
[0019]对分词进行输出和词性标注,最终将中文文本数据处理为正文

摘要对的形式,即得到多个正文

摘要对数据;
[0020]S23、将多个正文

摘要对数据按照设定的比例划分为训练集、验证集和测试集。
[0021]进一步地,所述步骤S3的具体过程为:针对多个正文

摘要对数据,采用Hash算法计算其中字词的出现频率,按照出现频率从高到低依次生成对应的词典。
[0022]进一步地,所述词典采用txt文件格式,包含两列数据,第一列为字词,第二列为对应的出现频率。
[0023]进一步地,所述步骤S4中构建的双编码模型包括第一编码器、第二编码器和解码器,所述第一编码器为一个双向的LSTM网络,用于对正文

摘要对进行编码,以获得新词汇编码;
[0024]所述第二编码器为textrank模型,用于从正文中筛选出关键句;
[0025]所述解码器为一个单向的LSTM网络,用于对新词汇编码进行解码输出。
[0026]进一步地,所述第一编码器的具体工作过程为:对通过带有注意力机制的双向LSTM网络,对正文

摘要对进行编码,得到词编码;
[0027]对词编码进行注意力筛选后,获得文本向量;
[0028]将文本向量输入词典中分布进行筛选,获得新词汇编码。
[0029]进一步地,所述第二编码器具体是采用word2vec模型编码的方式,以从正文文本筛选出关键句。
[0030]进一步地,所述第二编码器的具体工作过程为:
[0031]textrank模型根据词之间的共现关系构造网络,其核心公式为:
[0032][0033]首先构建词图,其中,V为节点集合,V
i
,V
j
分别为其中的一个句子节点,WS(V
i
)为各个点的权重值;
[0034]然后采用共现关系构造任意两个节点之间的边,其中,d为阻尼系数,表示从一个句子和另外一个句子的概率,(1

d)即表示会随机跳转到另外句子的概率;
[0035]w
ji
为连接两个句子节点的边的权重,也就是句子之间的相似度,两个节点之间存在边仅当它们对应的词在长度为K的窗口中共现,K为窗口大小,即最多共现K个单词;
[0036]根据所述核心公式,迭代计算各节点的权重,直至收敛;
[0037]对节点的权重进行倒序排序,从中得到最重要的t个单词,作为top

t关键词,对于
得到的top

t关键词,在原始正文中进行标记,若它们之间形成了相邻词组,则作为关键词组提取出来;
[0038]将正文中的每个句子分别看作一个节点,如果两个句子有相似性,则认为这两个句子对应的节点之间存在一条无向有权边,衡量句子之间相似性的相似度计算公式如下:
[0039][0040]其中,S
i
,、S
j
为两个句子,w
k
为句子中的词,分子部分的意思是同时出现在两个句子中的同一个词的数量,分母是对句子中词的个数求对数后求和,这样设计可以遏制较长的句子在相似度计算上的优势;
[0041]根据所述相似度计算公式,循环计算任意两个节点之间的相似度,设置阈值去掉两个节点之间相似度较低的边连接,构建出节点连接图,然后迭代计算每个节点的TextRank值,排序后筛选出TextRank值最高的n个节点对应的句子,即得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双编码指针混合网络的中文摘要生成方法,其特征在于,包括以下步骤:S1、从语料数据集中获取中文文本数据,其中,中文文本数据包括正文文本及对应的摘要;S2、对获取的中文文本数据进行预处理,并将预处理后的中文文本数据按照设定的比例划分为训练集、验证集和测试集;S3、根据训练集、验证集和测试集,创建对应的词典;S4、基于双编码指针混合网络算法,构建双编码模型;S5、基于训练集和验证集,对双编码模型进行训练和交叉验证;基于测试集对训练后的双编码模型进行测试,以得到中文摘要生成模型;S6、将目标文本输入中文摘要生成模型,输出得到对应的中文摘要。2.根据权利要求1所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述步骤S1中获取的中文文本数据采用csv格式,包含两列数据:第一列为摘要数据,第二列为正文文本。3.根据权利要求1所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述步骤S2具体包括以下步骤:S21、对正文文本和摘要数据分别进行清洗;S22、建立分词词图,通过计算全局概率,来获得最大的切分组合;之后对中文、英文和数字进行区分并分开处理;对分词进行输出和词性标注,最终将中文文本数据处理为正文

摘要对的形式,即得到多个正文

摘要对数据;S23、将多个正文

摘要对数据按照设定的比例划分为训练集、验证集和测试集。4.根据权利要求3所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述步骤S3的具体过程为:针对多个正文

摘要对数据,采用Hash算法计算其中字词的出现频率,按照出现频率从高到低依次生成对应的词典。5.根据权利要求4所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述词典采用txt文件格式,包含两列数据,第一列为字词,第二列为对应的出现频率。6.根据权利要求1所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述步骤S4中构建的双编码模型包括第一编码器、第二编码器和解码器,所述第一编码器为一个双向的LSTM网络,用于对正文

摘要对进行编码,以获得新词汇编码;所述第二编码器为textrank模型,用于从正文中筛选出关键句;所述解码器为一个单向的LSTM网络,用于对新词汇编码进行解码输出。7.根据权利要求6所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述第一编码器的具体工作过程为:对通过带有注意力机制的双向LSTM网络,对正文

摘要对进行编码,得到词编码;对词编码进行注意力筛选后,获得文本向量;将文本向量输入词典中分布进行筛选,获得新词汇编码。8...

【专利技术属性】
技术研发人员:陈海光刘明星齐子锋黄继风
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1