【技术实现步骤摘要】
一种基于双编码指针混合网络的中文摘要生成方法
[0001]本专利技术涉及中文文本缩写
,尤其是涉及一种基于双编码指针混合网络的中文摘要生成方法。
技术介绍
[0002]随着网络技术的快速发展,信息传播速度和广度得到了有效提高,但如何从海量的信息中迅速而准确地获取最需要的信息,已经成为当前亟需解决的问题,目前主要借助中文文本摘要生成技术,以解决该问题。
[0003]摘要生成技术主要分为两类:抽取式摘要生成和生成式摘要生成(抽象式摘要生成)。第一种抽取式摘要生成是从原文中找到一些关键的句子,组合成一篇摘要;第二种生成式摘要生成需要计算机可以读懂原文的内容,并且用自己的意思将原文的意思展现出来。前者目前技术比较成熟,主要利用统计学的方法和对中文词频的排序算法,通过抽取在原文中得分比较高的句子然后组合成摘要,但是其结果较为机械。
[0004]生成式摘要的相关技术则尚未成熟,尤其是在中文领域。在当前深度学习理论算法不断完善、各种框架不断成熟的前提下,2014年由谷歌团队提出了一种端对端网络,并可以将此结构应用在自然语言处理领域中进行摘要生成,但是因为此网络有着长距离依赖的问题,所以当输入大量单词后会使得网络丢失一部分信息、导致摘要生成不准确;此外,有研究将attention机制用在自然语言处理领域中,这种机制可以在某种特定的情况下只关注跟它相关的内容忽略其它内容;在2016年Facebook团队提出了在端对端的编码阶段采用卷积网络来实现,在摘要生成任务中达到了当时的最高水准;2017年Facebook团队 ...
【技术保护点】
【技术特征摘要】
1.一种双编码指针混合网络的中文摘要生成方法,其特征在于,包括以下步骤:S1、从语料数据集中获取中文文本数据,其中,中文文本数据包括正文文本及对应的摘要;S2、对获取的中文文本数据进行预处理,并将预处理后的中文文本数据按照设定的比例划分为训练集、验证集和测试集;S3、根据训练集、验证集和测试集,创建对应的词典;S4、基于双编码指针混合网络算法,构建双编码模型;S5、基于训练集和验证集,对双编码模型进行训练和交叉验证;基于测试集对训练后的双编码模型进行测试,以得到中文摘要生成模型;S6、将目标文本输入中文摘要生成模型,输出得到对应的中文摘要。2.根据权利要求1所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述步骤S1中获取的中文文本数据采用csv格式,包含两列数据:第一列为摘要数据,第二列为正文文本。3.根据权利要求1所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述步骤S2具体包括以下步骤:S21、对正文文本和摘要数据分别进行清洗;S22、建立分词词图,通过计算全局概率,来获得最大的切分组合;之后对中文、英文和数字进行区分并分开处理;对分词进行输出和词性标注,最终将中文文本数据处理为正文
‑
摘要对的形式,即得到多个正文
‑
摘要对数据;S23、将多个正文
‑
摘要对数据按照设定的比例划分为训练集、验证集和测试集。4.根据权利要求3所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述步骤S3的具体过程为:针对多个正文
‑
摘要对数据,采用Hash算法计算其中字词的出现频率,按照出现频率从高到低依次生成对应的词典。5.根据权利要求4所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述词典采用txt文件格式,包含两列数据,第一列为字词,第二列为对应的出现频率。6.根据权利要求1所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述步骤S4中构建的双编码模型包括第一编码器、第二编码器和解码器,所述第一编码器为一个双向的LSTM网络,用于对正文
‑
摘要对进行编码,以获得新词汇编码;所述第二编码器为textrank模型,用于从正文中筛选出关键句;所述解码器为一个单向的LSTM网络,用于对新词汇编码进行解码输出。7.根据权利要求6所述的一种双编码指针混合网络的中文摘要生成方法,其特征在于,所述第一编码器的具体工作过程为:对通过带有注意力机制的双向LSTM网络,对正文
‑
摘要对进行编码,得到词编码;对词编码进行注意力筛选后,获得文本向量;将文本向量输入词典中分布进行筛选,获得新词汇编码。8...
【专利技术属性】
技术研发人员:陈海光,刘明星,齐子锋,黄继风,
申请(专利权)人:上海师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。