藏文文本摘要生成方法和系统技术方案

技术编号:26478731 阅读:16 留言:0更新日期:2020-11-25 19:22
本发明专利技术提供一种藏文文本摘要生成方法和系统,涉及文本信息处理技术领域。本发明专利技术通过对藏文文本进行预处理;基于预设的摘要模型和基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要。其中:摘要模型包括双层的双向GRU神经网络模块和编码‑解码模块;编码‑解码模块的编码端添加注意力机制,解码端添加指针网络。本发明专利技术采用摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子,去掉冗余信息,方便加快后续的处理过程,然后采用预设的摘要模型中的编码‑解码生成理解式文本摘要。本发明专利技术在编码‑解码模块的解码端利用指针网络提高了藏文OOV词的处理精度,提高了摘要的可读性和新颖性。

【技术实现步骤摘要】
藏文文本摘要生成方法和系统
本专利技术涉及文本信息处理
,具体涉及一种藏文文本摘要生成方法和系统。
技术介绍
随着信息的爆炸式增长,人们面临着信息超载的问题,很难高效、快速、准确地获取有价值的信息。为了解决这一问题,出现了自动文本摘要技术来生成输入文本的简洁表示。自动文本摘要是自然语言处理领域的一个重要分支。它是一种利用计算机实现文本分析、内容归纳和自动生成摘要的信息压缩技术。它与文本生成、信息提取密切相关。此外,它可以帮助分析和总结较长的新闻,过滤掉冗余信息,从而提高浏览新闻的速度。随着深度学习技术的发展,基于注意机制的编码-解码模块在对进行抽象总结方面取得了良好的效果。与汉语和英语相比,藏文摘要仍处于探索阶段,面临着许多困难和挑战。首先,藏语新闻通常太长。神经网络难以提取关键信息,容易引起梯度消失和爆炸等问题。其次,缺乏大规模的文本摘要标记训练数据。最后,基于单词的抽象摘要可能会导致词汇表外(OOVout-of-vocabulary)问题,从而影响摘要的可读性。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种藏文文本摘要生成方法和系统,解决了现有的藏文文本摘要生成方法生成的摘要可读性低的技术问题。(二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:本专利技术提供了一种藏文文本摘要生成方法,包括以下步骤:获取待生成摘要的藏文文本;对所述藏文文本进行预处理;基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要;其中:所述预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块;编码-解码模块的编码端添加注意力机制,解码端添加指针网络。优选的,所述预处理包括:采用CRF的方法对藏文文本进行分词,过滤掉停用词,建立词表;并按照藏文边陲符号进行分句,得到子句。优选的,所述预设的预设的摘要模型的构建过程包括:获取训练所需的藏文文本集;对藏文文本集进行预处理,得到初始子句;基于TextRank算法对预处理后的藏文文本集进行标记处理,获取模型训练子句;将模型训练子句输入到摘要模型,对摘要模型进行训练。优选的,所述基于TextRank算法对预处理后的藏文文本集进行标记处理,获取模型训练子句,包括:将每个初始子句作为节点添加到拓扑图G=(V,E)中;其中,G表示一个无向图;V为顶点的集合,表示藏文文本中集的初始子句;E为边的集合,表示初始子句之间的关系;采用Wordv2ec和fasttext两种不同的词向量模型,将初始子句映射到高维词库中表示成向量形式,根据词向量文件将每一个初始子句转化为句向量,初始子句的向量表示是所有相同维数的词向量的平均值,边表示初始子句之间的相似性,公式如下:WS(Si,Sj)=cos(Si1...Sin,Sj1...Sjn)其中:WS(Si,Sj)表示词的相似度;Si和Sj表示词向量;cos表示词之间的余弦距离;n表示词向量维度的大小;迭代算法直至收敛,计算公式如下:WS(Vi)表示的就是任一词Vi的权重;d表示基尼系数;Wij表示节点Vi,Vj之间边的权重;In(Vi)为指向节点Vi的节点集合;Out(Vi)为点Vi指向的节点集合;将每一个节点与其相连的节点计算相似度,并计算相似度在其相连节点中所占的比重进而迭代;按照将每一个词的向量叠加取平均,得到句子向量,进而迭代得到藏文文本集中每一个初始子句的权重;根据权重由高到低进行排序,再根据如下公式重新计算权重最高的前k个初始子句的权重,选取最新权重值为前n个句子作为模型训练子句,其中n<k:Xi=(X1f1+X2f2+...Xkfk)/n其中:Xi表示句子i的最新权重值;f1+f2+...+fk=n,f1,f2,…,fk叫做权;X1到Xk-1表示该初始子句与其他权重高的k-1个初始子句的相似度;Xk表示该初始子句与主题句的相似度;f1到fk表示加权的权值,其中f1到fk-1表示的是惩罚系数,起到权重降低的效果,fk表示与主题句的相似度,起到权重提高的效果。优选的,所述将模型训练子句输入到摘要模型,对模型进行训练,包括:将模型训练子句输入到双层的双向GRU神经网络,对双层的双向GRU神经网络进行训练,完成对双层的双向GRU神经网络的训练,并得到最终训练子句;将最终训练子句输入编码-解码模块中,完成对编码-解码模块的训练。优选的,所述编码-解码模块包括:两个循环神经网络,第一个神经网络用于接收最终训练子句,将最终训练子句编码为一个内容向量,第二个神经网络用于对内容向量进行解码,生成理解式文本摘要。优选的,所述注意力机制的计算公式如下:Yi=softmax(St)ei,j=a(si-1,hj)其中:Yi为已生成摘要的第i个词,由Yi-1,si,ci三个状态决定;si表示i时刻的隐藏状态,由ci,si-1,Yi-1决定;ci表示注意力机制加权后的内容向量;ei,j表示解码阶段隐层状态si与编码状态hij的线性组合,hij表示的是编码状态,代表从i到j个词的编码向量;αi,j表示注意力机制学习到的每一个词的权重;ei,k表示解码阶段隐层状态si与编码状态hik的线性组合,hik表示的是编码状态,代表从i到k个词的编码向量。优选的,所述指针网络包括:利用softmax函数将注意力分布和编码器隐藏状态转换为指向输入序列的指针,计算公式如下:p(Ci|C1,...,Ci-1,X)=softmax(et)其中:Ci表示注意力机加权后的内容向量;X表示输入序列;et表示解码器在时间t时,对编码器每个时间的关注度所构成的向量;表示解码器在时间t时,对编码器时间为i时刻的关注度;表示输入是最后一个时刻所对应的et;St为解码器在时间t时的输出;hi是编码器在时间i时的输出;v,Wh,Ws均表示可学习的参数。本专利技术还提供一种藏文文本摘要生成系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。(三)有益效果本专利技术提供了一种藏文文本摘要生成方法和系统。与现有技术相比,具备以下有益效果:本专利技术首先获取待生成摘要的藏文文本;然后对藏文文本进行预处理;基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要。其中:摘要模型包括双层的双向GRU神经网络模块和编码-解码模块;编码-解码模块的编码端添加注意力机制,解码端添加指针网络。本专利技术采用预设的摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子,去掉冗余信息,方便加快后续的处理过程,然后采用预设的摘要模型中的编码-解码生成理解式文本摘要。本专利技术在编码-解码模块本文档来自技高网...

【技术保护点】
1.一种藏文文本摘要生成方法,其特征在于,包括以下步骤:/n获取待生成摘要的藏文文本;/n对所述藏文文本进行预处理;/n基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要;其中:所述预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块;编码-解码模块的编码端添加注意力机制,解码端添加指针网络。/n

【技术特征摘要】
1.一种藏文文本摘要生成方法,其特征在于,包括以下步骤:
获取待生成摘要的藏文文本;
对所述藏文文本进行预处理;
基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要;其中:所述预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块;编码-解码模块的编码端添加注意力机制,解码端添加指针网络。


2.如权利要1所述的藏文文本摘要生成方法,其特征在于,所述预处理包括:
采用CRF的方法对藏文文本进行分词,过滤掉停用词,建立词表;
并按照藏文边陲符号进行分句,得到子句。


3.如权利要求1任一所述的藏文文本摘要生成方法,其特征在于,所述预设的预设的摘要模型的构建过程包括:
获取训练所需的藏文文本集;
对藏文文本集进行预处理,得到初始子句;
基于TextRank算法对预处理后的藏文文本集进行标记处理,获取模型训练子句;
将模型训练子句输入到摘要模型,对摘要模型进行训练。


4.如权利要求3所述的藏文文本摘要生成方法,其特征在于,所述基于TextRank算法对预处理后的藏文文本集进行标记处理,获取模型训练子句,包括:
将每个初始子句作为节点添加到拓扑图G=(V,E)中;其中,G表示一个无向图;V为顶点的集合,表示藏文文本中集的初始子句;E为边的集合,表示初始子句之间的关系;
采用Wordv2ec和fasttext两种不同的词向量模型,将初始子句映射到高维词库中表示成向量形式,根据词向量文件将每一个初始子句转化为句向量,初始子句的向量表示是所有相同维数的词向量的平均值,边表示初始子句之间的相似性,公式如下:
WS(Si,Sj)=cos(Si1...Sin,Sj1...Sjn)
其中:
WS(Si,Sj)表示词的相似度;
Si和Sj表示词向量;
cos表示词之间的余弦距离;
n表示词向量维度的大小;
迭代算法直至收敛,计算公式如下:



WS(Vi)表示的就是任一词Vi的权重;
d表示基尼系数;
Wij表示节点Vi,Vj之间边的权重;
In(Vi)为指向节点Vi的节点集合;
Out(Vi)为点Vi指向的节点集合;
将每一个节点与其相连的节点计算相似度,并计算相似度在其相连节点中所占的比重进而迭代;
按照将每一个词的向量叠加取平均,得到句子向量,进而迭代得到藏文文本集中每一个初始子句的权重;根据权重由高到低进行排序,再根据如下公式重新计算权重最高的前k个初始子句的权重,选取最新权重值为前n个句子作为模型训练子句,其中n<k:
Xi=(X1f1+X2f2+...Xkfk)/n
其中:
Xi表示句子i的最新权重值;
f1+f2+...+fk=n,f1,f2,…,fk叫做权;
X...

【专利技术属性】
技术研发人员:闫晓东李维
申请(专利权)人:中央民族大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1