藏文文本摘要生成方法和系统技术方案

技术编号：26478731 阅读：16 留言：0更新日期：2020-11-25 19:22

本发明专利技术提供一种藏文文本摘要生成方法和系统，涉及文本信息处理技术领域。本发明专利技术通过对藏文文本进行预处理；基于预设的摘要模型和基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要。其中：摘要模型包括双层的双向GRU神经网络模块和编码‑解码模块；编码‑解码模块的编码端添加注意力机制，解码端添加指针网络。本发明专利技术采用摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子，去掉冗余信息，方便加快后续的处理过程，然后采用预设的摘要模型中的编码‑解码生成理解式文本摘要。本发明专利技术在编码‑解码模块的解码端利用指针网络提高了藏文OOV词的处理精度，提高了摘要的可读性和新颖性。

全部详细技术资料下载

【技术实现步骤摘要】
藏文文本摘要生成方法和系统
本专利技术涉及文本信息处理
，具体涉及一种藏文文本摘要生成方法和系统。
技术介绍
随着信息的爆炸式增长，人们面临着信息超载的问题，很难高效、快速、准确地获取有价值的信息。为了解决这一问题，出现了自动文本摘要技术来生成输入文本的简洁表示。自动文本摘要是自然语言处理领域的一个重要分支。它是一种利用计算机实现文本分析、内容归纳和自动生成摘要的信息压缩技术。它与文本生成、信息提取密切相关。此外，它可以帮助分析和总结较长的新闻，过滤掉冗余信息，从而提高浏览新闻的速度。随着深度学习技术的发展，基于注意机制的编码-解码模块在对进行抽象总结方面取得了良好的效果。与汉语和英语相比，藏文摘要仍处于探索阶段，面临着许多困难和挑战。首先，藏语新闻通常太长。神经网络难以提取关键信息，容易引起梯度消失和爆炸等问题。其次，缺乏大规模的文本摘要标记训练数据。最后，基于单词的抽象摘要可能会导致词汇表外(OOVout-of-vocabulary)问题，从而影响摘要的可读性。
技术实现思路
(一)解决的技术问题针对现有技术的不足，本专利技术提供了一种藏文文本摘要生成方法和系统，解决了现有的藏文文本摘要生成方法生成的摘要可读性低的技术问题。(二)技术方案为实现以上目的，本专利技术通过以下技术方案予以实现：本专利技术提供了一种藏文文本摘要生成方法，包括以下步骤：获取待生成摘要的藏文文本；对所述藏文文本进行预处理；基于预设的摘要模型和预处理后的...

【技术保护点】
1.一种藏文文本摘要生成方法，其特征在于，包括以下步骤：/n获取待生成摘要的藏文文本；/n对所述藏文文本进行预处理；/n基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要；其中：所述预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块；编码-解码模块的编码端添加注意力机制，解码端添加指针网络。/n

【技术特征摘要】
1.一种藏文文本摘要生成方法，其特征在于，包括以下步骤：
获取待生成摘要的藏文文本；
对所述藏文文本进行预处理；
基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要；其中：所述预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块；编码-解码模块的编码端添加注意力机制，解码端添加指针网络。

2.如权利要1所述的藏文文本摘要生成方法，其特征在于，所述预处理包括：
采用CRF的方法对藏文文本进行分词，过滤掉停用词，建立词表；
并按照藏文边陲符号进行分句，得到子句。

3.如权利要求1任一所述的藏文文本摘要生成方法，其特征在于，所述预设的预设的摘要模型的构建过程包括：
获取训练所需的藏文文本集；
对藏文文本集进行预处理，得到初始子句；
基于TextRank算法对预处理后的藏文文本集进行标记处理，获取模型训练子句；
将模型训练子句输入到摘要模型，对摘要模型进行训练。

4.如权利要求3所述的藏文文本摘要生成方法，其特征在于，所述基于TextRank算法对预处理后的藏文文本集进行标记处理，获取模型训练子句，包括：
将每个初始子句作为节点添加到拓扑图G＝(V,E)中；其中，G表示一个无向图；V为顶点的集合，表示藏文文本中集的初始子句；E为边的集合，表示初始子句之间的关系；
采用Wordv2ec和fasttext两种不同的词向量模型，将初始子句映射到高维词库中表示成向量形式，根据词向量文件将每一个初始子句转化为句向量，初始子句的向量表示是所有相同维数的词向量的平均值，边表示初始子句之间的相似性，公式如下：
WS(Si,Sj)＝cos(Si1...Sin,Sj1...Sjn)
其中：
WS(Si,Sj)表示词的相似度；
Si和Sj表示词向量；
cos表示词之间的余弦距离；
n表示词向量维度的大小；
迭代算法直至收敛，计算公式如下：

WS(Vi)表示的就是任一词Vi的权重；
d表示基尼系数；
Wij表示节点Vi，Vj之间边的权重；
In(Vi)为指向节点Vi的节点集合；
Out(Vi)为点Vi指向的节点集合；
将每一个节点与其相连的节点计算相似度，并计算相似度在其相连节点中所占的比重进而迭代；
按照将每一个词的向量叠加取平均，得到句子向量，进而迭代得到藏文文本集中每一个初始子句的权重；根据权重由高到低进行排序，再根据如下公式重新计算权重最高的前k个初始子句的权重，选取最新权重值为前n个句子作为模型训练子句，其中n<k：
Xi＝(X1f1+X2f2+...Xkfk)/n
其中：
Xi表示句子i的最新权重值；
f1+f2+...+fk＝n，f1，f2，…，fk叫做权；
X...

【专利技术属性】
技术研发人员：闫晓东，李维，
申请(专利权)人：中央民族大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人