一种基于K-means模型和神经网络模型的生成文本摘要的方法技术

技术编号:21361359 阅读:24 留言:0更新日期:2019-06-15 09:20
本发明专利技术公开了一种基于K‑means模型和神经网络模型的生成文本摘要的方法,包括对原始文本进行预处理,得到分割成单个的句子及词语,并将所述句子及词语输入至doc2vec模型中,训练得到句向量;确定所述原始文本的聚类中心个数,并将所述句向量输入至无监督的K‑means模型中,训练得到聚类中心向量;计算所述聚类中心向量与所述句向量的欧式距离,并将距离所述聚类中心最近的句向量对应的句子提取出来作为参考摘要;将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中,生成文本摘要。本发明专利技术的有益效果是将无监督模型和有监督的神经网络模型结合,使得生成的文本摘要能够语义连贯便于用户理解。

A Method of Generating Text Summary Based on K-means Model and Neural Network Model

The invention discloses a method for generating text summary based on K_means model and neural network model, which includes preprocessing the original text, obtaining a single sentence and word, input the sentence and word into doc2vec model, training the sentence vector, determining the number of clustering centers of the original text, and input the sentence vector into unsupervised. In the K_means model, the clustering center vector is trained; the Euclidean distance between the clustering center vector and the sentence vector is calculated, and the sentences corresponding to the sentence vector nearest to the clustering center are extracted as reference abstracts; the original text, the reference abstract and the words are input into the generative neural network model to generate text abstracts. The beneficial effect of the present invention is to combine the unsupervised model with the supervised neural network model, so that the generated text summary can be semantically coherent and easy for users to understand.

【技术实现步骤摘要】
一种基于K-means模型和神经网络模型的生成文本摘要的方法
本专利技术涉及语言处理
,具体的说,是一种基于K-means模型和神经网络模型的生成文本摘要的方法。
技术介绍
我们正处于信息爆炸的时代,享受着多种多样的信息带来的便利时,人们还迫切的希望能够对获取出来的信息去掉冗余、提炼和浓缩出信息的核心内容,以较少的句子代替信息的中心思想,从而提升效率节约查找阅读时间。少部分科技文章是包含摘要的,而对于新闻报道、社会科学类的文章是不含文摘的,这需要读者通篇阅读,已获得主要信息。这些摘要的撰写需要阅读整篇文章并且对文章深入了解,因此撰写摘要的过程需要花费大量的人力物力,对于一些专业性的文章还需要专业知识和行业经验丰富的编者,而能够达到这些要求的人是很少的。当今社会互联网发展迅速,信息量剧增,导致手工编写摘要的人力越来越匮乏,为了获取更多的重要信息,投入大量的人力显然是不现实的。现在技术中自动生成文本摘要的方法基本都是抽取式的,基本流程分为两个步骤,首先,通过语言学知识或统计分析抽取文章中的段落、句子、短语和关键词;然后将抽取的文本进行重新组合得到文本摘要,虽然采用抽取式的方法来提取摘要在一定程度上帮助人们快速的了解文章的重要信息,但是在内容和语言质量差强人意,,因为抽取式的方法得到的摘要中的句子仅仅是原文重要句子的简单拼凑,没有逻辑关联词,导致信息片段化、有歧义,极易导致用户理解不准确。
技术实现思路
针对现有技术的不足,本专利技术提出一种基于K-means模型和神经网络模型的生成文本摘要的方法。本专利技术解决上述技术问题的技术方案如下:一种基于K-means模型和神经网络模型的生成文本摘要的方法,包括:对原始文本进行预处理,得到分割成单个的句子及词语,并将所述句子及词语输入至doc2vec模型中,训练得到句向量;确定所述原始文本的聚类中心个数,并将所述句向量输入至无监督的K-means模型中,训练得到聚类中心向量;计算所述聚类中心向量与所述句向量的欧式距离,并将距离所述聚类中心最近的句向量对应的句子提取出来作为参考摘要;将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中,生成文本摘要。本专利技术的有益效果是:通过无监督的K-means模型生成所述参考摘要,并将所述参考摘要输入至所述生成式神经网络模型中生成文本摘要,将无监督模型和有监督的神经网络模型结合,使得生成的文本摘要能够语义连贯便于用户理解。进一步地,所述对原始文本进行预处理,得到分割成单个的句子及词语,并将所述句子及词语输入至doc2vec模型中,训练得到句向量,具体包括:将所述原始文档按照标点符号分成单个句子,并保存至句子文档中;将所述句子文档中的所述句子分成单个的所述词语,并保存至分词文档中;将所述句子文档中的所述句子和所述分词文档中的所述词语输入至doc2vec模型中,训练得到词向量,并基于所述词向量训练得到所述句向量。采用上述进一步方案的有益效果是:通过分句、分词操作,能够将所述原始文本按照语义理解分成单个词语,并基于所述词向量训练得到所述句向量,使得所述句向量的语义不会发生改变。进一步地,所述确定所述原始文本的聚类中心个数,具体包括:所述聚类中心个数通过簇内误差平方法和/或肘部法确定。采用上述进一步方案的有益效果是:通过所述簇内误差平方法和/或所述肘部法能够更好地确定所述原始文本的聚类中心个数,使得所述无监督的K-means模型能够更准确地对所述句向量进行聚类。进一步地,所述生成式神经网络模型包括基于注意力模型的编码器以及基于注意力模型的解码器;所述将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中,生成文本摘要,具体包括:所述生成式神经网络中的所述基于注意力模型的编码器基于所述参考摘要将所述原始文本编码为一个语义向量;所述生成式神经网络中的所述基于注意力模型的解码器对所述语义向量进行解码,生成所述文本摘要。采用上述进一步方案的有益效果是:通过所述基于注意力模型的编码器以及所述基于注意力模型的解码器,能够使得生成的所述文本摘要语义理解更加准确,用户阅读更加通顺。进一步地,所述基于注意力模型的解码器包括beam-search束搜索解码器;所述生成式神经网络中的所述基于注意力模型的解码器对所述语义向量进行解码,生成文本摘要,具体包括:所述beam-search束搜索解码器对所述语义向量进行解码,依次生成预设阈值的新词语,并根据所述beam-search束搜索解码器中的集束算法从所述新词语中生成所述文本摘要。采用上述进一步方案的有益效果是:通过所述集束算法能够从所述beam-search束搜索解码器解码出的所述新词语中选择出一个语义理解最佳的所述新词语序列作为文本摘要。进一步地,所述基于注意力模型的解码器还包括复制模型;所述beam-search束搜索解码器对所述语义向量进行解码,依次生成预设阈值的新词语,并根据所述beam-search束搜索解码器中的集束算法生成所述文本摘要,还包括:所述复制模型将所述beam-search束搜索解码器在解码过程中无法生成的所述新词语直接从所述原始文本中复制到所述beam-search束搜索解码器的输出中。采用上述进一步方案的有益效果是:所述复制模型能够将所述beam-search束搜索解码器无法输出的词直接从所述原始文本中复制到所述beam-search束搜索解码器到的输出中,使得所述原始文本中的专有词汇能够得到保留。同时,本专利技术还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行是实现上述任一实施例所述的生成文本摘要的方法的步骤。同时,本专利技术还提出一种计算机设备,所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的基于K-means模型和神经网络模型的生成文本摘要的方法的步骤。附图说明图1为本专利技术的方法流程示意图;具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,一种基于K-means模型和神经网络模型的生成文本摘要的方法,包括:110,对原始文本进行预处理,得到分割成单个的句子及词语,并将所述句子及词语输入至doc2vec模型中,训练得到句向量;120,确定所述原始文本的聚类中心个数,并将所述句向量输入至无监督的K-means模型中,训练得到聚类中心向量;130,计算所述聚类中心向量与所述句向量的欧式距离,并将距离所述聚类中心最近的句向量对应的句子提取出来作为参考摘要;140,将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中,生成文本摘要。需要说明的是,本专利技术提供的一种基于K-means模型和神经网络模型的生成文本摘要的方法是先通过无监督的K-means模型将所述原始文本中的句子训练得到最接近所述原始文本语义的句子作为所述参考摘要,然后将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中,由所述生成式神经网络模型生成文本摘要;所述生成式神经网络模型是基于Seq2Seq和注意力模型的Textsum模型;通过所述无监督的K-means模型和有监督的所述生成式神经网络本文档来自技高网...

【技术保护点】
1.一种基于K‑means模型和神经网络模型的生成文本摘要的方法,其特征在于,包括:对原始文本进行预处理,得到分割成单个的句子及词语,并将所述句子及词语输入至doc2vec模型中,训练得到句向量;确定所述原始文本的聚类中心个数,并将所述句向量输入至无监督的K‑means模型中,训练得到聚类中心向量;计算所述聚类中心向量与所述句向量的欧式距离,并将距离所述聚类中心最近的句向量对应的句子提取出来作为参考摘要;将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中,生成文本摘要。

【技术特征摘要】
1.一种基于K-means模型和神经网络模型的生成文本摘要的方法,其特征在于,包括:对原始文本进行预处理,得到分割成单个的句子及词语,并将所述句子及词语输入至doc2vec模型中,训练得到句向量;确定所述原始文本的聚类中心个数,并将所述句向量输入至无监督的K-means模型中,训练得到聚类中心向量;计算所述聚类中心向量与所述句向量的欧式距离,并将距离所述聚类中心最近的句向量对应的句子提取出来作为参考摘要;将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中,生成文本摘要。2.根据权利要求1所述的基于K-means模型和神经网络模型的生成文本摘要的方法,其特征在于,所述对原始文本进行预处理,得到分割成单个的句子及词语,并将所述句子及词语输入至doc2vec模型中,训练得到句向量,具体包括:将所述原始文档按照标点符号分成单个句子,并保存至句子文档中;将所述句子文档中的所述句子分成单个的所述词语,并保存至分词文档中;将所述句子文档中的所述句子和所述分词文档中的所述词语输入至doc2vec模型中,训练得到词向量,并基于所述词向量训练得到所述句向量。3.根据权利要求1所述的基于K-means模型和神经网络模型的生成文本摘要的方法,其特征在于,所述确定所述原始文本的聚类中心个数,包括:所述聚类中心个数通过簇内误差平方法和/或肘部法确定。4.根据权利要求1所述的基于K-means模型和神经网络模型的生成文本摘要的方法,其特征在于,所述生成式神经网络模型包括基于注意力模型的编码器以及基于注意力模型的解码器;所述将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中,生成文本摘要,具体包括:所述生成式神经网络中的所述...

【专利技术属性】
技术研发人员:蔡晓东秦菲
申请(专利权)人:桂林远望智能通信科技有限公司
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1