一种基于K-means模型和神经网络模型的生成文本摘要的方法技术

技术编号：21361359 阅读：24 留言：0更新日期：2019-06-15 09:20

本发明专利技术公开了一种基于K‑means模型和神经网络模型的生成文本摘要的方法，包括对原始文本进行预处理，得到分割成单个的句子及词语，并将所述句子及词语输入至doc2vec模型中，训练得到句向量；确定所述原始文本的聚类中心个数，并将所述句向量输入至无监督的K‑means模型中，训练得到聚类中心向量；计算所述聚类中心向量与所述句向量的欧式距离，并将距离所述聚类中心最近的句向量对应的句子提取出来作为参考摘要；将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中，生成文本摘要。本发明专利技术的有益效果是将无监督模型和有监督的神经网络模型结合，使得生成的文本摘要能够语义连贯便于用户理解。

A Method of Generating Text Summary Based on K-means Model and Neural Network Model

The invention discloses a method for generating text summary based on K_means model and neural network model, which includes preprocessing the original text, obtaining a single sentence and word, input the sentence and word into doc2vec model, training the sentence vector, determining the number of clustering centers of the original text, and input the sentence vector into unsupervised. In the K_means model, the clustering center vector is trained; the Euclidean distance between the clustering center vector and the sentence vector is calculated, and the sentences corresponding to the sentence vector nearest to the clustering center are extracted as reference abstracts; the original text, the reference abstract and the words are input into the generative neural network model to generate text abstracts. The beneficial effect of the present invention is to combine the unsupervised model with the supervised neural network model, so that the generated text summary can be semantically coherent and easy for users to understand.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于K-means模型和神经网络模型的生成文本摘要的方法
本专利技术涉及语言处理
，具体的说，是一种基于K-means模型和神经网络模型的生成文本摘要的方法。
技术介绍
我们正处于信息爆炸的时代，享受着多种多样的信息带来的便利时，人们还迫切的希望能够对获取出来的信息去掉冗余、提炼和浓缩出信息的核心内容，以较少的句子代替信息的中心思想，从而提升效率节约查找阅读时间。少部分科技文章是包含摘要的，而对于新闻报道、社会科学类的文章是不含文摘的，这需要读者通篇阅读，已获得主要信息。这些摘要的撰写需要阅读整篇文章并且对文章深入了解，因此撰写摘要的过程需要花费大量的人力物力，对于一些专业性的文章还需要专业知识和行业经验丰富的编者，而能够达到这些要求的人是很少的。当今社会互联网发展迅速，信息量剧增，导致手工编写摘要的人力越来越匮乏，为了获取更多的重要信息，投入大量的人力显然是不现实的。现在技术中自动生成文本摘要的方法基本都是抽取式的，基本流程分为两个步骤，首先，通过语言学知识或统计分析抽取文章中的段落、句子、短语和关键词；然后将抽取的文本进行重新组合得到文本摘要，虽然采用抽取式的方法来提取摘要在一定程度上帮助人们快速的了解文章的重要信息，但是在内容和语言质量差强人意，，因为抽取式的方法得到的摘要中的句子仅仅是原文重要句子的简单拼凑，没有逻辑关联词，导致信息片段化、有歧义，极易导致用户理解不准确。
技术实现思路
针对现有技术的不足，本专利技术提出一种基于K-means模型和神经网络模型的生成文本摘要的方法。本专利技术解决上述技术问题的技术方案如下：一种基于K-mean...

【技术保护点】
1.一种基于K‑means模型和神经网络模型的生成文本摘要的方法，其特征在于，包括：对原始文本进行预处理，得到分割成单个的句子及词语，并将所述句子及词语输入至doc2vec模型中，训练得到句向量；确定所述原始文本的聚类中心个数，并将所述句向量输入至无监督的K‑means模型中，训练得到聚类中心向量；计算所述聚类中心向量与所述句向量的欧式距离，并将距离所述聚类中心最近的句向量对应的句子提取出来作为参考摘要；将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中，生成文本摘要。

【技术特征摘要】
1.一种基于K-means模型和神经网络模型的生成文本摘要的方法，其特征在于，包括：对原始文本进行预处理，得到分割成单个的句子及词语，并将所述句子及词语输入至doc2vec模型中，训练得到句向量；确定所述原始文本的聚类中心个数，并将所述句向量输入至无监督的K-means模型中，训练得到聚类中心向量；计算所述聚类中心向量与所述句向量的欧式距离，并将距离所述聚类中心最近的句向量对应的句子提取出来作为参考摘要；将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中，生成文本摘要。2.根据权利要求1所述的基于K-means模型和神经网络模型的生成文本摘要的方法，其特征在于，所述对原始文本进行预处理，得到分割成单个的句子及词语，并将所述句子及词语输入至doc2vec模型中，训练得到句向量，具体包括：将所述原始文档按照标点符号分成单个句子，并保存至句子文档中；将所述句子文档中的所述句子分成单个的所述词语，并保存至分词文档中；将所述句子文档中的所述句子和所述分词文档中的所述词语输入至doc2vec模型中，训练得到词向量，并基于所述词向量训练得到所述句向量。3.根据权利要求1所述的基于K-means模型和神经网络模型的生成文本摘要的方法，其特征在于，所述确定所述原始文本的聚类中心个数，包括：所述聚类中心个数通过簇内误差平方法和/或肘部法确定。4.根据权利要求1所述的基于K-means模型和神经网络模型的生成文本摘要的方法，其特征在于，所述生成式神经网络模型包括基于注意力模型的编码器以及基于注意力模型的解码器；所述将所述原始文本、所述参考摘要以及所述词语输入至生成式神经网络模型中，生成文本摘要，具体包括：所述生成式神经网络中的所述...

【专利技术属性】
技术研发人员：蔡晓东，秦菲，
申请(专利权)人：桂林远望智能通信科技有限公司，
类型：发明
国别省市：广西,45

全部详细技术资料下载我是这个专利的主人