The present application discloses an automatic text generation method, which includes: processing the original text with clauses to obtain multiple candidate sentences; determining the similarity between each candidate sentence and other candidate sentences from the semantic and syntactic aspects of the candidate sentences, and obtaining the similarity matrix; and obtaining the similarity matrix according to the obtained keywords and similarity matrix The integer programming model is obtained by the integer programming modeling, and the approximate solution is performed by the integer programming model. According to the integer programming results, the position order of multiple target sentences and all target sentences is extracted from all candidate sentences, and the target text is obtained. By extracting the target sentences according to the keywords and similarity matrix and determining the position order of the target sentences, the coherence of the target text can be optimized, the readability of the generated text can be enhanced, and the reading experience can be improved. The application also discloses an automatic text generation device, a server and a computer readable storage medium, which have the above beneficial effects.
【技术实现步骤摘要】
一种自动生成文本方法以及相关装置
本申请涉及计算机
,特别涉及一种自动生成文本方法、自动生成文本装置、服务器以及计算机可读存储介质。
技术介绍
自动生成文本是自然语言处理领域的一个分支,其主要目的就是使机器可以自动生成文本,使文本传递一定的信息。简单的说,就是使机器可以像人一样写作出文本,甚至是创作出优秀的自然语言文本。可以大量的应用在新闻等行业,拥有巨大的前景。目前,自动生成文本的方法主要分为4类:从意义到文本的生成、从数据到文本的生成、从图像到文本的生成、从文本到文本的生成。由于自然语言的语义尚未形成一致的定义,意义到文本的生成方法不多。数据到文本的研究旨在根据提供的数据生成相关描述文本,该方法应用非常广泛,主要应用领域有:天气、财经、医疗等。而随着深度学习的兴起,图像到文本的生成也取得了很大进步。典型地,将图像语义标注与自动生成文本合并起来,图像语义标注采用深度卷积神经网络建模,自动生成文本采用循环神经网络建模,实现从图像到文本的生成。区别于上述三种自动生成文本方法,从文本到文本的生成,由于是直接将文本进行处理,得到新的文本,会具有更加稳定的结构以及语义。并且由于生成文本的效果较好,在该领域具有较多的相关方法,可以得到最终的文本。但是,由于一般的从文本到文本的生成,在生成的时候没有考虑到连贯性,导致最终的文本语句不通畅,使用户的阅读体验较差。因此,如何提高从文本生成文本的连贯性,使用户阅读顺畅,提高用户的阅读体验,是本领域技术人员所关注的重点问题。
技术实现思路
本申请的目的是提供一种自动生成文本方法、自动生成文本装置、服务器以及计算机可读存储介质 ...
【技术保护点】
1.一种自动生成文本方法,其特征在于,包括:对原始文本进行分句处理得到多个候选句子;对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本。
【技术特征摘要】
1.一种自动生成文本方法,其特征在于,包括:对原始文本进行分句处理得到多个候选句子;对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本。2.根据权利要求1所述的自动生成文本方法,其特征在于,对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵,包括:对所有所述候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果,包括:根据获取的所述关键词和所述语义相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果。3.根据权利要求2所述的自动生成文本方法,其特征在于,对所有所述候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵,包括:对所有所述候选句子进行语义预测处理,得到每个候选句子的语义向量;根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到所述语义相似度矩阵。4.根据权利要求3所述的自动生成文本方法,其特征在于,对所有所述候选句子进行语义预测处理,得到每个候选句子的语义向量,包括:通过语义预测工具结合训练语料进行训练模型处理,得到语义预测模型;通过所述语义预测模型预测所有所述候选句子的语义分布,得到每个候选句子的语义向量。5.根据权利要求4所述的自动生成文本方法,其特征在于,根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到所述语义相似度矩阵,包括:根据每个候选句子的语义向量与其他候选句子的语义向量进行余弦相似度计算,得到对应的余弦相似度;将所有所述余弦相似度作为所述语义相似度,得到所述语义相...
【专利技术属性】
技术研发人员:陈海林,
申请(专利权)人:珍岛信息技术上海股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。