一种自动生成文本方法以及相关装置制造方法及图纸

技术编号:19177202 阅读:16 留言:0更新日期:2018-10-17 00:20
本申请公开了一种自动生成文本方法,包括:对原始文本进行分句处理得到多个候选句子;从候选句子的语义以及句法结构方面,确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;根据获取的关键词和相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用整数规划模型执行近似求解操作;根据整数规划结果,从所有候选句子中抽取得到多个目标句子和所有目标句子的位置顺序,得到目标文本。通过根据关键词及相似度矩阵抽取目标句子并确定目标句子的位置顺序,从而优化目标文本的连贯性,增强生成文本的可读性,提高用户的阅读体验。本申请还公开了一种自动生成文本装置、服务器以及计算机可读存储介质,具有上述有益效果。

An automatic text generation method and related devices

The present application discloses an automatic text generation method, which includes: processing the original text with clauses to obtain multiple candidate sentences; determining the similarity between each candidate sentence and other candidate sentences from the semantic and syntactic aspects of the candidate sentences, and obtaining the similarity matrix; and obtaining the similarity matrix according to the obtained keywords and similarity matrix The integer programming model is obtained by the integer programming modeling, and the approximate solution is performed by the integer programming model. According to the integer programming results, the position order of multiple target sentences and all target sentences is extracted from all candidate sentences, and the target text is obtained. By extracting the target sentences according to the keywords and similarity matrix and determining the position order of the target sentences, the coherence of the target text can be optimized, the readability of the generated text can be enhanced, and the reading experience can be improved. The application also discloses an automatic text generation device, a server and a computer readable storage medium, which have the above beneficial effects.

【技术实现步骤摘要】
一种自动生成文本方法以及相关装置
本申请涉及计算机
,特别涉及一种自动生成文本方法、自动生成文本装置、服务器以及计算机可读存储介质。
技术介绍
自动生成文本是自然语言处理领域的一个分支,其主要目的就是使机器可以自动生成文本,使文本传递一定的信息。简单的说,就是使机器可以像人一样写作出文本,甚至是创作出优秀的自然语言文本。可以大量的应用在新闻等行业,拥有巨大的前景。目前,自动生成文本的方法主要分为4类:从意义到文本的生成、从数据到文本的生成、从图像到文本的生成、从文本到文本的生成。由于自然语言的语义尚未形成一致的定义,意义到文本的生成方法不多。数据到文本的研究旨在根据提供的数据生成相关描述文本,该方法应用非常广泛,主要应用领域有:天气、财经、医疗等。而随着深度学习的兴起,图像到文本的生成也取得了很大进步。典型地,将图像语义标注与自动生成文本合并起来,图像语义标注采用深度卷积神经网络建模,自动生成文本采用循环神经网络建模,实现从图像到文本的生成。区别于上述三种自动生成文本方法,从文本到文本的生成,由于是直接将文本进行处理,得到新的文本,会具有更加稳定的结构以及语义。并且由于生成文本的效果较好,在该领域具有较多的相关方法,可以得到最终的文本。但是,由于一般的从文本到文本的生成,在生成的时候没有考虑到连贯性,导致最终的文本语句不通畅,使用户的阅读体验较差。因此,如何提高从文本生成文本的连贯性,使用户阅读顺畅,提高用户的阅读体验,是本领域技术人员所关注的重点问题。
技术实现思路
本申请的目的是提供一种自动生成文本方法、自动生成文本装置、服务器以及计算机可读存储介质,通过对候选句子进行相似度计算,得到每个候选句子与其他候选句子的相似度矩阵,可以根据该相似度矩阵和关键词抽取出目标句子,并根据相似度矩阵调整目标句子的位置顺序,使目标文本的相似度总和最大,从而达到优化目标文本连贯性的目的,使文本在阅读时更加顺畅,提高用户的阅读体验。为解决上述技术问题,本申请提供一种自动生成文本方法,包括:对原始文本进行分句处理得到多个候选句子;对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本。可选的,对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵,包括:对所有所述候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果,包括:根据获取的所述关键词和所述语义相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果。可选的,对所有所述候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵,包括:对所有所述候选句子进行语义预测处理,得到每个候选句子的语义向量;根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到所述语义相似度矩阵。可选的,对所有所述候选句子进行语义预测处理,得到每个候选句子的语义向量,包括:通过语义预测工具结合训练语料进行训练模型处理,得到语义预测模型;通过所述语义预测模型预测所有所述候选句子的语义分布,得到每个候选句子的语义向量。可选的,根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到所述语义相似度矩阵,包括:根据每个候选句子的语义向量与其他候选句子的语义向量进行余弦相似度计算,得到对应的余弦相似度;将所有所述余弦相似度作为所述语义相似度,得到所述语义相似度矩阵。可选的,对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵,包括:对所有所述候选句子进行句子结构分析处理,根据句子结构分析处理的结果确定每个候选句子与其他候选句子的结构相似度,得到结构相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果,包括:根据获取的所述关键词和所述结构相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果。可选的,对所有所述候选句子进行句子结构分析处理,根据所述句子结构分析处理的结果确定每个候选句子与其他候选句子的结构相似度,得到结构相似度矩阵,包括:对所有所述候选句子进行实体提取处理,得到多个实体;通过树形分析树分析每个实体在每个候选句子中的角色,得到实体角色矩阵;根据所述实体角色矩阵统计每个实体在每个候选句子中角色转移次数,得到每个实体对应的角色转移次数;根据每个候选句子与其他候选句子中的所有实体的角色转移次数确定每个候选句子与其他候选句子的结构相似度,得到所述结构相似度矩阵。本申请还提供一种自动生成文本装置,包括:候选句子获取模块,用于对原始文本进行分句处理得到多个候选句子;相似度矩阵获取模块,用于对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;整数规划建模模块,用于根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;目标文本获取模块,用于根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本。本申请还提供一种服务器,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上所述的自动生成文本方法的步骤。本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的自动生成文本方法的步骤。本申请所提供的一种自动生成文本方法,包括:对原始文本进行分句处理得到多个候选句子;对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本。通过对候选句子进行相似度计算,得到每个候选句子与其他候选句子的相似度矩阵,就可以根据该相似度矩阵和关键词抽取出目标句子,并根据相似度矩阵调整目标句子的位置顺序,使目标文本的相似度总和最大,从而达到优化目标文本连贯性的目的,使文本在阅读时更加顺畅,提高用户的阅读体验。本申请还提供一种自动生成文本装置、服务器以及计算机可读存储介质,具有上述有益效果,在此不做赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面本文档来自技高网...

【技术保护点】
1.一种自动生成文本方法,其特征在于,包括:对原始文本进行分句处理得到多个候选句子;对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本。

【技术特征摘要】
1.一种自动生成文本方法,其特征在于,包括:对原始文本进行分句处理得到多个候选句子;对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果;根据所述整数规划结果,从所有所述候选句子中抽取得到多个目标句子和所有所述目标句子的位置顺序,得到目标文本。2.根据权利要求1所述的自动生成文本方法,其特征在于,对所有所述候选句子根据相似度计算处理确定每个候选句子与其他候选句子的相似度,得到相似度矩阵,包括:对所有所述候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵;根据获取的关键词和所述相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果,包括:根据获取的所述关键词和所述语义相似度矩阵进行整数规划建模处理,得到整数规划模型,并使用所述整数规划模型执行近似求解操作,得到整数规划结果。3.根据权利要求2所述的自动生成文本方法,其特征在于,对所有所述候选句子进行语义预测处理,根据语义预测处理的结果确定每个候选句子与其他候选句子的语义相似度,得到语义相似度矩阵,包括:对所有所述候选句子进行语义预测处理,得到每个候选句子的语义向量;根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到所述语义相似度矩阵。4.根据权利要求3所述的自动生成文本方法,其特征在于,对所有所述候选句子进行语义预测处理,得到每个候选句子的语义向量,包括:通过语义预测工具结合训练语料进行训练模型处理,得到语义预测模型;通过所述语义预测模型预测所有所述候选句子的语义分布,得到每个候选句子的语义向量。5.根据权利要求4所述的自动生成文本方法,其特征在于,根据每个候选句子的语义向量与其他候选句子的语义向量确定每个候选句子与其他候选句子的语义相似度,得到所述语义相似度矩阵,包括:根据每个候选句子的语义向量与其他候选句子的语义向量进行余弦相似度计算,得到对应的余弦相似度;将所有所述余弦相似度作为所述语义相似度,得到所述语义相...

【专利技术属性】
技术研发人员:陈海林
申请(专利权)人:珍岛信息技术上海股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1