一种摘要生成方法及设备技术

技术编号:23343567 阅读:28 留言:0更新日期:2020-02-15 03:57
本发明专利技术实施例提供了一种摘要生成方法及设备;该方法包括:获取已分组对象对应的已分组文本信息,从而得到与至少一个已分组对象对应的至少一个已分组文本信息;对已分组文本信息进行分词发现处理,得到初始关键词;对至少一个已分组文本信息进行主题提取,获取每个主题所对应的主题文本信息的主题关键词信息,从而得到至少一个主题关键词信息;依据至少一个主题关键词信息,从初始关键词中选择摘要关键词;获取摘要关键词在已分组文本信息中的分词语序,依据分词语序对摘要关键词进行排序组合,得到目标摘要,从而得到与至少一个已分组文本信息对应的至少一个目标摘要。通过本发明专利技术实施例,能够提升摘要生成的准确度。

A summary generation method and equipment

【技术实现步骤摘要】
一种摘要生成方法及设备
本专利技术涉及计算机领域中的信息处理技术,尤其涉及一种摘要生成方法及设备。
技术介绍
摘要,又称概要或内容提要,是从文献中摘录下来的要点,通常指以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。通过摘要,用户可以快速获取到文献的主要内容,进而能够从海量的文献中确定所关心的目标文献。根据文献生成摘要时,通常采用抽取式,即从文献中抽取重要的句子组成摘要的方式;然而,有的文献并不是一篇完整的文章,比如,会议纪要和举报信息等,都是多人口语化的描述信息,从而,采用抽取式生成的摘要不能准确地表征出文献的含义,摘要生成的准确度低。
技术实现思路
本专利技术实施例提供一种摘要生成方法、装置及存储介质,能够提升摘要生成的准确度。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种摘要生成方法,包括:获取已分组对象对应的已分组文本信息,从而得到与至少一个已分组对象对应的至少一个已分组文本信息;对所述已分组文本信息进行分词发现处理,得到初始关键词;对至少一个已分组文本信息进行主题提取,获取每个主题所对应的主题文本信息的主题关键词信息,从而得到至少一个主题关键词信息;依据所述至少一个主题关键词信息,从所述初始关键词中选择摘要关键词;获取所述摘要关键词在所述已分组文本信息中的分词语序,依据所述分词语序对所述摘要关键词进行排序组合,得到目标摘要,从而得到与所述至少一个已分组文本信息对应的至少一个目标摘要。本专利技术实施例提供一种摘要生成装置,包括:信息获取模块,用于获取已分组对象对应的已分组文本信息,从而得到与至少一个已分组对象对应的至少一个已分组文本信息;分词发现模块,用于对所述已分组文本信息进行分词发现处理,得到初始关键词;主题处理模块,用于对至少一个已分组文本信息进行主题提取,获取每个主题所对应的主题文本信息的主题关键词信息,从而得到至少一个主题关键词信息;选择模块,用于依据所述至少一个主题关键词信息,从所述初始关键词中选择摘要关键词;摘要生成模块,用于获取所述摘要关键词在所述已分组文本信息中的分词语序,依据所述分词语序对所述摘要关键词进行排序组合,得到目标摘要,从而得到与所述至少一个已分组文本信息对应的至少一个目标摘要。本专利技术实施例提供一种摘要生成设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本专利技术实施例提供的方法。本专利技术实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本专利技术实施例提供的方法。本专利技术实施例具有以下有益效果:当获得了已分组文本信息的初始关键词之后,通过主题关键词信息从初始关键词中进一步选择摘要关键词来组合得到目标摘要,由于主题关键词信息在一定程度上表征了已分组文本信息的主要内容,因此,目标摘要能够准确地表达出已分组文本信息的含义,所以,生成的摘要的准确度高。附图说明图1是本专利技术实施例提供的摘要生成系统100的一个可选的架构示意图;图2是本专利技术实施例提供的服务器200的结构示意图;图3是本专利技术实施例提供的摘要生成方法的一个可选的流程示意图;图4是本专利技术实施例提供的获取初始关键词的一个可选的流程示意图;图5是本专利技术实施例提供的获取主题关键词信息的一个可选的流程示意图;图6是本专利技术实施例提供的获取初始关键词权重的一个可选的流程示意图;图7是本专利技术实施例提供的获取摘要关键词的一个可选的流程示意图;图8是本专利技术实施例提供的摘要生成方法的另一个可选的流程示意图;图9是本专利技术实施例提供的摘要生成方法的一种示例性的流程示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,所描述的实施例不应视为对本专利技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在以下的描述中,涉及到“一些实施例”和“本专利技术实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”和“本专利技术实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本专利技术实施例能够以除了在这里图示或描述的以外的顺序实施。除非另有定义,本专利技术实施例所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本专利技术实施例中所使用的术语只是为了描述本专利技术实施例的目的,不是旨在限制本专利技术。对本专利技术实施例进行进一步详细说明之前,对本专利技术实施例中涉及的名词和术语进行说明,本专利技术实施例中涉及的名词和术语适用于如下的解释。1)TextRank:是自然语言处理领域一种比较常见的关键词提取算法,可用于提取关键词、短语和自动生成文本摘要。TextRank处理文本数据的过程主要包括以下几个步骤:首先,将原文本拆分为句子,在每个句子中过滤掉停用词,并只保留指定词性的单词,由此可以得到句子和单词的集合。然后,每个单词作为一个节点;设窗口大小为k,假设一个句子所组成的单词可以表示为:w1,w2、w3、……、wn,则w1、w2、……、wk,w2、w3、……、wk+1和w3、w4、……、wk+2等都是一个窗口,在一个窗口内任意两个单词之间存在一条无向无权的边。最后,基于上面的节点和边构成图,依据构成的图计算出每个节点的重要性。2)关键词抽取:是从一段给定的文本中自动抽取出若干有意义的词语或词组;指通过将原文本拆分为句子,在每个句子中过滤掉停用词,并只保留指定词性(比如,名词、动词、形容词)的单词,得到句子的集合和单词的集合的过程。3)word2vec:是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。而doc2vec是将句子表征为实数值向量的算法模型。一般来说,摘要包括抽取式摘要和生成式摘要。其中,抽取式摘要指从文献中抽取已有句子形成的摘要,比如,通过无监督的TextRank和聚类等生成的摘要,又比如,通过有监督的序列标注等生成的摘要。然而,有的文献并不是一篇完整文章,比如,会议纪要和举报信息等,都是多人口语化的表述;同时有的句子较短;综上,通过抽取句子生成摘要的方式的通用性差,抽取式摘要的准确度差。而生成式摘要指根据文献内容提取出关键词生成摘要的方式,或者根据文献内容生成新的词语或短语而组合成的摘要,比如,序列到序列和生成对抗等。然而,生成式摘要的获取过程中,需要基于有标签的数据训练模型,而有标签的数据通常比较难获得;同时,由于生成本文档来自技高网
...

【技术保护点】
1.一种摘要生成方法,其特征在于,包括:/n获取已分组对象对应的已分组文本信息,从而得到与至少一个已分组对象对应的至少一个已分组文本信息;/n对所述已分组文本信息进行分词发现处理,得到初始关键词;/n对至少一个已分组文本信息进行主题提取,获取每个主题所对应的主题文本信息的主题关键词信息,从而得到至少一个主题关键词信息;/n依据所述至少一个主题关键词信息,从所述初始关键词中选择摘要关键词;/n获取所述摘要关键词在所述已分组文本信息中的分词语序,依据所述分词语序对所述摘要关键词进行排序组合,得到目标摘要,从而得到与所述至少一个已分组文本信息对应的至少一个目标摘要。/n

【技术特征摘要】
1.一种摘要生成方法,其特征在于,包括:
获取已分组对象对应的已分组文本信息,从而得到与至少一个已分组对象对应的至少一个已分组文本信息;
对所述已分组文本信息进行分词发现处理,得到初始关键词;
对至少一个已分组文本信息进行主题提取,获取每个主题所对应的主题文本信息的主题关键词信息,从而得到至少一个主题关键词信息;
依据所述至少一个主题关键词信息,从所述初始关键词中选择摘要关键词;
获取所述摘要关键词在所述已分组文本信息中的分词语序,依据所述分词语序对所述摘要关键词进行排序组合,得到目标摘要,从而得到与所述至少一个已分组文本信息对应的至少一个目标摘要。


2.根据权利要求1所述的方法,其特征在于,所述对所述已分组文本信息进行分词发现处理,得到初始关键词,包括:
对所述已分组文本信息进行分词处理,得到分词结果;
对所述分词结果进行词发现处理,得到候选词;
计算所述候选词的凝固度和自由度;
将所述凝固度和所述自由度的加权和,作为所述候选词的候选词权重;
根据所述候选词权重,从所述候选词中选择所述初始关键词。


3.根据权利要求1所述的方法,其特征在于,所述对至少一个已分组文本信息进行主题提取,包括:
对所述至少一个已分组文本信息进行向量转换,得到至少一个已分组文本向量;所述至少一个已分组文本向量与所述至少一个已分组文本信息一一对应;
对所述至少一个已分组文本向量进行聚类,得到至少一个主题,完成对所述至少一个已分组文本信息的主题提取;每个主题为所述至少一个主题中的任一主题。


4.根据权利要求1所述的方法,其特征在于,所述获取每个主题所对应的主题文本信息的主题关键词信息,包括:
对每个主题文本信息进行关键词提取,得到初始主题关键词和初始主题关键词权重;
依据词向量模型,确定所述初始主题关键词的同义词,得到同义主题关键词;所述词向量模型为预先训练得到的用于获取词的向量的模型;
将所述初始主题关键词与所述同义主题关键词合并,得到候选主题关键词;
将所述初始主题关键词权重和所述候选主题关键词,作为所述主题关键词信息。


5.根据权利要求1所述的方法,其特征在于,所述依据所述至少一个主题关键词信息,从所述初始关键词中选择摘要关键词,包括:
依据所述初始关键词与所述至少一个主题关键词信息,计算所述初始关键词的权重,得到初始关键词权重;
依据所述初始关键词权重,从所述初始关键词中选择第一子...

【专利技术属性】
技术研发人员:郭豪梁玉洪春华
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1