文本摘要生成方法及设备技术

技术编号:21833283 阅读:18 留言:0更新日期:2019-08-10 18:14
本发明专利技术提供一种文本摘要生成方法及设备,该方法包括:获取待处理的文本,对文本进行分词处理,得到包含多个词语的词语集合,并对词语集合进行共指消解,得到文本包含的各实体对应的共指链,根据各实体对应的共指链确定文本的核心句子,根据核心句子生成对应的图模型,其中核心句子为图模型中的节点,获取图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成文本的摘要。本发明专利技术的方法通过确定文本包含的各实体对应的共指链筛选出文本的核心句子,并确定核心句子对应的图模型,对图模型中的中心节点所对应的核心句子进行排列,得到可以反映文本关键信息的摘要,提高生成的摘要的准确度。

Method and Equipment of Text Summary Generation

【技术实现步骤摘要】
文本摘要生成方法及设备
本专利技术实施例涉及计算机
,尤其涉及一种文本摘要生成方法及设备。
技术介绍
摘要是能够反映文章中心内容的一段文本,能够帮助人们在阅读长篇的文章时缩短阅读时间。文章摘要生成技术是知识管理系统核心功能之一,近年来得到了迅速的发展。目前,现有技术在生成文章摘要时,一般是根据句子在文章中所处的位置来确定文章的摘要,即先设定出重要句子会放置的位置,然后从待处理的文章中提取该位置上的句子,将提取到的句子作为该文章的重要句子,对重要句子进行组合得到该文章的摘要。然而,专利技术人发现现有技术中至少存在如下问题:由于作者的写作方式是不一样的,对于重要句子放置的位置也是不一样的,因此,在设定的位置上放置的句子并不一定是文章的重要句子,从而使基于该位置上的句子生成的摘要并不能够准确地反映文章的中心内容,导致生成的文章摘要准确度较低。
技术实现思路
本专利技术实施例提供一种文本摘要生成方法及设备,以解决现有技术中生成的文章摘要准确度较低的问题。第一方面,本专利技术实施例提供一种文本摘要生成方法,包括:获取待处理的文本;对所述文本进行分词处理,得到包含多个词语的词语集合,并对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链;根据所述各实体对应的共指链确定所述文本的核心句子;根据所述核心句子生成对应的图模型,其中所述核心句子为所述图模型中的节点;获取所述图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成所述文本的摘要。在一种可能的设计中,在所述对所述词语集合进行共指消解之前,还包括:对所述词语集合包含的词语进行术语整合。在一种可能的设计中,所述对所述词语集合包含的词语进行术语整合,包括:分别统计所述词语集合包含的各个词语在所述文本中出现的次数;根据各个词语在所述文本中出现的次数,从所述词语集合中选取高频词语;计算高频词语之间的词语相关度;若高频词语之间的词语相关度大于预设词语相关度,则确定对应的高频词语之间存在连接关系;对存在连接关系的高频词语进行连接,得到词汇网络图;分别统计所述词汇网络图中的每相邻两个高频词语在所述文本中共同出现的次数;若相邻两个高频词语在所述文本中共同出现的次数大于预设整合次数,则将对应的相邻两个高频词语进行整合。在一种可能的设计中,所述对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链,包括:对所述词语集合进行共指消解,确定所述词语集合中的实体,其中所述实体包含所述词语集合中指代同一对象的多个词语;分别根据各实体包含的词语以及各实体包含的词语在所述文本中出现的顺序,得到各实体对应的共指链。在一种可能的设计中,所述根据所述各实体对应的共指链确定所述文本的核心句子,包括:分别获取各实体对应的共指链所包含的词语的数目;根据所述各实体对应的共指链所包含的词语的数目,选取目标实体;从所述文本中选取包含所述目标实体的句子,得到多个所述核心句子。在一种可能的设计中,所述根据所述核心句子生成对应的图模型,包括:计算各核心句子的句子向量,并根据各核心句子的句子向量,计算核心句子之间的相似度;若核心句子之间的相似度大于预设句子相似度,则确定对应的核心句子之间存在连接关系;对存在连接关系的核心句子进行连接,得到所述图模型。在一种可能的设计中,所述计算各核心句子的句子向量,包括:获取核心句子包含的多个词语,并根据预设词袋算法计算所述核心句子包含的各词语对应的词向量;根据无监督算法确定各词向量的权重值;根据所述各词向量的权重值,对对应的词向量进行加权求和,得到对应的核心句子的句子向量。在一种可能的设计中,所述获取所述图模型中的所有中心节点,包括:根据随机游走算法,查找所述图模型中的中心节点。第二方面,本专利技术实施例提供一种文本摘要生成设备,包括:文本获取模块,用于获取待处理的文本;共指链生成模块,用于对所述文本进行分词处理,得到包含多个词语的词语集合,并对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链;核心句子确定模块,用于根据所述各实体对应的共指链确定所述文本的核心句子;图模型生成模块,用于根据所述核心句子生成对应的图模型,其中所述核心句子为所述图模型中的节点;摘要生成模块,用于获取所述图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成所述文本的摘要。在一种可能的设计中,所述文本摘要生成设备还包括术语整合模块;所述术语整合模块,用于在所述对所述词语集合进行共指消解之前,对所述词语集合包含的词语进行术语整合。在一种可能的设计中,所述术语整合模块具体用于:分别统计所述词语集合包含的各个词语在所述文本中出现的次数;根据各个词语在所述文本中出现的次数,从所述词语集合中选取高频词语;计算高频词语之间的词语相关度;若高频词语之间的词语相关度大于预设词语相关度,则确定对应的高频词语之间存在连接关系;对存在连接关系的高频词语进行连接,得到词汇网络图;分别统计所述词汇网络图中的每相邻两个高频词语在所述文本中共同出现的次数;若相邻两个高频词语在所述文本中共同出现的次数大于预设整合次数,则将对应的相邻两个高频词语进行整合。在一种可能的设计中,所述共指链生成模块具体用于:对所述词语集合进行共指消解,确定所述词语集合中的实体,其中所述实体包含所述词语集合中指代同一对象的多个词语;分别根据各实体包含的词语以及各实体包含的词语在所述文本中出现的顺序,得到各实体对应的共指链。在一种可能的设计中,所述核心句子确定模块具体用于:分别获取各实体对应的共指链所包含的词语的数目;根据所述各实体对应的共指链所包含的词语的数目,选取目标实体;从所述文本中选取包含所述目标实体的句子,得到多个所述核心句子。在一种可能的设计中,所述图模型生成模块具体用于:计算各核心句子的句子向量,并根据各核心句子的句子向量,计算核心句子之间的相似度;若核心句子之间的相似度大于预设句子相似度,则确定对应的核心句子之间存在连接关系;对存在连接关系的核心句子进行连接,得到所述图模型。在一种可能的设计中,所述图模型生成模块还用于:获取核心句子包含的多个词语,并根据预设词袋算法计算所述核心句子包含的各词语对应的词向量;根据无监督算法确定各词向量的权重值;根据所述各词向量的权重值,对对应的词向量进行加权求和,得到对应的核心句子的句子向量。在一种可能的设计中,所述摘要生成模块具体用于:根据随机游走算法,查找所述图模型中的中心节点。第三方面,本专利技术实施例提供一种文本摘要生成设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的文本摘要生成方法。第四方面,本专利技术实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的文本摘要生成方法。本实施例提供的文本摘要生成方法及设备,该方法通过对待处理的文本对应的词语集合进行共指消解,得到该文本包含的各实体对应的共指链,该共指链有助于提取文本的关键信息,即有助于获取文本的摘要信息,当得到各实体对应的共指链后,根据各实体对应的共指链确本文档来自技高网...

【技术保护点】
1.一种文本摘要生成方法,其特征在于,包括:获取待处理的文本;对所述文本进行分词处理,得到包含多个词语的词语集合,并对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链;根据所述各实体对应的共指链确定所述文本的核心句子;根据所述核心句子生成对应的图模型,其中所述核心句子为所述图模型中的节点;获取所述图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成所述文本的摘要。

【技术特征摘要】
1.一种文本摘要生成方法,其特征在于,包括:获取待处理的文本;对所述文本进行分词处理,得到包含多个词语的词语集合,并对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链;根据所述各实体对应的共指链确定所述文本的核心句子;根据所述核心句子生成对应的图模型,其中所述核心句子为所述图模型中的节点;获取所述图模型中的所有中心节点,并对各中心节点对应的核心句子进行排列生成所述文本的摘要。2.根据权利要求1所述的方法,其特征在于,在所述对所述词语集合进行共指消解之前,还包括:对所述词语集合包含的词语进行术语整合。3.根据权利要求2所述的方法,其特征在于,所述对所述词语集合包含的词语进行术语整合,包括:分别统计所述词语集合包含的各个词语在所述文本中出现的次数;根据各个词语在所述文本中出现的次数,从所述词语集合中选取高频词语;计算高频词语之间的词语相关度;若高频词语之间的词语相关度大于预设词语相关度,则确定对应的高频词语之间存在连接关系;对存在连接关系的高频词语进行连接,得到词汇网络图;分别统计所述词汇网络图中的每相邻两个高频词语在所述文本中共同出现的次数;若相邻两个高频词语在所述文本中共同出现的次数大于预设整合次数,则将对应的相邻两个高频词语进行整合。4.根据权利要求1所述的方法,其特征在于,所述对所述词语集合进行共指消解,得到所述文本包含的各实体对应的共指链,包括:对所述词语集合进行共指消解,确定所述词语集合中的实体,其中所述实体包含所述词语集合中指代同一对象的多个词语;分别根据各实体包含的词语以及各实体包含的词语在所述文本中出现的顺序,得到各实体对应的共指链。5....

【专利技术属性】
技术研发人员:樊学宝
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1