文本摘要的智能抽取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:23085107 阅读:12 留言:0更新日期:2020-01-11 01:10
本发明专利技术提供一种文本摘要的智能抽取方法、装置、计算机设备及存储介质,所述方法包括:从多篇文本中获取多个特征语句,对每个所述特征语句划分特征词,得到多个特征词;通过聚类分析将所述多个特征词划归到不同的类簇中;将每个所述特征词所隶属的特征语句划归到相应的类簇中;从每个所述类簇中抽取固定个数的特征语句,以形成所述多篇文本的整体摘要。其中聚类分析过程包括:对所述多个特征词分别进行词向量表征,得到多个特征向量;根据重要程度对每个所述特征向量加权,得到多个加权向量;计算每两个加权向量之间的相似度;根据相似度进行聚类运算,得到聚类中心数量,根据所述聚类中心数量将所述多个特征词划分为多个类簇。

Intelligent extraction method, device, computer equipment and storage medium of text Abstract

【技术实现步骤摘要】
文本摘要的智能抽取方法、装置、计算机设备及存储介质
本专利技术涉及数据挖掘
,特别涉及一种文本摘要的智能抽取方法、装置、计算机设备及存储介质。
技术介绍
自动文本摘要是自然语言处理中一个比较难的任务,本质上,文本摘要是一种信息过滤,输出的文本比输入的文本少很多,但却包含了主要的信息。按照文本数量,文本摘要可以分为单文本摘要与多文本摘要,前者是后者的基础,但后者不只是前者结果的简单叠加。前者经常应用于新闻信息的过滤,而后者,在搜索引擎中有很大的潜力,难度也随之加大。传统的多文本摘要算法所抽取的摘要冗余度高,不能很好地反映全部文本的总体结构内容,容易造成文本主题中心的丢失、文本的主题覆盖度低、连贯性差、耗费时间较长等缺陷。
技术实现思路
本专利技术的目的是提供一种文本摘要的智能抽取方法、装置、计算机设备及存储介质,以解决现有技术中存在的上述问题。为实现上述目的,本专利技术提供一种文本摘要的智能抽取方法,包括:从多篇文本中获取多个特征语句,对每个所述特征语句划分特征词,得到多个特征词;通过聚类分析将所述多个特征词划归到不同的类簇中;将每个所述特征词所隶属的特征语句划归到相应的类簇中;从每个所述类簇中抽取固定个数的特征语句,以形成所述多篇文本的整体摘要。根据本专利技术提供的智能抽取算法,其中,所述通过聚类分析将所述多个特征词划归到不同的类簇中的步骤包括:对所述多个特征词分别进行词向量表征,得到多个特征向量;根据重要程度对每个所述特征向量加权,得到多个加权向量;计算每两个加权向量之间的相似度;根据相似度进行聚类运算,得到聚类中心数量,根据所述聚类中心数量将所述多个特征词划分为多个类簇。根据本专利技术提供的智能抽取算法,其中,所述根据重要程度对每个所述特征向量加权,得到多个加权向量的步骤包括:基于Tf-idf算法计算所述特征向量的第一权重;基于所述特征词在特征语句中的出现位置计算所述特征向量的第二权重;将所述特征向量依次与所述第一权重和所述第二权重相乘,得到所述加权向量。根据本专利技术提供的智能抽取算法,其中,所述将每个所述特征词所隶属的特征语句划归到相应的类簇中的步骤包括:标记目标特征词所隶属的目标特征语句;将所述目标特征语句划分为所述目标特征词所对应的类簇。根据本专利技术提供的智能抽取算法,其中,所述从每个类簇中抽取固定个数的特征语句,以形成所述多篇文本的整体摘要的步骤包括:按照重要程度由高到低的顺序对每个类簇中的所有特征语句进行排序;从每个类簇中抽取固定个数的排序靠前的特征语句汇集成文本摘要。为实现上述目的,本专利技术还提供一种文本摘要的智能抽取装置,包括:特征词获取模块,适用于从多篇文本中获取多个特征语句,对每个所述特征语句划分特征词,得到多个特征词;聚类分析模块,适用于通过聚类分析将所述多个特征词划归到不同的类簇中;类簇划分模块,适用于将每个所述特征词所隶属的特征语句划归到相应的类簇中;汇集模块,适用于从每个所述类簇中抽取固定个数的特征语句,以形成所述多篇文本的整体摘要。根据本专利技术提供的智能抽取装置,其中,所述聚类分析模块包括:向量表征子模块,适用于对所述多个特征词分别进行词向量表征,得到多个特征向量;加权子模块,适用于根据重要程度对每个所述特征向量加权,得到多个加权向量;相似度子模块,适用于计算每两个加权向量之间的相似度;类簇划分子模块,适用于根据相似度进行聚类运算,得到聚类中心数量,根据所述聚类中心数量将所述多个特征词划分为多个类簇。根据本专利技术提供的智能抽取装置,其中,所述加权子模块包括:第一权重单元,适用于基于Tf-idf算法计算所述特征向量的第一权重;第二权重单元,适用于基于所述特征词在特征语句中的出现位置计算所述特征向量的第二权重;加权向量生成单元,适用于将所述特征向量依次与所述第一权重和所述第二权重相乘,得到所述加权向量。为实现上述目的,本专利技术还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。为实现上述目的,本专利技术还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。本专利技术提供的文本摘要的智能抽取方法、装置、计算机设备及存储介质,适用于对多篇文本进行综合摘要抽取。本专利技术对多篇文本统一进行分句、分词,对获取到的特征词进行词向量表征,并且根据每个特征词的重要程度,为相应的特征向量设置权重,从而生成与每个特征词相对应的加权向量。之后对所有的加权向量计算相似度以及进行聚类运算,以获得聚类中心数量。根据聚类中心数量将特征语句划分为不同的类簇,之后按照预设的摘要语句数目,分别从每个类簇中抽取相应数量的特征语句,汇集整合成多篇文本的摘要。本专利技术可以有效提高从多篇文本中抽取文本摘要的质量,保证摘要的内容更加全面,避免与中心句无关内容的抽取。附图说明图1为本专利技术的智能抽取方法实施例一的流程图;图2为本专利技术的智能抽取装置实施例一的程序模块示意图;图3为本专利技术的智能抽取装置实施例一的硬件结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供的文本摘要的智能抽取方法、装置、计算机设备及存储介质,适用于对多篇文本进行整体摘要抽取。本专利技术对多篇文本统一进行分句、分词,对获取到的特征词进行词向量表征,并且根据每个特征词的重要程度,为相应的特征向量设置权重,从而生成与每个特征词相对应的加权向量。之后对所有的加权向量计算相似度以及进行聚类运算,以获得聚类中心数量。根据聚类中心数量将特征语句划分为不同的类簇,之后按照预设的摘要语句数目,分别从每个类簇中抽取相应数量的特征语句,汇集整合成多篇文本的整体摘要。本专利技术可以有效提高从多篇文本中抽取文本摘要的质量,保证摘要的内容更加全面,避免与中心句无关内容的抽取。实施例一请参阅图1,本实施例提出一种文本摘要的智能抽取方法,具体包括以下步骤:S1:从多篇文本中获取多个特征语句,对每个所述特征语句划分特征词,得到多个特征词。本专利技术特别适用于多篇文本的摘要智能抽取。例如存在三篇文本,分别称为第一文本、第二文本和第三文本,本专利技术首先分别对这三篇文本划分特征语句,并进一步在特征语句的基础上划分特征词。例如,第一文本、第二文本和第三文本中分别包含数量为a、b和c的特征语句,对这些特征语句进行标记,例如分别标记为特征语句11,12,…1a,21,22,…,2本文档来自技高网...

【技术保护点】
1.一种文本摘要的智能抽取方法,其特征在于,包括:/n从多篇文本中获取多个特征语句,对每个所述特征语句划分特征词,得到多个特征词;/n通过聚类分析将所述多个特征词划归到不同的类簇中;/n将每个所述特征词所隶属的特征语句划归到相应的类簇中;/n从每个所述类簇中抽取固定个数的特征语句,以形成所述多篇文本的整体摘要。/n

【技术特征摘要】
1.一种文本摘要的智能抽取方法,其特征在于,包括:
从多篇文本中获取多个特征语句,对每个所述特征语句划分特征词,得到多个特征词;
通过聚类分析将所述多个特征词划归到不同的类簇中;
将每个所述特征词所隶属的特征语句划归到相应的类簇中;
从每个所述类簇中抽取固定个数的特征语句,以形成所述多篇文本的整体摘要。


2.根据权利要求1所述的智能抽取算法,其特征在于,所述通过聚类分析将所述多个特征词划归到不同的类簇中的步骤包括:
对所述多个特征词分别进行词向量表征,得到多个特征向量;
根据重要程度对每个所述特征向量加权,得到多个加权向量;
计算每两个加权向量之间的相似度;
根据相似度进行聚类运算,得到聚类中心数量,根据所述聚类中心数量将所述多个特征词划分为多个类簇。


3.根据权利要求2所述的智能抽取算法,其特征在于,所述根据重要程度对每个所述特征向量加权,得到多个加权向量的步骤包括:
基于Tf-idf算法计算所述特征向量的第一权重;
基于所述特征词在特征语句中的出现位置计算所述特征向量的第二权重;
将所述特征向量依次与所述第一权重和所述第二权重相乘,得到所述加权向量。


4.根据权利要求2或3所述的智能抽取算法,其特征在于,所述将每个所述特征词所隶属的特征语句划归到相应的类簇中的步骤包括:
标记目标特征词所隶属的目标特征语句;
将所述目标特征语句划分为所述目标特征词所对应的类簇。


5.根据权利要求4所述的智能抽取算法,其特征在于,所述从每个类簇中抽取固定个数的特征语句,以形成所述多篇文本的整体摘要的步骤包括:
按照重要程度由高到低的顺序对每个类簇中的所有特征语句进行排序;
从每个类簇中抽取固定个数的排序靠前的特征语句...

【专利技术属性】
技术研发人员:杨春春
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1