舆情摘要提取方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:20797262 阅读:55 留言:0更新日期:2019-04-06 10:52
本发明专利技术公开了一种舆情摘要提取方法,包括以下步骤:对舆情文档进行词过滤以提取核心词,其中,将所述舆情文档的词以预训练的词向量进行存储;基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息;基于所述关键词的摘要信息,构建舆情文档的舆情摘要,其中,所述关键词用于从多角度刻画舆情摘要。本发明专利技术还公开了一种舆情摘要提取装置、设备及计算机可读存储介质。本发明专利技术实现了多角度提取舆情信息,进而实现用户所期望的舆情摘要。

Method, Device, Equipment and Computer Readable Storage Medium for Extracting Public Opinion Abstracts

The invention discloses a method for extracting public opinion abstracts, which comprises the following steps: filtering public opinion documents to extract core words, storing the words of the public opinion documents with pre-trained word vectors; extracting the summary information of the preset keywords from the public opinion documents based on the corresponding word vectors of the core words; and constructing the summary information of the preset keywords based on the summary information of the keywords. A summary of public opinion in a public opinion document, in which the key words are used to depict the summary of public opinion from multiple perspectives. The invention also discloses a device for extracting public opinion abstracts, a device and a computer readable storage medium. The invention realizes multi-angle extraction of public opinion information, and then realizes the expected public opinion summary of users.

【技术实现步骤摘要】
舆情摘要提取方法、装置、设备及计算机可读存储介质
本专利技术涉及摘要提取
,尤其涉及一种舆情摘要提取方法、装置、设备及计算机可读存储介质。
技术介绍
舆情摘要是指通过海量文本中基于某个实体来分析与该实体有关的文本情报信息,并从中提取出关于文本的核心事件、核心描述的技术。针对一个指定的实体(比如企业),将各类情报信息按照信息量最大的原则,对其包含实体的文章进行内容提炼以便能对粗糙文本进行快速一览,从而使得分析人员能快速掌握实体在情报信息层面的主要状态。现有舆情摘要提取方式往往只是简单的对文本以一定度量进行排序,然后按照排序选出摘要内容,此类方式虽然过程较为简单,效果也较为直接,但是大多情况下都是对文本的二次复述而已(也即舆情摘要来自于文本本身),最后输出的舆情摘要也大多集中以副本信息存在,对于一些需要提取的情报定量信息,如关键指标、指向的对象等却较难刻画,进而无法达到情报分析人员所期望的摘要提取要求。
技术实现思路
本专利技术的主要目的在于提出一种舆情摘要提取方法、装置、设备及计算机可读存储介质,旨在解决现有技术无法多角度提取舆情信息的技术问题。为实现上述目的,本专利技术提供一种舆情摘要提取方法,所述舆情摘要提取方法包括以下步骤:对舆情文档进行词过滤以提取核心词,其中,将所述舆情文档的词以预训练的词向量进行存储;基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息;基于所述关键词的摘要信息,构建舆情文档的舆情摘要,其中,所述关键词用于从多角度刻画舆情摘要。可选地,所述对舆情文档进行词过滤以提取核心词包括:对所述舆情文档中所有的词进行聚类,得到第一词团集;对所述第一词团集中词团进行过滤;将保留下的词团保存为第二词团集,并将所述第二词团集中所有词团的词作为核心词。可选地,在所述对舆情文档进行词过滤以提取核心词的步骤之前,还包括:采用主题模型算法对多个舆情文档进行主题聚类,得到每份舆情文档的多个主题关键词;所述对所述第一词团集中词团进行过滤包括:以所有舆情文档的所有主题关键词为过滤条件,判断所述第一词团集中词团是否包含所有舆情文档的所有主题关键词;若是,则保留该词团,否则过滤该词团。可选地,所述基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息包括:对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量;生成每一关键词对应的词向量,并计算每一合并词向量分别与每一关键词对应的词向量之间的相似度;基于所述相似度,对每一核心词对应的词团进行排序;取前预设个数词团中的词作为所述关键词的摘要信息。可选地,在所述对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量的步骤之前,还包括:分别计算每一个核心词在所有舆情文档中的TF-IDF值;将每一个核心词的TF-IDF值分别与每一个核心词对应的多种类型词向量进行乘法加权;所述对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量包括:对乘法加权后的每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量。可选地,所述计算每一合并词向量分别与每一关键词对应的词向量之间的相似度包括:计算每一合并词向量分别与每一关键词对应的词向量之间的余弦相似度;所述基于所述相似度,对每一核心词对应的词团进行排序包括:基于所述余弦相似度,对每一核心词对应的词团进行排序。可选地,在所述基于所述相似度,对每一核心词对应的词团进行排序的步骤之后,还包括:若摘要信息需要以句子形式进行表示,则取前预设个数词团中的词所在舆情文档中的段落作为所述关键词的摘要信息。可选地,在所述生成每份舆情文档中每一个词对应的多种类型词向量的步骤之前,还包括:自定义舆情摘要的多个关键词组合,其中,一个关键词组合对应舆情摘要的一个刻画角度,且各刻画角度之间相互独立;一个关键词组合包含多个关键词,同一关键词组合中各关键词之间相互互斥。进一步地,为实现上述目的,本专利技术还提供一种舆情摘要提取装置,所述舆情摘要提取装置包括:第一提取模块,用于对舆情文档进行词过滤以提取核心词,其中,将所述舆情文档的词以预训练的词向量进行存储;第二提取模块,用于基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息;构建模块,用于基于所述关键词的摘要信息,构建舆情文档的舆情摘要,其中,所述关键词用于从多角度刻画舆情摘要。可选地,所述第一提取模块具体用于:对所述舆情文档中所有的词进行聚类,得到第一词团集;对所述第一词团集中词团进行过滤;将保留下的词团保存为第二词团集,并将所述第二词团集中所有词团的词作为核心词。可选地,所述舆情摘要提取装置还包括:聚类模块,用于采用主题模型算法对多个舆情文档进行主题聚类,得到每份舆情文档的多个主题关键词;所述第一提取模块还用于:以所有舆情文档的所有主题关键词为过滤条件,判断所述第一词团集中词团是否包含所有舆情文档的所有主题关键词;若是,则保留该词团,否则过滤该词团。可选地,所述第二提取模块具体用于:对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量;生成每一关键词对应的词向量,并计算每一合并词向量分别与每一关键词对应的词向量之间的相似度;基于所述相似度,对每一核心词对应的词团进行排序;取前预设个数词团中的词作为所述关键词的摘要信息。可选地,所述第二提取模块还用于:分别计算每一个核心词在所有舆情文档中的TF-IDF值;将每一个核心词的TF-IDF值分别与每一个核心词对应的多种类型词向量进行乘法加权;对乘法加权后的每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量。可选地,所述第二提取模块还用于:计算每一合并词向量分别与每一关键词对应的词向量之间的余弦相似度;基于所述余弦相似度,对每一核心词对应的词团进行排序。进一步地,为实现上述目的,本专利技术还提供一种舆情摘要提取设备,所述舆情摘要提取设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的舆情摘要提取程序,所述舆情摘要提取程序被所述处理器执行时实现如上述任一项所述的舆情摘要提取方法的步骤。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有舆情摘要提取程序,所述舆情摘要提取程序被处理器执行时实现如上述任一项所述的舆情摘要提取方法的步骤。本专利技术中,为满足用户所期望的舆情摘要提取要求,预设有多个关键词,以供从多个不同角度来刻画舆情摘要;此外,由于需要多角度提取舆情摘要,因此,将每份舆情文档中每一个词扩展为多种类型的词向量,从而通过词向量以获得更多的词信息;同时进一步对所有词向量进行过滤,以剔除非核心的词向量,然后再基于核心词向量,提取预设关键词的摘要信息,最后再基于关键词的摘要信息,构建舆情文档的舆情摘要。由于提取的摘要信息与关键词对应,而关键词与舆情摘要对应,因此,构建的舆情文档的舆情摘要能够从多角度刻画舆情信息,进而实现用户所期望的舆情摘要。附图说明图1为本专利技术舆情摘要提取设备实施例方案涉及的设备硬件运行环境的结构示意图;图2为本专利技术舆情摘要提取方法一实施例的流程示意图;图3为图2中步骤S20一实施例的细化流程示意图;图4本文档来自技高网...

【技术保护点】
1.一种舆情摘要提取方法,其特征在于,所述舆情摘要提取方法包括以下步骤:对舆情文档进行词过滤以提取核心词,其中,将所述舆情文档的词以预训练的词向量进行存储;基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息;基于所述关键词的摘要信息,构建舆情文档的舆情摘要,其中,所述关键词用于从多角度刻画舆情摘要。

【技术特征摘要】
1.一种舆情摘要提取方法,其特征在于,所述舆情摘要提取方法包括以下步骤:对舆情文档进行词过滤以提取核心词,其中,将所述舆情文档的词以预训练的词向量进行存储;基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息;基于所述关键词的摘要信息,构建舆情文档的舆情摘要,其中,所述关键词用于从多角度刻画舆情摘要。2.如权利要求1所述的舆情摘要提取方法,其特征在于,所述对舆情文档进行词过滤以提取核心词包括:对所述舆情文档中所有的词进行聚类,得到第一词团集;对所述第一词团集中词团进行过滤;将保留下的词团保存为第二词团集,并将所述第二词团集中所有词团的词作为核心词。3.如权利要求2所述的舆情摘要提取方法,其特征在于,在所述对舆情文档进行词过滤以提取核心词的步骤之前,还包括:采用主题模型算法对多个舆情文档进行主题聚类,得到每份舆情文档的多个主题关键词;所述对所述第一词团集中词团进行过滤包括:以所有舆情文档的所有主题关键词为过滤条件,判断所述第一词团集中词团是否包含所有舆情文档的所有主题关键词;若是,则保留该词团,否则过滤该词团。4.如权利要求2或3所述的舆情摘要提取方法,其特征在于,所述基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息包括:对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量;生成每一关键词对应的词向量,并计算每一合并词向量分别与每一关键词对应的词向量之间的相似度;基于所述相似度,对每一核心词对应的词团进行排序;取前预设个数词团中的词作为所述关键词的摘要信息。5.如权利要求4所述的舆情摘要提取方法,其特征在于,在所述对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量的步骤之前,还包括:分别计算每一个核心词在所有舆情文档中的TF-IDF值;将每一个核心词的TF-IDF值分别与每一个核心词对应的多种类型词向量进行乘法加权;所述对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量包括:对乘法加权后的每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量。6.如权利要求4所述的舆情摘要提取方法,其特征在于,所述计算每一合并词向量分别与每一关键词对应的词向量之间的相似度包括:计算每一合并词向量分别与每一关键词对应的词向量之间的余弦相似度;所述基于所述相似度,对每一核心词对应的词团进行排序包括:基于所述余弦相似度,对每一核心词对应的词团进行排序。7.如权利要求4所述的舆情摘要提取方法,其特征在于,在所述基于所述相似度,对每一核心词对应的词团进行排序的步骤之后,还包括:若摘要信息需要以句子形式进行表示,则取前预设个数词团中的词所在舆情文档中的段落作为所述关键词的摘要信息。8.如权利要求1所述的舆情摘要提取方法,其特征在于,在所述生成每份舆情文档中每一个词对应的...

【专利技术属性】
技术研发人员:陈琢江旻郑少杰付勇易剑韬范增虎
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1