The invention discloses a method for extracting public opinion abstracts, which comprises the following steps: filtering public opinion documents to extract core words, storing the words of the public opinion documents with pre-trained word vectors; extracting the summary information of the preset keywords from the public opinion documents based on the corresponding word vectors of the core words; and constructing the summary information of the preset keywords based on the summary information of the keywords. A summary of public opinion in a public opinion document, in which the key words are used to depict the summary of public opinion from multiple perspectives. The invention also discloses a device for extracting public opinion abstracts, a device and a computer readable storage medium. The invention realizes multi-angle extraction of public opinion information, and then realizes the expected public opinion summary of users.
【技术实现步骤摘要】
舆情摘要提取方法、装置、设备及计算机可读存储介质
本专利技术涉及摘要提取
,尤其涉及一种舆情摘要提取方法、装置、设备及计算机可读存储介质。
技术介绍
舆情摘要是指通过海量文本中基于某个实体来分析与该实体有关的文本情报信息,并从中提取出关于文本的核心事件、核心描述的技术。针对一个指定的实体(比如企业),将各类情报信息按照信息量最大的原则,对其包含实体的文章进行内容提炼以便能对粗糙文本进行快速一览,从而使得分析人员能快速掌握实体在情报信息层面的主要状态。现有舆情摘要提取方式往往只是简单的对文本以一定度量进行排序,然后按照排序选出摘要内容,此类方式虽然过程较为简单,效果也较为直接,但是大多情况下都是对文本的二次复述而已(也即舆情摘要来自于文本本身),最后输出的舆情摘要也大多集中以副本信息存在,对于一些需要提取的情报定量信息,如关键指标、指向的对象等却较难刻画,进而无法达到情报分析人员所期望的摘要提取要求。
技术实现思路
本专利技术的主要目的在于提出一种舆情摘要提取方法、装置、设备及计算机可读存储介质,旨在解决现有技术无法多角度提取舆情信息的技术问题。为实现上述目的,本专利技术提供一种舆情摘要提取方法,所述舆情摘要提取方法包括以下步骤:对舆情文档进行词过滤以提取核心词,其中,将所述舆情文档的词以预训练的词向量进行存储;基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息;基于所述关键词的摘要信息,构建舆情文档的舆情摘要,其中,所述关键词用于从多角度刻画舆情摘要。可选地,所述对舆情文档进行词过滤以提取核心词包括:对所述舆情文档中所有的词进行聚类,得 ...
【技术保护点】
1.一种舆情摘要提取方法,其特征在于,所述舆情摘要提取方法包括以下步骤:对舆情文档进行词过滤以提取核心词,其中,将所述舆情文档的词以预训练的词向量进行存储;基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息;基于所述关键词的摘要信息,构建舆情文档的舆情摘要,其中,所述关键词用于从多角度刻画舆情摘要。
【技术特征摘要】
1.一种舆情摘要提取方法,其特征在于,所述舆情摘要提取方法包括以下步骤:对舆情文档进行词过滤以提取核心词,其中,将所述舆情文档的词以预训练的词向量进行存储;基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息;基于所述关键词的摘要信息,构建舆情文档的舆情摘要,其中,所述关键词用于从多角度刻画舆情摘要。2.如权利要求1所述的舆情摘要提取方法,其特征在于,所述对舆情文档进行词过滤以提取核心词包括:对所述舆情文档中所有的词进行聚类,得到第一词团集;对所述第一词团集中词团进行过滤;将保留下的词团保存为第二词团集,并将所述第二词团集中所有词团的词作为核心词。3.如权利要求2所述的舆情摘要提取方法,其特征在于,在所述对舆情文档进行词过滤以提取核心词的步骤之前,还包括:采用主题模型算法对多个舆情文档进行主题聚类,得到每份舆情文档的多个主题关键词;所述对所述第一词团集中词团进行过滤包括:以所有舆情文档的所有主题关键词为过滤条件,判断所述第一词团集中词团是否包含所有舆情文档的所有主题关键词;若是,则保留该词团,否则过滤该词团。4.如权利要求2或3所述的舆情摘要提取方法,其特征在于,所述基于所述核心词对应的词向量,从所述舆情文档中提取预设关键词的摘要信息包括:对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量;生成每一关键词对应的词向量,并计算每一合并词向量分别与每一关键词对应的词向量之间的相似度;基于所述相似度,对每一核心词对应的词团进行排序;取前预设个数词团中的词作为所述关键词的摘要信息。5.如权利要求4所述的舆情摘要提取方法,其特征在于,在所述对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量的步骤之前,还包括:分别计算每一个核心词在所有舆情文档中的TF-IDF值;将每一个核心词的TF-IDF值分别与每一个核心词对应的多种类型词向量进行乘法加权;所述对每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量包括:对乘法加权后的每一个核心词对应的多种类型词向量进行加法运算,得到每一个核心词对应的合并词向量。6.如权利要求4所述的舆情摘要提取方法,其特征在于,所述计算每一合并词向量分别与每一关键词对应的词向量之间的相似度包括:计算每一合并词向量分别与每一关键词对应的词向量之间的余弦相似度;所述基于所述相似度,对每一核心词对应的词团进行排序包括:基于所述余弦相似度,对每一核心词对应的词团进行排序。7.如权利要求4所述的舆情摘要提取方法,其特征在于,在所述基于所述相似度,对每一核心词对应的词团进行排序的步骤之后,还包括:若摘要信息需要以句子形式进行表示,则取前预设个数词团中的词所在舆情文档中的段落作为所述关键词的摘要信息。8.如权利要求1所述的舆情摘要提取方法,其特征在于,在所述生成每份舆情文档中每一个词对应的...
【专利技术属性】
技术研发人员:陈琢,江旻,郑少杰,付勇,易剑韬,范增虎,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。