基于新闻主题词的热点关联关系分析方法及系统技术方案

技术编号:19903577 阅读:166 留言:0更新日期:2018-12-26 02:57
本发明专利技术公开了基于新闻主题词的热点关联关系分析方法及系统,统计每篇新闻的阅读量,计算每个关键词的所有阅读量;将关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;原生数据将数据处理成JSON格式,数组中的对象使用key‑value键值对表示关键词和阅读量,相似度相近的在同一对象中;根据数据生成关键词的关系图;采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。本发明专利技术有益效果:将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性;对新闻热点主题词的关联关系进行可视化。

【技术实现步骤摘要】
基于新闻主题词的热点关联关系分析方法及系统
本专利技术涉及人工智能领域的自然语言处理方法,具体来说,涉及一种基于新闻主题词的热点关联关系分析方法。
技术介绍
随着互联网的发展和普及,互联网新闻报道已是人们获取社会信息的主要手段,如何快速准确地获取互联网新闻热点话题及探索各热点话题之间的关联关系是一个急需解决的问题,新闻热点检测及新闻话题关联关系探索具有很重要的社会价值。目前,我国针对网络舆情的研究非常活跃,积累了大量的成果。国内外一些学者就这个问题展开了研究,曾依灵等人根据网络热点信息的特点提出以切分词为基础进行多级过滤的拼接算法,该算法可以提取出能够代表网络热点话题的信息串,该算法的缺点是难以保证切分词和多级过滤的效率,不能满足在线话题识别的应用;孙学刚等人提出了基于二次特征提取和聚类的Web文档的主题聚类方法,该算法在不利用任何先验知识的前提下,实现Web文档的主题聚类,但是该算法的缺点是只针对具有明显特征的Web文档,而现实的网络新闻并不是都具有明显特征,因此该算法存在一定的局限性;周亚东等人提出了流量内容中热点词语相关度计算算法,并采用基于高密度连接区的密度聚类方法得到热点簇,该算法与k-均值聚类算法都存在无法满足热点话题发现的实时性。综上所述,结合新闻自身特点和用户关注热点的舆情可视化分析研究工作并不多。通常人们难以从海量的网络文本中直接获取到有效的信息,因此大大限制了分析信息的能力。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种基于新闻主题词的热点关联关系分析方法,能够将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性,同时对新闻热点主题词的关联关系进行可视化,使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于新闻主题词的热点关联关系分析方法,包括以下步骤:S1针对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;S2统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;S3使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;S4原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;S5根据数据生成关键词的关系图;S6采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。进一步地,所述步骤S5中生成关键词的关系图具体步骤如下:S51使用JavaScript将数据处理成ECharts关系图所要求的数据格式;S52nodes与edges分数组存储;S53将数据对应赋到图表参数中,调用ECharts接口生成对应图表。进一步地,步骤S3中使用word2vec将所述关键词向量化具体步骤如下:S31使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;S32使用所有文本文档的分词结果训练word2vec模型;S33将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。进一步地,所述步骤S1中TextRank算法具体步骤如下:S11按照常规方法对新闻文本进行分词,加载文本,对文本数据进行分词并进行词性标注;S12对分词后的结果进行去停用词操作,得到处理后的文本数据;S13计算分词处理后的文本数据的TextRank算法得分;S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;S15通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;S16通过TextRank算法获取得分后,进行降序排序。进一步地,步骤S13中,计算公式如下:其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合。进一步地,步骤S15中,BM25算法计算公式如下:其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度;S16通过TextRank算法获取得分后,进行降序排序,按照获取摘要和关键词的个数a,取出排序后排名前a个的句子和关键词。本专利技术另一方面,提供一种基于新闻主题词的热点关联关系分析系统,包括:提取模块,用于对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;计算模块,用于使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;第一处理模块,用于原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;生成模块,用于根据数据生成关键词的关系图;划分模块,用于采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。进一步地,所述生成模块包括第二处理模块,用于使用JavaScript将数据处理成ECharts关系图所要求的数据格式;存储模块,用于将nodes与edges分数组存储;调用模块,用于将数据对应赋到图表参数中,调用ECharts接口生成对应图表。进一步地,所述计算模块包括分词处理模块,用于使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;训练模块,用于使用所有文本文档的分词结果训练word2vec模型;输入模块,用于将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。本专利技术的有益效果:将用户阅读量数据加入到文本分析中,改善了基于新闻本身进行分析的局限性;对新闻热点主题词的关联关系进行可视化,使得用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。采用分词提取新闻的摘要及关键词,同时结合用户阅读数据找出新闻热点,进一步计算新闻主题词的热点关联关系并进行可视化展示,同时用户可以探索式交互地了解一段时间内人们关注的新闻热点随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将本文档来自技高网...

【技术保护点】
1.一种基于新闻主题词的热点关联关系分析方法,其特征在于,包括以下步骤:S1 针对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;S2 统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;S3 使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;S4 原生数据将数据处理成JSON格式,数组中的对象使用key‑value键值对表示关键词和阅读量,相似度相近的在同一对象中;S5 根据数据生成关键词的关系图;S6 采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。

【技术特征摘要】
1.一种基于新闻主题词的热点关联关系分析方法,其特征在于,包括以下步骤:S1针对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要以及新闻标题分别提取几个关键词;S2统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;S3使用word2vec将所述关键词向量化,并通过向量夹角的方式计算所有关键词的相似度,每个关键词取相似度最大的前几个词;S4原生数据将数据处理成JSON格式,数组中的对象使用key-value键值对表示关键词和阅读量,相似度相近的在同一对象中;S5根据数据生成关键词的关系图;S6采用关系图中各个点的大小体现关键词的阅读量,并根据阅读量的不同,将各个点划分不同的等级,对应不同的颜色,点与点之间线的连接体现了相似关键词的关系。2.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法,其特征在于,所述步骤S5中生成关键词的关系图具体步骤如下:S51使用JavaScript将数据处理成ECharts关系图所要求的数据格式;S52nodes与edges分数组存储;S53将数据对应赋到图表参数中,调用ECharts接口生成对应图表。3.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法,其特征在于,步骤S3中使用word2vec将所述关键词向量化具体步骤如下:S31使用语料库作为模型训练的样本数据,并对所有的文本文档进行分词处理,得到文本的分词结果;S32使用所有文本文档的分词结果训练word2vec模型;S33将需要向量化的关键词输入到word2vec模型中,得到相关关键词的词向量。4.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法,其特征在于,所述步骤S1中TextRank算法具体步骤如下:S11按照常规方法对新闻文本进行分词,加载文本,对文本数据进行分词并进行词性标注;S12对分词后的结果进行去停用词操作,得到处理后的文本数据;S13计算分词处理后的文本数据的TextRank算法得分;S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;S15通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;S16通过TextRank算法获取得分后,进行降序排序。5.根据权利要求4所述的基于新闻主题词的热点关联关系分析方法,其特征在于,步骤S13中,计算公式如下:其...

【专利技术属性】
技术研发人员:徐汕梁炬张晶亮杨端姜桥
申请(专利权)人:北京航天云路有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1