基于新闻主题词的热点关联关系分析方法及系统技术方案

技术编号：19903577 阅读：215 留言：0更新日期：2018-12-26 02:57

本发明专利技术公开了基于新闻主题词的热点关联关系分析方法及系统，统计每篇新闻的阅读量，计算每个关键词的所有阅读量；将关键词向量化，并通过向量夹角的方式计算所有关键词的相似度，每个关键词取相似度最大的前几个词；原生数据将数据处理成JSON格式，数组中的对象使用key‑value键值对表示关键词和阅读量，相似度相近的在同一对象中；根据数据生成关键词的关系图；采用关系图中各个点的大小体现关键词的阅读量，并根据阅读量的不同，将各个点划分不同的等级，对应不同的颜色，点与点之间线的连接体现了相似关键词的关系。本发明专利技术有益效果：将用户阅读量数据加入到文本分析中，改善了基于新闻本身进行分析的局限性；对新闻热点主题词的关联关系进行可视化。

全部详细技术资料下载

【技术实现步骤摘要】
基于新闻主题词的热点关联关系分析方法及系统
本专利技术涉及人工智能领域的自然语言处理方法，具体来说，涉及一种基于新闻主题词的热点关联关系分析方法。
技术介绍
随着互联网的发展和普及,互联网新闻报道已是人们获取社会信息的主要手段,如何快速准确地获取互联网新闻热点话题及探索各热点话题之间的关联关系是一个急需解决的问题，新闻热点检测及新闻话题关联关系探索具有很重要的社会价值。目前，我国针对网络舆情的研究非常活跃，积累了大量的成果。国内外一些学者就这个问题展开了研究，曾依灵等人根据网络热点信息的特点提出以切分词为基础进行多级过滤的拼接算法，该算法可以提取出能够代表网络热点话题的信息串，该算法的缺点是难以保证切分词和多级过滤的效率，不能满足在线话题识别的应用；孙学刚等人提出了基于二次特征提取和聚类的Web文档的主题聚类方法，该算法在不利用任何先验知识的前提下，实现Web文档的主题聚类，但是该算法的缺点是只针对具有明显特征的Web文档，而现实的网络新闻并不是都具有明显特征，因此该算法存在一定的局限性；周亚东等人提出了流量内容中热点词语相关度计算算法，并采用基于高密度连接区的密...

【技术保护点】
1.一种基于新闻主题词的热点关联关系分析方法，其特征在于，包括以下步骤：S1 针对新闻内容通过TextRank算法自动提取摘要，并对提取的摘要以及新闻标题分别提取几个关键词；S2 统计每篇新闻的阅读量，对所有样本新闻的关键词做并集，并计算每个关键词的所有阅读量；S3 使用word2vec将所述关键词向量化，并通过向量夹角的方式计算所有关键词的相似度，每个关键词取相似度最大的前几个词；S4 原生数据将数据处理成JSON格式，数组中的对象使用key‑value键值对表示关键词和阅读量，相似度相近的在同一对象中；S5 根据数据生成关键词的关系图；S6 采用关系图中各个点的大小体现关键词的阅读量，并根...

【技术特征摘要】
1.一种基于新闻主题词的热点关联关系分析方法，其特征在于，包括以下步骤：S1针对新闻内容通过TextRank算法自动提取摘要，并对提取的摘要以及新闻标题分别提取几个关键词；S2统计每篇新闻的阅读量，对所有样本新闻的关键词做并集，并计算每个关键词的所有阅读量；S3使用word2vec将所述关键词向量化，并通过向量夹角的方式计算所有关键词的相似度，每个关键词取相似度最大的前几个词；S4原生数据将数据处理成JSON格式，数组中的对象使用key-value键值对表示关键词和阅读量，相似度相近的在同一对象中；S5根据数据生成关键词的关系图；S6采用关系图中各个点的大小体现关键词的阅读量，并根据阅读量的不同，将各个点划分不同的等级，对应不同的颜色，点与点之间线的连接体现了相似关键词的关系。2.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法，其特征在于，所述步骤S5中生成关键词的关系图具体步骤如下：S51使用JavaScript将数据处理成ECharts关系图所要求的数据格式；S52nodes与edges分数组存储；S53将数据对应赋到图表参数中，调用ECharts接口生成对应图表。3.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法，其特征在于，步骤S3中使用word2vec将所述关键词向量化具体步骤如下：S31使用语料库作为模型训练的样本数据，并对所有的文本文档进行分词处理，得到文本的分词结果；S32使用所有文本文档的分词结果训练word2vec模型；S33将需要向量化的关键词输入到word2vec模型中，得到相关关键词的词向量。4.根据权利要求1所述的基于新闻主题词的热点关联关系分析方法，其特征在于，所述步骤S1中TextRank算法具体步骤如下：S11按照常规方法对新闻文本进行分词，加载文本，对文本数据进行分词并进行词性标注；S12对分词后的结果进行去停用词操作，得到处理后的文本数据；S13计算分词处理后的文本数据的TextRank算法得分；S14通过TextRank算法获取关键词，采用窗口大小为5来计算得分，关键词和关键词之间的权重为1；S15通过TextRank算法获取摘要时，全部句子是相邻的，不提取窗口，关键词与关键词之间的权重采用BM25相似度算法获得；S16通过TextRank算法获取得分后，进行降序排序。5.根据权利要求4所述的基于新闻主题词的热点关联关系分析方法，其特征在于，步骤S13中，计算公式如下：其...

【专利技术属性】
技术研发人员：徐汕，梁炬，张晶亮，杨端，姜桥，
申请(专利权)人：北京航天云路有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人