一种基于大数据平台的资讯热度分析方法技术

技术编号：39502391 阅读：9 留言：0更新日期：2023-11-24 11:33

本发明专利技术提供了一种基于大数据平台的资讯热度分析方法，涉及自然语言处理技术领域，包括分析采用聚类算法对多个目标领域预设时间周期内获取的资讯进行聚类得到的第一聚类结果，生成第一热词集合；计算所述第一聚类结果中的每篇资讯与对应第一热词集合的语义度；获取所述第一聚类结果中每篇资讯的发布时间以及用户行文数据，再结合语义度计算得到资讯热度

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据平台的资讯热度分析方法

[0001]本专利技术涉及自然语言处理
，特别涉及一种基于大数据平台的资讯热度分析方法
。

技术介绍

[0002]当前，社会每天在产生大量的资讯，获取热点资讯在分析中变的越来越重要，传统资讯热度的获取是由人工制定评判标准，依据标准对资讯进行阅读综合评判，但资讯领域数据类型多样，依靠人工的方式效率低下
。
[0003]因此，本专利技术提供一种基于大数据平台的资讯热度分析方法，可实现依据大量新闻资讯自动计算热度值，较快的获取热门资讯，改变了以往传统的人工方式，提高了效率
。

技术实现思路

[0004]本专利技术提供一种基于大数据平台的资讯热度分析方法，用以通过采用聚类算法将多个领域资讯进行聚类后，生成对应的热词集合；通过热词集合计算该类中每篇资讯与此相关的语义度，再将语义度与多维度数据综合计算得到热度，有效实现改变传统人工获取方式的同时，依据大量新闻资讯快速自动计算资讯热度值，从而在多领域资讯分析中发挥了重要作用
。
[0005]本专利技术提供一种基于大数据平台的资讯热度分析方法，包括：步骤1：采用聚类算法对多个目标领域预设时间周期内获取的资讯进行聚类，得到第一聚类结果；步骤2：分析所述第一聚类结果，生成第一热词集合；步骤3：计算所述第一聚类结果中的每篇资讯与对应生成的第一热词集合的相关语义度；步骤4：获取所述第一聚类结果中每篇资讯的发布时间以及用户行文数据，再结合语义度计算得到资讯热度
。
[00...

【技术保护点】

【技术特征摘要】
1.
一种基于大数据平台的资讯热度分析方法，其特征在于，包括：步骤1：采用聚类算法对多个目标领域预设时间周期内获取的资讯进行聚类，得到第一聚类结果；步骤2：分析所述第一聚类结果，生成第一热词集合；步骤3：计算所述第一聚类结果中的每篇资讯与对应生成的第一热词集合的相关语义度；步骤4：获取所述第一聚类结果中每篇资讯的发布时间以及用户行文数据，再结合语义度计算得到资讯热度
。2.
根据权利要求1所述的一种基于大数据平台的资讯热度分析方法，其特征在于，采用聚类算法对多个目标领域预设时间周期内获取的资讯进行聚类，得到第一聚类结果，包括：步骤
11
：定时从网络获取所有目标领域预设时间周期内的资讯数据；步骤
12
：对获取的资讯数据剔除异常数据后，得到第一数据；步骤
13
：基于所述第一数据中涉及的专业词汇，构建对应第一分词词典来对第一数据进行分词后，再进行词性标注与去停用词得到目标数据集；步骤
14
：获取所述目标数据集的困惑度，从而得到最优聚类个数
K
；步骤
15
：从目标数据集中随机选取
K
个第一资讯作为初始簇的中心，经计算得到每个其余资讯分别到
K
个第一资讯的距离，并将其划分到最近的簇；步骤
16
：随机选取一个其余资讯，计算用其余资讯替换代表资讯的总代价值，若小于零，则替换代表资讯，形成
K
个新簇进行再聚类，直至不再出现新簇后，输出
K
个第一聚类结果
。3.
根据权利要求2所述的一种基于大数据平台的资讯热度分析方法，其特征在于，获取所述目标数据集的困惑度，从而得到最优聚类个数，包括：所述目标数据集的困惑度的求取公式如下：；其中，
M
表示为目标数据集中资讯总个数；表示为资讯
w 中的词数量；表示为资讯
w
中的词；表示为词在资讯
w
中产生的概率；根据基于困惑度求取公式进行实验构建得到的聚类数目
‑
困惑度折线图，从中选取困惑度最小且处于拐点处的对应聚类数目作为最优聚类个数后输出
。4.
根据权利要求1所述的一种基于大数据平台的资讯热度分析方法，其特征在于，分析所述第一聚类结果，生成第一热词集合，包括：步骤
21
：对第一聚类结果中的资讯进行新词识别，从而生成新词字典；步骤
22
：基于新词字典，对第一聚类结果中的资讯进行再分词后得到若干候选词语；步骤
23
：从词频
、
词频增长率以及资讯获取来源影响力三个维度计算得到候选词语对应的第一热度；步骤
24
：根据获取的所有第一热度，将大于预设热度阈值的第一热度所对应的候选词语进行集合得到第一热词集合后输出
。5.
根据权利要求4所述的一种基于大数据平台的资讯热度分析方法，其特征在于，对第一聚类结果中的资讯进行新词识别，从而生成新词字典，包括：
步骤
31
：对第一聚类结果中的资讯中所有词语相应的左邻词
、
右邻词以及每个邻词出现的次数进行记录；步骤
32
：根据每个词语的左邻词和右邻词中各个词的比例，得到对应的左信息熵和右信息熵，以及左右合并后的统计信息熵；步骤
33
：分别获取左右相邻词语的词频，以及基于对应词语相邻出现的词频，来计算得到词语凝聚度；步骤<...

【专利技术属性】
技术研发人员：胡红亮，郭传斌，聂雯莹，丁荣，杨万波，
申请(专利权)人：北京国科众安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人