一种基于大数据平台的资讯热度分析方法技术

技术编号:39502391 阅读:9 留言:0更新日期:2023-11-24 11:33
本发明专利技术提供了一种基于大数据平台的资讯热度分析方法,涉及自然语言处理技术领域,包括分析采用聚类算法对多个目标领域预设时间周期内获取的资讯进行聚类得到的第一聚类结果,生成第一热词集合;计算所述第一聚类结果中的每篇资讯与对应第一热词集合的语义度;获取所述第一聚类结果中每篇资讯的发布时间以及用户行文数据,再结合语义度计算得到资讯热度

【技术实现步骤摘要】
一种基于大数据平台的资讯热度分析方法


[0001]本专利技术涉及自然语言处理
,特别涉及一种基于大数据平台的资讯热度分析方法


技术介绍

[0002]当前,社会每天在产生大量的资讯,获取热点资讯在分析中变的越来越重要,传统资讯热度的获取是由人工制定评判标准,依据标准对资讯进行阅读综合评判,但资讯领域数据类型多样,依靠人工的方式效率低下

[0003]因此,本专利技术提供一种基于大数据平台的资讯热度分析方法,可实现依据大量新闻资讯自动计算热度值,较快的获取热门资讯,改变了以往传统的人工方式,提高了效率


技术实现思路

[0004]本专利技术提供一种基于大数据平台的资讯热度分析方法,用以通过采用聚类算法将多个领域资讯进行聚类后,生成对应的热词集合;通过热词集合计算该类中每篇资讯与此相关的语义度,再将语义度与多维度数据综合计算得到热度,有效实现改变传统人工获取方式的同时,依据大量新闻资讯快速自动计算资讯热度值,从而在多领域资讯分析中发挥了重要作用

[0005]本专利技术提供一种基于大数据平台的资讯热度分析方法,包括:步骤1:采用聚类算法对多个目标领域预设时间周期内获取的资讯进行聚类,得到第一聚类结果;步骤2:分析所述第一聚类结果,生成第一热词集合;步骤3:计算所述第一聚类结果中的每篇资讯与对应生成的第一热词集合的相关语义度;步骤4:获取所述第一聚类结果中每篇资讯的发布时间以及用户行文数据,再结合语义度计算得到资讯热度

[0006]优选的,采用聚类算法对多个目标领域预设时间周期内获取的资讯进行聚类,得到第一聚类结果,包括:步骤
11
:定时从网络获取所有目标领域预设时间周期内的资讯数据;步骤
12
:对获取的资讯数据剔除异常数据后,得到第一数据;步骤
13
:基于所述第一数据中涉及的专业词汇,构建对应第一分词词典来对第一数据进行分词后,再进行词性标注与去停用词得到目标数据集;步骤
14
:获取所述目标数据集的困惑度,从而得到最优聚类个数
K
;步骤
15
:从目标数据集中随机选取
K
个第一资讯作为初始簇的中心,经计算得到每个其余资讯分别到
K
个第一资讯的距离,并将其划分到最近的簇;步骤
16
:随机选取一个其余资讯,计算用其余资讯替换代表资讯的总代价值,若小于零,则替换代表资讯,形成
K
个新簇进行再聚类,直至不再出现新簇后,输出
K
个第一聚类
结果

[0007]优选的,获取所述目标数据集的困惑度,从而得到最优聚类个数,包括:所述目标数据集的困惑度的求取公式如下:;其中,
M
表示为目标数据集中资讯总个数;表示为资讯
w 中的词数量;表示为资讯
w
中的词;表示为词在资讯
w
中产生的概率;根据基于困惑度求取公式进行实验构建得到的聚类数目

困惑度折线图,从中选取困惑度最小且处于拐点处的对应聚类数目作为最优聚类个数后输出

[0008]优选的,分析所述第一聚类结果,生成第一热词集合,包括:步骤
21
:对第一聚类结果中的资讯进行新词识别,从而生成新词字典;步骤
22
:基于新词字典,对第一聚类结果中的资讯进行再分词后得到若干候选词语;步骤
23
:从词频

词频增长率以及资讯获取来源影响力三个维度计算得到候选词语对应的第一热度;步骤
24
:根据获取的所有第一热度,将大于预设热度阈值的第一热度所对应的候选词语进行集合得到第一热词集合后输出

[0009]优选的,对第一聚类结果中的资讯进行新词识别,从而生成新词字典,包括:步骤
31
:对第一聚类结果中的资讯中所有词语相应的左邻词和右邻词以及每个邻词出现的次数进行记录;步骤
32
:根据每个词语的左邻词和右邻词中各个词的比例,得到对应的左信息熵和右信息熵,以及左右合并后的统计信息熵;步骤
33
:分别获取左右相邻词语的词频,以及基于对应词语相邻出现的词频,来计算得到词语凝聚度;步骤
34
:通过计算词语组合
D
的分值与组成该词语的字词的分值的大小,若,则认为所述词语组合
D
时未被发现的新词,并加入自定义的新词字典中;其中分值的求取公式如下:;其中,表示为控制词语凝聚度的人为设定系数;表示为控制信息熵的重要程度的人为预设系数;表示为词语凝聚度;
N
表示为信息熵

[0010]优选的,从词频

词频增长率以及资讯获取来源影响力三个维度计算得到候选词语对应的第一热度,包括:步骤
41
:获取所述候选词语的词频增长率以及对应的词频增长率权重,并将词频增长率大于预设增长阈值的候选词语作为第一词语输出;步骤
42
:根据词性对获取的所有第一词语进行分类,得到各类词性词语的数目与占比率,并基于占比率对对应第一词语赋予词性权重,再结合第一词语的词频与位置权重,得到词频权重;步骤
43
:确定包含第一词语的资讯所对应的资讯获取来源,从而得到对应的资讯
获取来源影响力权重;步骤
44
:计算第一词语的第一热度,求取公式如下所示:;其中,表示为词语
c
在预设时间周期
t
内的第一热度;表示为预设时间周期
t
内词语
c
在对应第一聚类结果中的词频权重;表示为预设时间周期
t
内词语
c
在对应第一聚类结果中的词频增长率权重;表示为资讯集中资讯的对应资讯获取来源影响力权重;表示为预设时间周期
t
内包含词语
c
的资讯集

[0011]优选的,计算所述第一聚类结果中的每篇资讯与对应生成的第一热词集合的相关语义度,包括:步骤
51
:将组成第一聚类结果中资讯的每个句子作为目标句并依次编码为由词向量组成的第一矩阵后,再将对应第一聚类结果生成的第一热词集合编码为由词向量组成的第二矩阵;步骤
52
:利用交互注意力机制比较目标句与对应第一热词集合中的所有热词基于词粒度的相似性来得到第一注意力矩阵;步骤
53
:通过将所述第一注意力矩阵分别与第一矩阵

第二矩阵相互生成彼此注意力加权后的新句子矩阵与新集合矩阵;步骤
54
:将新句子矩阵与第一矩阵拼接融合得到第一表示矩阵,再将新集合矩阵与第二矩阵拼接融合,得到第二表示矩阵;步骤
54
:通过将第一表示矩阵与第二表示矩阵分别输入
Transform本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于大数据平台的资讯热度分析方法,其特征在于,包括:步骤1:采用聚类算法对多个目标领域预设时间周期内获取的资讯进行聚类,得到第一聚类结果;步骤2:分析所述第一聚类结果,生成第一热词集合;步骤3:计算所述第一聚类结果中的每篇资讯与对应生成的第一热词集合的相关语义度;步骤4:获取所述第一聚类结果中每篇资讯的发布时间以及用户行文数据,再结合语义度计算得到资讯热度
。2.
根据权利要求1所述的一种基于大数据平台的资讯热度分析方法,其特征在于,采用聚类算法对多个目标领域预设时间周期内获取的资讯进行聚类,得到第一聚类结果,包括:步骤
11
:定时从网络获取所有目标领域预设时间周期内的资讯数据;步骤
12
:对获取的资讯数据剔除异常数据后,得到第一数据;步骤
13
:基于所述第一数据中涉及的专业词汇,构建对应第一分词词典来对第一数据进行分词后,再进行词性标注与去停用词得到目标数据集;步骤
14
:获取所述目标数据集的困惑度,从而得到最优聚类个数
K
;步骤
15
:从目标数据集中随机选取
K
个第一资讯作为初始簇的中心,经计算得到每个其余资讯分别到
K
个第一资讯的距离,并将其划分到最近的簇;步骤
16
:随机选取一个其余资讯,计算用其余资讯替换代表资讯的总代价值,若小于零,则替换代表资讯,形成
K
个新簇进行再聚类,直至不再出现新簇后,输出
K
个第一聚类结果
。3.
根据权利要求2所述的一种基于大数据平台的资讯热度分析方法,其特征在于,获取所述目标数据集的困惑度,从而得到最优聚类个数,包括:所述目标数据集的困惑度的求取公式如下:;其中,
M
表示为目标数据集中资讯总个数;表示为资讯
w 中的词数量;表示为资讯
w
中的词;表示为词在资讯
w
中产生的概率;根据基于困惑度求取公式进行实验构建得到的聚类数目

困惑度折线图,从中选取困惑度最小且处于拐点处的对应聚类数目作为最优聚类个数后输出
。4.
根据权利要求1所述的一种基于大数据平台的资讯热度分析方法,其特征在于,分析所述第一聚类结果,生成第一热词集合,包括:步骤
21
:对第一聚类结果中的资讯进行新词识别,从而生成新词字典;步骤
22
:基于新词字典,对第一聚类结果中的资讯进行再分词后得到若干候选词语;步骤
23
:从词频

词频增长率以及资讯获取来源影响力三个维度计算得到候选词语对应的第一热度;步骤
24
:根据获取的所有第一热度,将大于预设热度阈值的第一热度所对应的候选词语进行集合得到第一热词集合后输出
。5.
根据权利要求4所述的一种基于大数据平台的资讯热度分析方法,其特征在于,对第一聚类结果中的资讯进行新词识别,从而生成新词字典,包括:
步骤
31
:对第一聚类结果中的资讯中所有词语相应的左邻词

右邻词以及每个邻词出现的次数进行记录;步骤
32
:根据每个词语的左邻词和右邻词中各个词的比例,得到对应的左信息熵和右信息熵,以及左右合并后的统计信息熵;步骤
33
:分别获取左右相邻词语的词频,以及基于对应词语相邻出现的词频,来计算得到词语凝聚度;步骤<...

【专利技术属性】
技术研发人员:胡红亮郭传斌聂雯莹丁荣杨万波
申请(专利权)人:北京国科众安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1