一种关键词处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36730839 阅读:22 留言:0更新日期:2023-03-04 09:57
本申请提供一种关键词处理方法、装置、电子设备和计算机存储介质,该方法包括:获取舆情在设定时间跨度内的语料;根据语料,确定多个舆情关键词;确定与多个舆情关键词对应的基准时间序列,基于基准时间序列,确定多个舆情关键词中每个舆情关键词的权重时间序列;基准时间序列表示与多个舆情关键词的总编辑次数对应的时间序列;根据每个舆情关键词的权重时间序列,对多个舆情关键词进行聚类,得到多个舆情关键词的聚类结果;由于相关技术中仅通过语义方法识别语料中的舆情关键词并进行聚类,并未考虑舆情关键词的时间信息,因而很难确定舆情关键词的演化模式,降低后续对舆情事件进行分析和监控的有效性。行分析和监控的有效性。行分析和监控的有效性。

【技术实现步骤摘要】
一种关键词处理方法、装置、电子设备和存储介质


[0001]本申请涉及舆情分析
,尤其涉及一种关键词处理方法、装置、电子设备和计算机存储介质。

技术介绍

[0002]随着互联网的快速发展,网络媒体作为一种新的信息传播形式,一旦发生社会新闻、自然灾害、娱乐事件等重大舆情事件时,人们将利用网络媒体创建并编辑与舆情事件相关的文章。以维基百科中的文章为例,维基百科文章的编辑历史存储了每篇文章的大量编辑;与舆情事件相关的编辑历史中包含的关键词会随着时间的推移而发生变化,我们将其视为关键词的演化;为方便后续对舆情事件的分析和监控,对舆情事件编辑历史中的关键词进行聚类则显得至关重要。然而,相关技术中仅通过Word2vec和TextRank等语义方法识别舆情语料中的舆情关键词并进行聚类,而这种聚类方式很难确定舆情关键词的演化模式,会降低后续对舆情事件进行分析和监控的有效性。

技术实现思路

[0003]本申请提供一种关键词处理方法、装置、电子设备和计算机存储介质;可以对舆情事件编辑历史中具有相似突发模式的关键词进行聚集,有效确定舆情事件中关键词的时间演化模式。
[0004]本申请的技术方案是这样实现的:
[0005]本申请提供了一种关键词处理方法,所述方法包括:
[0006]获取舆情在设定时间跨度内的语料;根据所述语料,确定多个舆情关键词;
[0007]确定与所述多个舆情关键词对应的基准时间序列,基于所述基准时间序列,确定所述多个舆情关键词中每个舆情关键词的权重时间序列;所述基准时间序列表示与所述多个舆情关键词的总编辑次数对应的时间序列;
[0008]根据所述每个舆情关键词的权重时间序列,对所述多个舆情关键词进行聚类,得到所述多个舆情关键词的聚类结果。
[0009]在一些实施例中,所述基于所述基准时间序列,确定所述多个舆情关键词中每个舆情关键词的权重时间序列,包括:
[0010]对所述基准时间序列进行成分分解,得到所述基准时间序列的各个成分分量;所述成分分量表示包括单一突发的时间序列成分;
[0011]对所述基准时间序列的各个成分分量进行线性组合,得到所述每个舆情关键词的权重时间序列。
[0012]在一些实施例中,所述对所述基准时间序列进行成分分解,包括:
[0013]通过时间序列成分分解模型对所述基准时间序列进行成分分解。
[0014]在一些实施例中,所述对所述基准时间序列的各个成分分量进行线性组合,包括:
[0015]根据权重确定模型,对所述基准时间序列的各个成分分量进行线性组合;所述权
重确定模型用于确定所述基准时间序列的各个成分分量的权重。
[0016]在一些实施例中,所述权重确定模型的训练方法包括以下步骤:
[0017]将舆情关键词样本集输入至所述权重确定模型;
[0018]利用所述权重确定模型对舆情关键词样本集进行处理,得到所述舆情关键词样本集中各个关键词样本的预测权重;
[0019]根据所述舆情关键词样本集中各个关键词样本的预测权重与标注权重,调整所述权重确定模型的网络参数值。
[0020]在一些实施例中,所述对所述多个舆情关键词进行聚类,得到所述多个舆情关键词的聚类结果,包括:
[0021]确定所述多个舆情关键词中每个舆情关键词的权重时间序列之间的相似度;
[0022]基于所述相似度,得到所述多个舆情关键词的聚类结果。
[0023]在一些实施例中,所述方法还包括:
[0024]在得到所述多个舆情关键词的聚类结果后,对所述聚类结果在设定时间跨度内的演变过程进行可视化。
[0025]本申请提供一种关键词处理装置,所述装置包括第一确定模块、第二确定模块和聚类模块,其中,
[0026]第一确定模块,用于获取舆情在设定时间跨度内的语料;根据所述语料,确定多个舆情关键词;
[0027]第二确定模块,用于确定与所述多个舆情关键词对应的基准时间序列,基于所述基准时间序列,确定所述多个舆情关键词中每个舆情关键词的权重时间序列;所述基准时间序列表示与所述多个舆情关键词的总编辑次数对应的时间序列;
[0028]聚类模块,用于根据所述每个舆情关键词的权重时间序列,对所述多个舆情关键词进行聚类,得到所述多个舆情关键词的聚类结果。
[0029]本申请提供一种电子设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述一个或多个技术方案提供的关键词处理方法。
[0030]本申请提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后能够实现前述一个或多个技术方案提供的关键词处理方法。
[0031]本申请实施例提供一种关键词处理方法、装置、电子设备和计算机存储介质,所述方法包括:获取舆情在设定时间跨度内的语料;根据所述语料,确定多个舆情关键词;确定与所述多个舆情关键词对应的基准时间序列,基于所述基准时间序列,确定所述多个舆情关键词中每个舆情关键词的权重时间序列;所述基准时间序列表示与所述多个舆情关键词的总编辑次数对应的时间序列;根据所述每个舆情关键词的权重时间序列,对所述多个舆情关键词进行聚类,得到所述多个舆情关键词的聚类结果。可以看出,本申请实施例中,在根据舆情的语料,得到多个舆情关键词后,将包含多个舆情关键词的总编辑次数对应的时间序列作为基准时间序列,并根据该基准时间序列确定每个舆情关键词的权重时间序列;而通过每个舆情关键词的权重时间序列,对多个舆情关键词进行聚类,可以从时间角度确定舆情关键词的演化模式,便于后续对舆情事件的分析和监控。
附图说明
[0032]图1a为本申请实施例的一种关键词处理方法的流程图;
[0033]图1b为本申请实施例的线性模型的示意图;
[0034]图1c为本申请实施例的多高斯模型的示意图;
[0035]图1d为本申请实施例的通过线性模型对时间序列进行成分分解的示意图一;
[0036]图1e为本申请实施例的通过线性模型对时间序列进行成分分解的示意图二;
[0037]图1f为本申请实施例的通过线性模型对时间序列进行成分分解的示意图三;
[0038]图1g为本申请实施例的通过线性模型对基准时间序列进行拟合的示意图一;
[0039]图1h为本申请实施例的通过线性模型对基准时间序列进行拟合的示意图二;
[0040]图1i为本申请实施例的通过线性模型对基准时间序列进行拟合的示意图三;
[0041]图2a为本申请实施例中的基准时间序列中的各个成分分量进行展示的示意图;
[0042]图2b为本申请实施例中的将舆情关键词聚类成各个关键词簇的示意图;
[0043]图2c为本申请实施例中的各个关键词簇中代表性关键词的时间序列的示意图;
[0044]图2d为本申请实施例中的舆情关键词在整个时间跨度内进行变化的示意图;
[0045本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词处理方法,其特征在于,所述方法包括:获取舆情在设定时间跨度内的语料;根据所述语料,确定多个舆情关键词;确定与所述多个舆情关键词对应的基准时间序列,基于所述基准时间序列,确定所述多个舆情关键词中每个舆情关键词的权重时间序列;所述基准时间序列表示与所述多个舆情关键词的总编辑次数对应的时间序列;根据所述每个舆情关键词的权重时间序列,对所述多个舆情关键词进行聚类,得到所述多个舆情关键词的聚类结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述基准时间序列,确定所述多个舆情关键词中每个舆情关键词的权重时间序列,包括:对所述基准时间序列进行成分分解,得到所述基准时间序列的各个成分分量;所述成分分量表示包括单一突发的时间序列成分;对所述基准时间序列的各个成分分量进行线性组合,得到所述每个舆情关键词的权重时间序列。3.根据权利要求2所述的方法,其特征在于,对所述基准时间序列进行成分分解,包括:通过时间序列成分分解模型对所述基准时间序列进行成分分解。4.根据权利要求2所述的方法,其特征在于,所述对所述基准时间序列的各个成分分量进行线性组合,包括:根据权重确定模型,对所述基准时间序列的各个成分分量进行线性组合;所述权重确定模型用于确定所述基准时间序列的各个成分分量的权重。5.根据权利要求4所述的方法,其特征在于,所述权重确定模型的训练方法包括以下步骤:将舆情关键词样本集输入至所述权重确定模型;利用所述权重确定模型对舆情关键词样本集进行处理,得到所述舆情关键词...

【专利技术属性】
技术研发人员:周盈怡孙天蕊
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1