一种基于社交话题的对目标事件进行分析的方法及系统技术方案

技术编号:32874414 阅读:21 留言:0更新日期:2022-04-02 12:05
本发明专利技术公开了一种基于社交话题的对目标事件进行分析的方法及系统,其中方法包括:确定社交话题中的目标事件,并提取所述目标事件的初始关键词;按预定的时间周期识别与所述初始关键词相关联的目标文本数据;基于所述目标文本数据的类型,对所述目标文本数据进行处理;对处理后的所述目标文本数据进行分词处理,提取不同时间周期内的所述目标文本数据中的关键词;基于不同时间周期的时间维度,通过所述目标事件的关键词对目标事件的发展进行可视化展示。可视化展示。可视化展示。

【技术实现步骤摘要】
一种基于社交话题的对目标事件进行分析的方法及系统


[0001]本专利技术涉及信息技术应用
,更具体地,涉及一种基于社交话题的对目标事件进行分析的方法及系统。

技术介绍

[0002]随着互联网技术的蓬勃发展,人们越来越倾向于通过某一社交媒体获取近期的热点事件。然而,存在以下几个问题:(1)这些话题每天更新较快,无法快速直观的获取某一个热点事件随着时间发酵的整体发展趋势。(2)传统的话题发现只是针对某一采集到的数据集检测热点话题,无法做到从数据采集到结果分析的全自动化。(3)现有的话题发现技术适用于众多各异事件中挖掘热点事件,粒度较粗,不容易分析决策。
[0003]现有技术(申请公开号:CN113064990A)公开了一个从数据采集到热点事件发掘分析的自动化系统,包括:对文本进行预处理,将文本内容分割为多个短语;对经短语分割的文本进行文本向量化的处理,形成向量化的事件集合;采用无监督聚类算法对向量化的事件集合进行聚合,形成热点的事件簇;对每个事件簇采用深度学习算法进行向量化处理并再次使用无监督聚类算法进行聚合;使用新词发现算法,生成话题簇描述。然而,现有技术无法对热点话题的发展变化做出分析,提取关键词的精度也没法控制。
[0004]因此,如何在对热点话题进行分析时做到细粒度的全流程的自动化,同时在时间维度做社交话题的热点发现及演化,成为急需解决的问题。

技术实现思路

[0005]本专利技术技术方案提供一种基于社交话题的对目标事件进行分析的方法及系统,以解决如何对社交话题的目标事件进行分析的问题。
[0006]为了解决上述问题,本专利技术提供了一种基于社交话题的对目标事件进行分析的方法,所述方法包括:
[0007]确定社交话题中的目标事件,并提取所述目标事件的初始关键词;
[0008]按预定的时间周期识别与所述初始关键词相关联的目标文本数据;
[0009]基于所述目标文本数据的类型,对所述目标文本数据进行处理;对处理后的所述目标文本数据进行分词处理,提取不同时间周期内的所述目标文本数据中的关键词;
[0010]基于不同时间周期的时间维度,通过所述目标事件的关键词对目标事件的发展进行可视化展示。
[0011]优选地,通过Python爬取算法按预定的时间周期识别与所述初始关键词相关联的目标文本数据,并将所述目标文本数据存储至数据库中。
[0012]优选地,所述基于所述目标文本数据的类型,对所述目标文本数据进行处理,包括:
[0013]确定所述目标文本数据的数据格式;
[0014]根据每个目标文本数据的数据格式对样本文本进行内容解析,从而获得每个目标
文本数据的正文内容。
[0015]优选地,所述基于所述目标文本数据的类型,对所述目标文本数据进行处理,包括:
[0016]对所述目标文本数据的进行清洗,过滤所述目标文本数据中的无效文本数据。
[0017]优选地,所述基于所述目标文本数据的类型,对所述目标文本数据进行处理,包括:
[0018]将所述目标文本数据的繁体文本数据转换为中文简体文本。
[0019]优选地,所述对处理后的所述目标文本数据进行分词处理,包括:
[0020]基于注意力机制优化双向LSTM分词算法对所述目标文本数据做分词处理。
[0021]优选地,所述提取不同时间周期内的所述目标文本数据中的关键词,包括:
[0022]基于自定义阈值的停用词字典提取不同时间周期内的所述目标文本数据中的关键词。
[0023]优选地,所述基于不同时间周期的时间维度,对所述目标事件的关键词进行可视化展示,其中展示方式包括:饼状图,热力图,柱状图。
[0024]基于本专利技术的另一方面,本专利技术提供一种基于社交话题的对目标事件进行分析的系统,所述系统包括:
[0025]初始单元,用于确定社交话题中的目标事件,并提取所述目标事件的初始关键词;
[0026]识别单元,用于按预定的时间周期识别与所述初始关键词相关联的目标文本数据;
[0027]处理单元,用于基于所述目标文本数据的类型,对所述目标文本数据进行处理;对处理后的所述目标文本数据进行分词处理,提取不同时间周期内的所述目标文本数据中的关键词;
[0028]结果单元,用于基于不同时间周期的时间维度,通过所述目标事件的关键词对目标事件的发展进行可视化展示。
[0029]优选地,所述初始单元,还用于通过Python爬取算法按预定的时间周期识别与所述初始关键词相关联的目标文本数据,并将所述目标文本数据存储至数据库中。
[0030]优选地,所述处理单元用于基于所述目标文本数据的类型,对所述目标文本数据进行处理,还用于:
[0031]确定所述目标文本数据的数据格式;
[0032]根据每个目标文本数据的数据格式对样本文本进行内容解析,从而获得每个目标文本数据的正文内容。
[0033]优选地,所述处理单元用于基于所述目标文本数据的类型,对所述目标文本数据进行处理,还用于:
[0034]对所述目标文本数据的进行清洗,过滤所述目标文本数据中的无效文本数据。
[0035]优选地,所述处理单元用于基于所述目标文本数据的类型,对所述目标文本数据进行处理,还用于:
[0036]将所述目标文本数据的繁体文本数据转换为中文简体文本。
[0037]优选地,所述处理单元用于对处理后的所述目标文本数据进行分词处理,还用于:
[0038]基于注意力机制优化双向LSTM分词算法对所述目标文本数据做分词处理。
[0039]优选地,所述处理单元用于提取不同时间周期内的所述目标文本数据中的关键词,还用于:
[0040]基于自定义阈值的停用词字典提取不同时间周期内的所述目标文本数据中的关键词。
[0041]优选地,所述结果单元用于基于不同时间周期的时间维度,对所述目标事件的关键词进行可视化展示,其中展示方式包括:饼状图,热力图,柱状图。
[0042]本专利技术技术方案提供一种基于社交话题的对目标事件进行分析的方法及系统,其中方法包括:确定社交话题中的目标事件,并提取目标事件的初始关键词;按预定的时间周期识别与初始关键词相关联的目标文本数据;基于目标文本数据的类型,对目标文本数据进行处理;对处理后的目标文本数据进行分词处理,提取不同时间周期内的目标文本数据中的关键词;基于不同时间周期的时间维度,通过目标事件的关键词对目标事件的发展进行可视化展示。本专利技术技术方案的目标是实现社交话题的热点事件自动化分析,热点事件发现方法设计自定义阈值的停用词字典,可以灵活的控制过滤粒度,同时采用注意力机制优化的双向LSTM分词技术,可以精确地对数据进行切分和识别。本专利技术技术方案从爬取数据到可视化分析结果的全自动化分析系统,相对比传统的热点事件检测系统,将整个流程全部自动化处理,更加便捷高效,通过交互式页面的操作方式,提高信息获取的效率。
附图说明
[0043]通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于社交话题的对目标事件进行分析的方法,所述方法包括:确定社交话题中的目标事件,并提取所述目标事件的初始关键词;按预定的时间周期识别与所述初始关键词相关联的目标文本数据;基于所述目标文本数据的类型,对所述目标文本数据进行处理;对处理后的所述目标文本数据进行分词处理,提取不同时间周期内的所述目标文本数据中的关键词;基于不同时间周期的时间维度,通过所述目标事件的关键词对目标事件的发展进行可视化展示。2.根据权利要求1所述的方法,通过Python爬取算法按预定的时间周期识别与所述初始关键词相关联的目标文本数据,并将所述目标文本数据存储至数据库中。3.根据权利要求1所述的方法,所述基于所述目标文本数据的类型,对所述目标文本数据进行处理,包括:确定所述目标文本数据的数据格式;根据每个目标文本数据的数据格式对样本文本进行内容解析,从而获得每个目标文本数据的正文内容。4.根据权利要求1所述的方法,所述基于所述目标文本数据的类型,对所述目标文本数据进行处理,包括:对所述目标文本数据的进行清洗,过滤所述目标文本数据中的无效文本数据。5.根据权利要求1所述的方法,所述基于所述目标文本数据的类型,对所述目标文本数据进行处理,包括:将所述目标文本数据的繁体文本数据转换为中文简体文本。6.根据权利要求1所述的方法,所述对处理后的所述目标文本数据进行分词处理,包括:基于注意力机制优化双向LSTM分词算法对所述目标文本数据做分词处理。7.根据权利要求1所述的方法,所述提取不同时间周期内的所述目标文本数据中的关键词,包括:基于自定义阈值的停用词字典提取不同时间周期内的所述目标文本数据中的关键词。8.根据权利要求1所述的方法,所述基于不同时间周期的时间维度,对所述目标事件的关键词进行可视化展示,其中展示方式包括:饼状图,热力图,柱状图。9.一种基于社交话题的对目标事件进行分析的系统,所述系统包括:初始单元,用于确定社交话题中的目标事件...

【专利技术属性】
技术研发人员:赵菁淳董亮亮周珅珅梁宵
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1