基于自然语言的舆情追踪方法及装置制造方法及图纸

技术编号:38388539 阅读:11 留言:0更新日期:2023-08-05 17:42
本发明专利技术提供了一种基于自然语言的舆情追踪方法及装置,根据目标主题获取包括多个舆情样本的原始互联网舆情;基于预先建立的目标主题对应的标签库以及每个舆情样本的标题和内容,获取每个舆情样本的标签列表;基于标签库和目标主题对应的关键词对每个舆情样本的标签列表进行分类,得到与目标主题关联的第一类样本;基于标签库为每个第一类样本标注相应的关键信息标签,并获取每个第一类样本的事件发生时间;按照关键信息标签和事件发生时间将全部第一类样本聚合成一个或多个舆情集合,并对每个舆情集合进行舆情追踪。采用本发明专利技术可以缓解现有舆情处理方式中存在的关键信息丢失、处理较复杂的问题。理较复杂的问题。理较复杂的问题。

【技术实现步骤摘要】
基于自然语言的舆情追踪方法及装置


[0001]本专利技术涉及自然语言处理
,尤其是涉及一种基于自然语言的舆情追踪方法及装置。

技术介绍

[0002]随着互联网技术的不断发展,现如今互联网信息交互流通庞大、互联网信息更新速度快,想要及时掌握行业舆情动态以及事件在互联网中的发酵程度和关注度,舆情的追踪显得尤为重要。为了实时监测行业舆情,尤其是在事件发生后需要将互联网上关于事件的报道及时反馈给相关部门,现有舆情处理方式主要涉及高频词的TF

IDF、Kmeans、LRC等算法的处理。虽然通过这些算法可以较好的提取出舆情中的高频词,但是针对单篇舆情仅根据高频词判定舆情关键信息可能会丢失一些重点词,从而导致在后续舆情分析时丢失更多的关键信息。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种基于自然语言的舆情追踪方法及装置,以缓解现有舆情处理方式中存在的关键信息丢失、处理较复杂的问题。
[0004]第一方面,本专利技术实施例提供了一种基于自然语言的舆情追踪方法,所述方法包括:根据目标主题获取原始互联网舆情;其中,所述原始互联网舆情包括多个舆情样本;基于预先建立的所述目标主题对应的标签库以及每个舆情样本的标题和内容,获取每个舆情样本的标签列表;基于所述标签库和所述目标主题对应的关键词对每个舆情样本的标签列表进行分类,得到与所述目标主题关联的第一类样本;基于所述标签库为每个第一类样本标注相应的关键信息标签,并获取每个第一类样本的事件发生时间;按照关键信息标签和事件发生时间将全部第一类样本聚合成一个或多个舆情集合,并对每个舆情集合进行舆情追踪。
[0005]第二方面,本专利技术实施例还提供一种基于自然语言的舆情追踪装置,所述装置包括:第一获取模块,用于根据目标主题获取原始互联网舆情;其中,所述原始互联网舆情包括多个舆情样本;第二获取模块,用于基于预先建立的所述目标主题对应的标签库以及每个舆情样本的标题和内容,获取每个舆情样本的标签列表;分类模块,用于基于所述标签库和所述目标主题对应的关键词对每个舆情样本的标签列表进行分类,得到与所述目标主题关联的第一类样本;第一处理模块,用于基于所述标签库为每个第一类样本标注相应的关键信息标签,并获取每个第一类样本的事件发生时间;第二处理模块,用于按照关键信息标签和事件发生时间将全部第一类样本聚合成一个或多个舆情集合,并对每个舆情集合进行舆情追踪。
[0006]本专利技术实施例提供的一种基于自然语言的舆情追踪方法及装置,根据目标主题获取包括多个舆情样本的原始互联网舆情;基于预先建立的目标主题对应的标签库以及每个舆情样本的标题和内容,获取每个舆情样本的标签列表;基于标签库和目标主题对应的关
键词对每个舆情样本的标签列表进行分类,得到与目标主题关联的第一类样本;基于标签库为每个第一类样本标注相应的关键信息标签,并获取每个第一类样本的事件发生时间;按照关键信息标签和事件发生时间将全部第一类样本聚合成一个或多个舆情集合,并对每个舆情集合进行舆情追踪。采用上述技术,针对单个舆情样本可以比较全面、准确地提取出关键信息,且操作方式简单、计算速度快,可以便于相关人员根据舆情追踪结果及时做出响应。
[0007]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0008]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0009]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1为本专利技术实施例中一种基于自然语言的舆情追踪方法的流程示意图;
[0011]图2为本专利技术实施例中一种基于自然语言的舆情追踪方法的流程示例图;
[0012]图3为本专利技术实施例中某舆情事件的FP树示例图;
[0013]图4为本专利技术实施例中一种基于自然语言的舆情追踪装置的结构示意图。
具体实施方式
[0014]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0015]随着互联网技术的不断发展,现如今互联网信息交互流通庞大、互联网信息更新速度快,想要及时掌握行业舆情动态以及事件在互联网中的发酵程度和关注度,舆情的追踪显得尤为重要。为了实时监测行业的舆情,尤其是在事件发生后需要将互联网上关于事件的报道及时反馈给相关部门,现有舆情处理方式主要涉及高频词的TF

IDF、Kmeans、LRC等算法的处理。虽然通过这些算法可以较好的提取出舆情中的高频词,但是针对单篇舆情仅根据高频词判定舆情关键信息可能会丢失一些重点词,从而导致在后续舆情分析时丢失更多的关键信息。
[0016]基于此,本专利技术实施提供的一种基于自然语言的舆情追踪方法及装置,可以缓解现有舆情处理方式中存在的关键信息丢失、处理较复杂的问题。
[0017]为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种基于自然语言的舆情追踪方法进行详细介绍,参见图1所示,该方法可以包括以下步骤:
[0018]步骤S102,根据目标主题获取原始互联网舆情。
[0019]上述原始互联网舆情可利用爬虫技术从互联网中爬取。上述原始互联网舆情可以包括多个舆情样本,每个舆情样本可以包含相应的标题、内容、发布时间、发布者、发布来源等。
[0020]步骤S104,基于预先建立的目标主题对应的标签库以及每个舆情样本的标题和内容,获取每个舆情样本的标签列表。
[0021]步骤S106,基于标签库和目标主题对应的关键词对每个舆情样本的标签列表进行分类,得到与目标主题关联的第一类样本。
[0022]步骤S108,基于标签库为每个第一类样本标注相应的关键信息标签,并获取每个第一类样本的事件发生时间。
[0023]上述关键信息具体可以为企业名称、企业所在地区、事件发生地点、事件类型、部门、职务等,对此不进行限定。对于与目标主题关联的第一类样本,需要对这类样本打关键信息标签,这些关键信息标签分别从标签库所包含的不同词(即第一标签)中筛选得到,例如:企业名称标签可从标签库所包含的集团名称中筛选得到,企业所在地区标签可从标签库所包含的省市县名称中筛选得到,事件发生地点可从标签库所包含的地点中筛选得到,事件类型标签可从标签库所包含的事件类型(例如:事故通报、事故概述、事故救援等)中筛本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言的舆情追踪方法,其特征在于,所述方法包括:根据目标主题获取原始互联网舆情;其中,所述原始互联网舆情包括多个舆情样本;基于预先建立的所述目标主题对应的标签库以及每个舆情样本的标题和内容,获取每个舆情样本的标签列表;基于所述标签库和所述目标主题对应的关键词对每个舆情样本的标签列表进行分类,得到与所述目标主题关联的第一类样本;基于所述标签库为每个第一类样本标注相应的关键信息标签,并获取每个第一类样本的事件发生时间;按照关键信息标签和事件发生时间将全部第一类样本聚合成一个或多个舆情集合,并对每个舆情集合进行舆情追踪。2.根据权利要求1所述的方法,其特征在于,所述标签库包括多个第一标签,每个所述第一标签具有各自的标签属性;所述方法还包括:对于每个第一类样本,基于该第一类样本对应第一标签的标签属性为该第一类样本标注相应的第二标签。3.根据权利要求2所述的方法,其特征在于,所述第一标签包括表征目标主题对应的实体归属信息、人员状况信息以及事件类型信息。4.根据权利要求2所述的方法,其特征在于,基于预先建立的所述目标主题对应的标签库以及每个舆情样本的标题和内容,获取每个舆情样本的标签列表的步骤包括:对每个舆情样本的标题和内容进行切词,得到相应的切词结果;基于每个舆情样本对应的切词结果,查询所述标签库以获取每个舆情样本的标签;其中,不同的标签对应不同的第一标签;对每个舆情样本的标签进行去重,并将去重后的标签组成相应的标签列表。5.根据权利要求1所述的方法,其特征在于,获取每个第一类样本的事件发生时间的步骤包括:基于预先定义的事件中心词和正则表达式,通过正则匹配的方式提取出每个第一类样本的事件发生时间。6.根据权利要求1或2所述的方法,其特征在于,对每个舆情集合进行舆情追踪的步骤包括:从每个舆情集合中筛选出具有同一关键信息标签的第一舆情样本;根据发布时间和具有关键信息标签的数量对每个舆情集合中的第一...

【专利技术属性】
技术研发人员:李鑫李锦涛高敏敏潘涛
申请(专利权)人:精英数智科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1