基于自然语言的舆情追踪方法及装置制造方法及图纸

技术编号：38388539 阅读：11 留言：0更新日期：2023-08-05 17:42

本发明专利技术提供了一种基于自然语言的舆情追踪方法及装置，根据目标主题获取包括多个舆情样本的原始互联网舆情；基于预先建立的目标主题对应的标签库以及每个舆情样本的标题和内容，获取每个舆情样本的标签列表；基于标签库和目标主题对应的关键词对每个舆情样本的标签列表进行分类，得到与目标主题关联的第一类样本；基于标签库为每个第一类样本标注相应的关键信息标签，并获取每个第一类样本的事件发生时间；按照关键信息标签和事件发生时间将全部第一类样本聚合成一个或多个舆情集合，并对每个舆情集合进行舆情追踪。采用本发明专利技术可以缓解现有舆情处理方式中存在的关键信息丢失、处理较复杂的问题。理较复杂的问题。理较复杂的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言的舆情追踪方法及装置

[0001]本专利技术涉及自然语言处理
，尤其是涉及一种基于自然语言的舆情追踪方法及装置。

技术介绍

[0002]随着互联网技术的不断发展，现如今互联网信息交互流通庞大、互联网信息更新速度快，想要及时掌握行业舆情动态以及事件在互联网中的发酵程度和关注度，舆情的追踪显得尤为重要。为了实时监测行业舆情，尤其是在事件发生后需要将互联网上关于事件的报道及时反馈给相关部门，现有舆情处理方式主要涉及高频词的TF
‑
IDF、Kmeans、LRC等算法的处理。虽然通过这些算法可以较好的提取出舆情中的高频词，但是针对单篇舆情仅根据高频词判定舆情关键信息可能会丢失一些重点词，从而导致在后续舆情分析时丢失更多的关键信息。

技术实现思路

[0003]有鉴于此，本专利技术的目的在于提供一种基于自然语言的舆情追踪方法及装置，以缓解现有舆情处理方式中存在的关键信息丢失、处理较复杂的问题。
[0004]第一方面，本专利技术实施例提供了一种基于自然语言的舆情追踪方法，所述方法包括：根据目标主题获取原始互联网舆情；其中，所述原始互联网舆情包括多个舆情样本；基于预先建立的所述目标主题对应的标签库以及每个舆情样本的标题和内容，获取每个舆情样本的标签列表；基于所述标签库和所述目标主题对应的关键词对每个舆情样本的标签列表进行分类，得到与所述目标主题关联的第一类样本；基于所述标签库为每个第一类样本标注相应的关键信息标签，并获取每个第一类样本的事件发生时间；按照关键信息标签和事件发生...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言的舆情追踪方法，其特征在于，所述方法包括：根据目标主题获取原始互联网舆情；其中，所述原始互联网舆情包括多个舆情样本；基于预先建立的所述目标主题对应的标签库以及每个舆情样本的标题和内容，获取每个舆情样本的标签列表；基于所述标签库和所述目标主题对应的关键词对每个舆情样本的标签列表进行分类，得到与所述目标主题关联的第一类样本；基于所述标签库为每个第一类样本标注相应的关键信息标签，并获取每个第一类样本的事件发生时间；按照关键信息标签和事件发生时间将全部第一类样本聚合成一个或多个舆情集合，并对每个舆情集合进行舆情追踪。2.根据权利要求1所述的方法，其特征在于，所述标签库包括多个第一标签，每个所述第一标签具有各自的标签属性；所述方法还包括：对于每个第一类样本，基于该第一类样本对应第一标签的标签属性为该第一类样本标注相应的第二标签。3.根据权利要求2所述的方法，其特征在于，所述第一标签包括表征目标主题对应的实体归属信息、人员状况信息以及事件类型信息。4.根据权利要求2所述的方法，其特征在于，基于预先建立的所述目标主题对应的标签库以及每个舆情样本的标题和内容，获取每个舆情样本的标签列表的步骤包括：对每个舆情样本的标题和内容进行切词，得到相应的切词结果；基于每个舆情样本对应的切词结果，查询所述标签库以获取每个舆情样本的标签；其中，不同的标签对应不同的第一标签；对每个舆情样本的标签进行去重，并将去重后的标签组成相应的标签列表。5.根据权利要求1所述的方法，其特征在于，获取每个第一类样本的事件发生时间的步骤包括：基于预先定义的事件中心词和正则表达式，通过正则匹配的方式提取出每个第一类样本的事件发生时间。6.根据权利要求1或2所述的方法，其特征在于，对每个舆情集合进行舆情追踪的步骤包括：从每个舆情集合中筛选出具有同一关键信息标签的第一舆情样本；根据发布时间和具有关键信息标签的数量对每个舆情集合中的第一...

【专利技术属性】
技术研发人员：李鑫，李锦涛，高敏敏，潘涛，
申请(专利权)人：精英数智科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人