一种基于自然语义的舆情相关度匹配方法组成比例

技术编号:20944462 阅读:21 留言:0更新日期:2019-04-24 02:23
本发明专利技术提供了一种基于自然语义的舆情相关度匹配方法,所述方法包括:通过大数据分析建立情感词与事件类型关系的数据库;利用爬虫对网络信息进行抓取,对文本进行聚类分析并进行分词处理,获得相应短文本,收集短文本中的情感词并与上述所得数据库进行匹配,并获得网络信息中的舆情情感倾向指向的事件类型。本发明专利技术基于自然语义算法能准确获得网络信息中指向的事件类型,并及时获得公众的舆情情感导向,为社会管理者和公众提供舆情参考。

A Matching Method of Public Opinion Relevance Based on Natural Semantics

The invention provides a public opinion correlation degree matching method based on natural semantics, which includes: establishing a database of the relationship between emotional words and event types through large data analysis; capturing network information by using crawlers, clustering analysis and word segmentation of text, obtaining corresponding short text, collecting emotional words in short text and carrying out with the database obtained above. Match and get the event type that the public sentiment tendency in the network information points to. The invention is based on natural semantics algorithm, which can accurately obtain the event type pointed in the network information, and timely obtain the public sentiment guidance, and provide public opinion reference for social managers and the public.

【技术实现步骤摘要】
一种基于自然语义的舆情相关度匹配方法
本专利技术涉及一种基于自然语义的舆情相关度匹配方法。
技术介绍
自然语义处理是使机器能够和人一样,对语言进行处理、研究、理解甚至进行反馈,它涉及很多学科知识领域,是一门交叉边缘学科。自然语义处理经历了几十年的研究,一度被认为是不可能实现的任务,到现在可以步入人们的生活。从盲目乐观到脚踏实地,从实验玩具到理论研究,是自然语义理解研究的发展道路。虽然仍然不很成熟,但从上世纪八九十年代启,随着计算机技术的高速迅猛发展,运算速度和准确性的提高,自然语义处理进入了崭新的阶段。曾经的单纯理论探讨已经可以应用。自然语义处理的一系列产品也都逐步走入人们的生活,从几乎每个人都实际接触过的在线翻译,到浏览网络信息时需要的信息检索,以及移动端设备的语音输入、语音识别等等。目前,由于舆情来源和信息日益复杂,因此,能否准确的分析舆情,是社会管理者和公众关注的问题。
技术实现思路
本专利技术的目的在于提供一种基于自然语义的舆情相关度匹配方法,所述方法包括:通过大数据分析建立情感词与事件类型关系的数据库;利用爬虫对网络信息进行抓取,对文本进行聚类分析并进行分词处理,获得相应短文本,收集短文本中的情感词并与上述所得数据库进行匹配,并获得网络信息中的舆情情感倾向指向的事件类型。在获得相应短文本时,对短文本中的前后缀、停词和拼音进行过滤。建立情感词时,结合《学生褒贬词典》和网络流行语百度百科解释进行。所述网络信息包括论坛文贴、微博信息、微信文章、QQ空间信息。本专利技术的有益效果:本专利技术基于自然语义算法能准确获得网络信息中指向的事件类型,并及时获得公众的舆情情感导向,为社会管理者和公众提供舆情参考。具体实施方式下面通过实施例对本专利技术进行具体描述,有必要在此指出的是以下实施例只是用于对本专利技术进行进一步的说明,不能理解为对本专利技术保护范围的限制,该领域的技术熟练人员根据上述
技术实现思路
所做出的一些非本质的改进和调整,仍属于本专利技术的保护范围。实施例1通过大数据分析建立情感词与事件类型关系的数据库;利用爬虫对网络信息进行抓取,对文本进行聚类分析并进行分词处理,获得相应短文本,收集短文本中的情感词并与上述所得数据库进行匹配,并获得网络信息中的舆情情感倾向指向的事件类型。在获得相应短文本时,对短文本中的前后缀、停词和拼音进行过滤。建立情感词时,结合《学生褒贬词典》和网络流行语百度百科解释进行。所述网络信息包括论坛文贴、微博信息、微信文章、QQ空间信息。本文档来自技高网
...

【技术保护点】
1.一种基于自然语义的舆情相关度匹配方法,其特征在于,所述方法包括:通过大数据分析建立情感词与事件类型关系的数据库;利用爬虫对网络信息进行抓取,对文本进行聚类分析并进行分词处理,获得相应短文本,收集短文本中的情感词并与上述所得数据库进行匹配,并获得网络信息中的舆情情感倾向指向的事件类型。

【技术特征摘要】
1.一种基于自然语义的舆情相关度匹配方法,其特征在于,所述方法包括:通过大数据分析建立情感词与事件类型关系的数据库;利用爬虫对网络信息进行抓取,对文本进行聚类分析并进行分词处理,获得相应短文本,收集短文本中的情感词并与上述所得数据库进行匹配,并获得网络信息中的舆情情感倾向指向的事件类型。2.根据权...

【专利技术属性】
技术研发人员:王俊翔王莉婕罗文姚叶琛王勇
申请(专利权)人:成都电科成研企业管理有限公司
类型:发明
国别省市:四川,51

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1