一种基于网络大数据的舆情监控方法技术

技术编号:13771727 阅读:94 留言:0更新日期:2016-09-29 17:08
本发明专利技术公开了一种基于网络大数据的舆情监控方法,包括以下步骤:S1、获取主题,并根据主题进行网络检索获取主题相关信息;S2、对各主题相关信息进行语义分析,并根据语义对主题相关信息进行聚类,获得多个信息类;S3、获取各信息类中包含的主题相关信息的来源网站的网信值,并计算网信值之和作为信息类的类信权值;S4、获取类信权值最大的信息类作为最倾向信息类,并选取最倾向信息类中对应的网信值最大的主题相关信息作为最倾向主题信息;S5、输出最倾向主题信息。本发明专利技术中,对信息类的处理相当于对表达语义相似的主题相关信息进行集中处理,即保证了信息处理的精确性,又保证了信息处理的效率。

【技术实现步骤摘要】

本专利技术涉及舆情监控
,尤其涉及一种基于网络大数据的舆情监控方法
技术介绍
近年来,互联网发展迅速,作为继电视、广播、报纸之外的第四媒体,已经成为反映社会舆情的一个重要载体。另一方面,由于网络的开放性和虚拟性,网上舆情已经越来越复杂,对现实生活的影响与日俱增,一些重大的网络舆情事件往往对社会产生较大的影响力。舆情监测的目的,即为准确有效地掌握网络舆情现状,加强对网络舆情的及时监测和跟踪,以便准确快速地发现互联网上的各类舆情,产生舆论导向并积极化解舆论危机,对促进社会和企业的健康发展具有重要的现实意义。对政府部门、公众媒体和大型企业来说,如何加强对网络舆情的及时监测,以及时采取措施进行有效应对,成为网络舆情管理的一大难点。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了一种基于网络大数据的舆情监控方法。本专利技术提出的一种基于网络大数据的舆情监控方法,包括以下步骤:S1、获取主题,并根据主题进行网络检索获取主题相关信息;S2、对各主题相关信息进行语义分析,并根据语义对主题相关信息进行聚类,获得多个信息类;S3、获取各信息类中包含的主题相关信息的来源网站的网信值,并计算网
信值之和作为信息类的类信权值;S4、获取类信权值最大的信息类作为最倾向信息类,并选取最倾向信息类中对应的网信值最大的主题相关信息作为最倾向主题信息;S5、输出最倾向主题信息。优选地,步骤S2具体为:对各主题相关信息进行语义分析,提取语义,然后计算任意两条主题相关信息的语义相似度,并将语义相似度大于相似度阈值的主题相关信息归类生成信息类。优选地,步骤S2具体包括以下步骤:S21、对各主题相关信息进行语义分析,提取语义;S22、任选一条主题相关信息作为核心信息,计算核心信息与剩余的各主题相关信息的语义相似度;S23、新建一个信息类,将核心信息以及与核心信息语义相似度大于相似度阈值的主题相关信息纳入信息类中;S24、从未纳入信息类的主题相关信息中任选一条主题相关信息作为核心信息,计算核心信息与剩余的各主题相关信息的语义相似度;S25、新建一个信息类,将核心信息以及与核心信息语义相似度大于相似度阈值的主题相关信息纳入新的信息类中;S26、重复步骤S24和步骤S25,直至将所有主题相关信息纳入信息类中。优选地,还包括步骤SA、预设网信数据库,网信数据库中存储有已知网信值的网站地址及对应的网信值;步骤S3具体包括以下步骤:S31、依次将各主题相关信息的来源网站网址与网信数据库中存储的网站地址进行匹配;S32、如果来源网站网址存在于网信数据库,则直接调用网信值;S33、如果来源网站网址未存在于网信数据库,则根据来源网站内容计算网信值;S34、计算信息类中包含的主题相关信息对应的网信值之和作为信息类的类信权值。优选地,步骤S33中根据来源网站内容计算网信值的方法为:从带测评网站中获得多条信息,然后对信息真实性进行判断,并根据信息中真实信息所占比例评估网信值。优选地,步骤S5具体为:获得各信息类中对应的网信值最大的主题相关信息作为类代表信息,然后将信息类的类信权值和类代表信息制成测评报告输出,并对最倾向主题信息突出显示。本专利技术提出的一种基于网络大数据的舆情监控方法,通过程序基于网络大数据进行主题检索,有利于保证信息检索的全面性,避免舆情监控中的信息遗漏。本专利技术中,对各主题相关信息进行语义分析,并根据语义对主题相关信息进行聚类,获得多个信息类,即将零散的主题相关信息根据语义相似度转换成一个个信息类。如此,使得对于零散的主题相关信息的分析处理转换成了信息类的分析处理,简化了信息处理工作。且通过计算任意两条主题相关信息的语义相似度,并将语义相似度大于相似度阈值的主题相关信息归类生成信息类,使得信息类中囊括的主题相关信息相似度高,对信息类的处理相当于对表达语义相似的主题相关信息进行集中处理,即保证了信息处理的精确性,又保证了信息处理的效率。本专利技术中,类信权值作为信息类的可信度参考标准,其计算过程中参考了信息类中每一条主题相关信息的可信度,且类信权值的获取对于取值越大的网
信值依赖程度越高,从而保证了类信权值的可靠程度。类信权值的引入,使得各信息类的评估更加具象化。本专利技术中,最倾向主题信息作为舆情监控的结果输出,工作人员通过最倾向主题信息可直观的获知该主题的舆情倾向。附图说明图1为本专利技术提出的一种基于网络大数据的舆情监控方法流程图;图2为本专利技术提出的一种基于网络大数据的舆情监控系统框图。具体实施方式参照图1,本专利技术提出的一种基于网络大数据的舆情监控方法,包括以下步骤。S1、获取主题,并根据主题进行网络检索获取主题相关信息。本实施方式中,主题由工作人员提供,然后通过程序基于网络大数据进行主题检索,有利于保证信息检索的全面性,避免舆情监控中的信息遗漏。S21、对各主题相关信息进行语义分析,提取语义。S22、任选一条主题相关信息作为核心信息,计算核心信息与剩余的各主题相关信息的语义相似度。S23、新建一个信息类,将核心信息以及与核心信息语义相似度大于相似度阈值的主题相关信息纳入信息类中。S24、从未纳入信息类的主题相关信息中任选一条主题相关信息作为核心信息,计算核心信息与剩余的各主题相关信息的语义相似度。S25、新建一个信息类,将核心信息以及与核心信息语义相似度大于相似度阈值的主题相关信息纳入新的信息类中。S26、重复步骤S24和步骤S25,直至将所有主题相关信息纳入信息类中。以下结合一个具体地实施例对步骤S21至S26作出解释。例如,步骤S1中,根据主题获得主题相关信息为A1、A2、A3、A4、A5、A6;步骤S21中,根据A1、A2、A3、A4、A5、A6提取的语义分别为AA1、AA2、AA3、AA4、AA5、AA6;步骤S22中选择A1为核心信息,且AA1与AA2语义相似度大于相似度阈值、AA1与AA3语义相似度大于相似度阈值,则步骤S23中,将A1、A2、A3归类到一个信息类中。将A1、A2、A3聚类后,从剩余的零散信息A4、A5、A6中选择A4为核心信息,并分别计算AA4与AA5的语义相似度和AA4与AA6的语义相似度,假设AA4与AA5的语义相似度和AA4与AA6的语义相似度均小于相似度阈值,则A4自成一个信息类。然后计算AA5和AA6语义相似度,如果AA5和AA6语义相似度大于相似度阈值,则将A5、A6纳入一个信息类。至此,主题相关信息聚类完成。本实施方式中,通过步骤S21至S26,对各主题相关信息进行语义分析,并根据语义对主题相关信息进行聚类,获得多个信息类,即将零散的主题相关信息根据语义相似度转换成一个个信息类。如此,使得对于零散的主题相关信息的分析处理转换成了信息类的分析处理,简化了信息处理工作。且通过计算任意两条主题相关信息的语义相似度,并将语义相似度大于相似度阈值的主题相关信息归类生成信息类,使得信息类中囊括的主题相关信息相似度高,对信息类的处理相当于对表达语义相似的主题相关信息进行集中处理,即保证了信息处理的精确性,又保证了信息处理的效率。SA、预设网信数据库,网信数据库中存储有已知网信值的网站地址及对应的网信值。S31、依次将各主题相关信息的来源网站网址与网信数据库中存储的网站地址进行匹配。S32、如本文档来自技高网
...

【技术保护点】
一种基于网络大数据的舆情监控方法,其特征在于,包括以下步骤:S1、获取主题,并根据主题进行网络检索获取主题相关信息;S2、对各主题相关信息进行语义分析,并根据语义对主题相关信息进行聚类,获得多个信息类;S3、获取各信息类中包含的主题相关信息的来源网站的网信值,并计算网信值之和作为信息类的类信权值;S4、获取类信权值最大的信息类作为最倾向信息类,并选取最倾向信息类中对应的网信值最大的主题相关信息作为最倾向主题信息;S5、输出最倾向主题信息。

【技术特征摘要】
1.一种基于网络大数据的舆情监控方法,其特征在于,包括以下步骤:S1、获取主题,并根据主题进行网络检索获取主题相关信息;S2、对各主题相关信息进行语义分析,并根据语义对主题相关信息进行聚类,获得多个信息类;S3、获取各信息类中包含的主题相关信息的来源网站的网信值,并计算网信值之和作为信息类的类信权值;S4、获取类信权值最大的信息类作为最倾向信息类,并选取最倾向信息类中对应的网信值最大的主题相关信息作为最倾向主题信息;S5、输出最倾向主题信息。2.如权利要求1所述的基于网络大数据的舆情监控方法,其特征在于,步骤S2具体为:对各主题相关信息进行语义分析,提取语义,然后计算任意两条主题相关信息的语义相似度,并将语义相似度大于相似度阈值的主题相关信息归类生成信息类。3.如权利要求2所述的基于网络大数据的舆情监控方法,其特征在于,步骤S2具体包括以下步骤:S21、对各主题相关信息进行语义分析,提取语义;S22、任选一条主题相关信息作为核心信息,计算核心信息与剩余的各主题相关信息的语义相似度;S23、新建一个信息类,将核心信息以及与核心信息语义相似度大于相似度阈值的主题相关信息纳入信息类中;S24、从未纳入信息类的主题相关信息中任选一条主题相关信息作为核心信息,计算核心信息与剩余的各主题相关...

【专利技术属性】
技术研发人员:党连坤石晔
申请(专利权)人:合肥指南针电子科技有限责任公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1