一种基于社交网络平台的舆情分析方法及系统技术方案

技术编号:15289807 阅读:133 留言:0更新日期:2017-05-10 16:52
本发明专利技术公开了社交网络舆情分析技术领域的一种基于社交网络平台的舆情分析方法及系统,所述该基于社交网络平台的舆情分析方法,具体步骤如下:S1:统计分析用户的搜索词及搜索频率,获得数据集;S2:过滤掉重复的内容;S3:进行聚类后将每类数据合为一个文档集合;S4:得到相关热度的舆情结果;一种基于社交网络平台的舆情分析系统,所述该基于社交网络平台的舆情分析系统包括信息采集层、调度层、舆情分析单元、舆情数据存储和舆情信息服务,本发明专利技术能够准确有效的分析出数据集的热点话题,减少噪声数据的采集,不但对部分数据集做出精确分析,而且通过聚类后的文档集合能够涵盖对个数据集的集中分析。

Public opinion analysis method and system based on social network platform

The invention discloses a social network public opinion analysis technology and system of public opinion analysis methods of social network platform based on the social public opinion analysis method based on the network platform, the specific steps are as follows: S1: statistical analysis of search terms and search frequency of users, to obtain data sets; S2: filter out duplicate content S3: after clustering; each type of data into a document collection; S4: public opinion related results of heat; a kind of social public opinion analysis system based on the network platform, the system includes information collection layer and scheduling layer, the analysis of public opinion, public opinion and public opinion data storage unit social network public opinion information service based on the analysis of the platform, the invention can effectively analyze the hot topics of data set, reduce the noise of data acquisition, not only on the part of the data set to make accurate analysis And the clustering of documents can be used to collect the data sets.

【技术实现步骤摘要】

本专利技术涉及社交网络舆情分析
,具体为一种基于社交网络平台的舆情分析方法及系统
技术介绍
相比于传统媒体,互联网因其发展的迅速和使用的便利性,已逐步成为了反应社情民意最活跃、最快捷和最直接的渠道,对社会产生的影响力也越来越大,近年来也引起了国家相关部门和学术界的研究。在信息的传播过程中,民众基于互联网发表、转发和评论的舆情信息相互作用,相互影响。由于互联网具有不受时空限制的特性,使得即便是相距甚远的网民也能有高频率的交互。互联网的开放性也使用户的行为不受限制,在某些特性环境的诱导下,网民间的情绪或行为会互相引导,互相感染,最终掀起舆论风暴。互联网舆情的发展往往伴随着舆情话题的产生和民众对舆情话题发表意见这两种行为。随着一个舆情话题的产生,到在网络中传播,民众对其的交流与讨论有可能将舆情话题意见往逐渐统一的趋势发展。与此同时,舆情话题会在短时间内大范围的扩散和快速的传播,其中一些负面信息也随着大范围传播,在进行舆情走势分析时,往往比较关注网民的言论而忽视有对少人持此意见,往往重视解读文字的内容而忽视网民的社会关系网络,为此,我们提出了一种基于社交网络平台的舆情分析方法及系统投入使用,以解决上述问题。
技术实现思路
本专利技术的目的在于提供一种基于社交网络平台的舆情分析方法及系统,以解决上述
技术介绍
中提出的舆情话题会在短时间内大范围的扩散和快速的传播的同时其中一些负面信息也随着大范围传播,在进行舆情走势分析时,往往比较关注网民的言论而忽视有对少人持此意见,往往重视解读文字的内容而忽视网民的社会关系网络的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于社交网络平台的舆情分析方法,所述该基于社交网络平台的舆情分析方法,具体步骤如下:S1:通过搜索引擎后台的搜索日志,记录网民IP地址、搜索时间、搜索词和被点击的结果网页URL地址数据,通过统计分析用户的搜索词及搜索频率,获得数据集;S2:对步骤S1中获取的数据集中的自然语义文本处理为计算机可处理的结构化数据,并过滤掉重复的内容;S3:经过预处理后的数据实施基于词向量的聚类分析,采用优化后的均值聚类,进行聚类后将每类数据合为一个文档集合;S4:依据步骤S3中的文档集合,抽取其中出现频率较高的搜索词和被点击的结果网页URL地址数据信息,得到相关热度的舆情结果。优选的,所述步骤S2中,对数据集的处理方法为:S21:过滤具有针对性的对话互动信息,尽可能的消除噪声数据;S22:将数据集中的内嵌外部链接URL中的信息抽取并添加到社交平台信息中;S23:去除数据集中的分词、停用词和非法字符,初步得到干扰度较少的数据集信息。一种基于社交网络平台的舆情分析系统,所述该基于社交网络平台的舆情分析系统包括信息采集层、调度层、舆情分析单元、舆情数据存储和舆情信息服务。优选的,所述信息采集层对互联网信息中的论坛、新闻、网页、博客、贴吧和社区的信息进行实时的监测和采集。优选的,所述调度层实现采集任务的下发和采集数据的去重,采集的范围和频率参数通过采集任务调度进行配置。优选的,所述舆情分析单元对采集的信息内容进行关键热词、趋势分析、舆情管理、负面信息、专题检测、连接分析、热点发现、文本聚类和情感分析。优选的,所述舆情数据存储内置存储器,在存储器中可存储网页快照和附件存储。优选的,所述舆情信息服务具有舆情预警和舆情简报功能,并提供专题服务。优选的,所述舆情预警设定了在指定时间内实例的负面信息达到相应数目的预警等级,具有对预警条件增删改查功能,并能够根据预警条件鉴定各实例的预警等级,舆情简报以简报的形式呈现每日每周重点舆情,且简报有多种设计格式供选择和编辑。与现有技术相比,本专利技术的有益效果是:本专利技术能够准确有效的分析出数据集的热点话题,减少噪声数据的采集,不但对部分数据集做出精确分析,而且通过聚类后的文档集合能够涵盖对个数据集的集中分析。附图说明图1为本专利技术原理框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种基于社交网络平台的舆情分析方法,所述该基于社交网络平台的舆情分析方法,具体步骤如下:S1:通过搜索引擎后台的搜索日志,记录网民IP地址、搜索时间、搜索词和被点击的结果网页URL地址数据,通过统计分析用户的搜索词及搜索频率,获得数据集;S2:对步骤S1中获取的数据集中的自然语义文本处理为计算机可处理的结构化数据,并过滤掉重复的内容,对数据集的处理方法为:S21:过滤具有针对性的对话互动信息,尽可能的消除噪声数据;S22:将数据集中的内嵌外部链接URL中的信息抽取并添加到社交平台信息中;S23:去除数据集中的分词、停用词和非法字符,初步得到干扰度较少的数据集信息;S3:经过预处理后的数据实施基于词向量的聚类分析,采用优化后的均值聚类,进行聚类后将每类数据合为一个文档集合;S4:依据步骤S3中的文档集合,抽取其中出现频率较高的搜索词和被点击的结果网页URL地址数据信息,得到相关热度的舆情结果。一种基于社交网络平台的舆情分析系统,所述该基于社交网络平台的舆情分析系统包括信息采集层、调度层、舆情分析单元、舆情数据存储和舆情信息服务,所述信息采集层对互联网信息中的论坛、新闻、网页、博客、贴吧和社区的信息进行实时的监测和采集,所述调度层实现采集任务的下发和采集数据的去重,采集的范围和频率参数通过采集任务调度进行配置,所述舆情分析单元对采集的信息内容进行关键热词、趋势分析、舆情管理、负面信息、专题检测、连接分析、热点发现、文本聚类和情感分析,所述舆情数据存储内置存储器,在存储器中可存储网页快照和附件存储,所述舆情信息服务具有舆情预警和舆情简报功能,并提供专题服务,所述舆情预警设定了在指定时间内实例的负面信息达到相应数目的预警等级,具有对预警条件增删改查功能,并能够根据预警条件鉴定各实例的预警等级,舆情简报以简报的形式呈现每日每周重点舆情,且简报有多种设计格式供选择和编辑。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...
一种基于社交网络平台的舆情分析方法及系统

【技术保护点】
一种基于社交网络平台的舆情分析方法,其特征在于:所述该基于社交网络平台的舆情分析方法,具体步骤如下:S1:通过搜索引擎后台的搜索日志,记录网民IP地址、搜索时间、搜索词和被点击的结果网页URL地址数据,通过统计分析用户的搜索词及搜索频率,获得数据集;S2:对步骤S1中获取的数据集中的自然语义文本处理为计算机可处理的结构化数据,并过滤掉重复的内容;S3:经过预处理后的数据实施基于词向量的聚类分析,采用优化后的均值聚类,进行聚类后将每类数据合为一个文档集合;S4:依据步骤S3中的文档集合,抽取其中出现频率较高的搜索词和被点击的结果网页URL地址数据信息,得到相关热度的舆情结果。

【技术特征摘要】
1.一种基于社交网络平台的舆情分析方法,其特征在于:所述该基于社交网络平台的舆情分析方法,具体步骤如下:S1:通过搜索引擎后台的搜索日志,记录网民IP地址、搜索时间、搜索词和被点击的结果网页URL地址数据,通过统计分析用户的搜索词及搜索频率,获得数据集;S2:对步骤S1中获取的数据集中的自然语义文本处理为计算机可处理的结构化数据,并过滤掉重复的内容;S3:经过预处理后的数据实施基于词向量的聚类分析,采用优化后的均值聚类,进行聚类后将每类数据合为一个文档集合;S4:依据步骤S3中的文档集合,抽取其中出现频率较高的搜索词和被点击的结果网页URL地址数据信息,得到相关热度的舆情结果。2.根据权利要求1所述的一种基于社交网络平台的舆情分析方法,其特征在于:所述步骤S2中,对数据集的处理方法为:S21:过滤具有针对性的对话互动信息,尽可能的消除噪声数据;S22:将数据集中的内嵌外部链接URL中的信息抽取并添加到社交平台信息中;S23:去除数据集中的分词、停用词和非法字符,初步得到干扰度较少的数据集信息。3.一种基于社交网络平台的舆情分析系统,其特征在于:所述该基于社交网络平台的舆情分析系统包括信息采集层、调度层、舆情分析单元、舆情数据存储和舆情信息服务。4.根据...

【专利技术属性】
技术研发人员:樊秋红魏群山艳许广利刘丽
申请(专利权)人:华北理工大学
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1