The present invention discloses a public opinion analysis method, system, computer equipment and storage medium for the use of Internet marketing activities to exchange high rewards at low or even zero costs. The public opinion analysis method includes: S101: search and read web pages through a web crawler based on a pre defined search strategy. To extract public opinion data from web pages; S102: filter the extracted public opinion data and remove garbage information; S103: sorting out the public opinion data after filtering; S104: analysis and processing of public opinion data in each classification result; S105: displays and outputs public opinion from S104 by chart and report form. The public opinion analysis system includes a crawler module, a filtering module, a classification module, an analysis module and a display module. The invention improves the accuracy of data collection and the accuracy of public opinion analysis, and can effectively handle risk points as early as possible through active perception of risks.
【技术实现步骤摘要】
舆情分析方法、系统、计算机设备和存储介质
本专利技术涉及信息分析的
,尤其涉及一种针对利用互联网营销活动,以低成本甚至零成本换取高额奖励的行为的舆情分析方法、系统、计算机设备和存储介质。
技术介绍
舆情监控系统又被称作互联网舆情监控系统,是指通过相关的专业舆情软件按照一定的规则和方法将互联网上繁杂的信息当中关注的舆情信息抓取出来,并通过分析过滤等方式加工处理最终呈现出与需求相匹配的舆情信息。近年来,以80后为代表的白领,对搜集各大电子商城、银行、实体店等各渠道的优惠促销活动、免费业务之类的信息产生了浓厚的兴趣。他们有选择地参与活动,从而以相对较低成本甚至零成本换取物质上的实惠。这一行为被称为“薅羊毛”,而关注与热衷于“薅羊毛”的群体就被称作“羊毛党”。随着互联网金融的蓬勃发展,一些网贷平台为吸引投资者常推出一些收益丰厚的活动,如注册认证奖励、充值返现、投标返利,更繁荣了以此寄生的上述群体。例如,一个活动,一个银行卡可以赚20,假如某人有三个银行卡,一个活动就赚60,如果每天参与3个活动,就是200元左右,而且,90%的活动都是邀请也有奖励的,他们或者邀请朋友,或者邀请自己小号,就能赚取更多。目前业内的舆情分析方法及系统大多实现了四个基本功能,包括互联网信息获取、互联网信息处理、舆情分析和辅助决策,但是面对复杂的互联网情况,存在以下三个方面缺陷:对于人为特殊书写上的评论,如修改同音字、特殊符号干扰,数据的爬取难度大,出现关键信息漏爬和垃圾信息乱爬的情况;由于数据源的收集受到干扰,无法从爬取的现有的局限信息中准确分析出一种动态倾向性;对信息的分析欠缺专业 ...
【技术保护点】
一种舆情分析方法,其特征在于,所述舆情分析方法包括:S101:根据预先定义的搜索策略,通过网络爬虫搜索并读取网页文件,从网页文件中提取舆情数据;S102:对提取的舆情数据进行过滤,去除垃圾信息;S103:对过滤后的舆情数据进行整理分类,分类类型包括来源、强相关和活跃人员所发贴;S104:对每个分类结果中的舆情数据进行分析处理,得到舆情分析结果,包括起源、舆论情感色彩、网络扩散状态、发展趋势、地域分布信息、年龄段范围信息和关注热点;S105:以图表和报告形式显示和输出经过步骤S104得到的所述舆情分析结果。
【技术特征摘要】
1.一种舆情分析方法,其特征在于,所述舆情分析方法包括:S101:根据预先定义的搜索策略,通过网络爬虫搜索并读取网页文件,从网页文件中提取舆情数据;S102:对提取的舆情数据进行过滤,去除垃圾信息;S103:对过滤后的舆情数据进行整理分类,分类类型包括来源、强相关和活跃人员所发贴;S104:对每个分类结果中的舆情数据进行分析处理,得到舆情分析结果,包括起源、舆论情感色彩、网络扩散状态、发展趋势、地域分布信息、年龄段范围信息和关注热点;S105:以图表和报告形式显示和输出经过步骤S104得到的所述舆情分析结果。2.根据权利要求1所述的舆情分析方法,其特征在于,所述舆情数据包括网址、标题、时间、作者、来源、正文、评论、点击率、回复数和转载量。3.根据权利要求1所述的舆情分析方法,其特征在于,所述步骤S102,对提取的舆情数据进行过滤包括:当触发预设条件时,判定所述舆情数据为垃圾信息,并进行过滤,其中,垃圾信息=A||B||C||D,A=中文长度少于4,B=连续英文长度大于15,C=黑名单词语,D=包含符号*&^%$#@。4.根据权利要求1所述的舆情分析方法,其特征在于,所述步骤S104,对每个分类结果中的舆情数据进行分析处理包括:S401:分析爬取来源,得到该舆情数据对应的所述起源;S402:对统计单位时间内的舆情数据进行情感分析,得到所述舆论情感色彩;S403:分析各爬虫来源是否包含该舆情事件,得到该舆情事件的所述网络扩散状态;S404:分析单位时间内关键词出现频率,得到该舆情事件的所述发展趋势;S405分析参与该舆情事件的用户的登录IP和年龄信息,得到发生该舆情事件的所述地域分布信息和所述年龄段范围信息;S406:分析单位时间内词语出现频率,得到所述关注热...
【专利技术属性】
技术研发人员:谢家杰,
申请(专利权)人:上海壹账通金融科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。