【技术实现步骤摘要】
一种互联网大数据分析方法及系统
[0001]本专利技术涉及信息
,具体涉及一种互联网大数据分析方法及系统。
技术介绍
[0002]互联网时代,人们喜欢用自媒体、论坛、网络客服等若干互联网途径表达和反馈自己对各种事物的想法、看法及评价等。而服务单位也非常希望通过互联网数据来分析公众对自身各项服务的评价和意见反馈,从而找到真正贴合用户的管理服务改进措施。于是,互联网舆情系统就诞生了。
[0003]互联网舆情监控系统主要依托搜索引擎技术和文本挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现服务单位对自己相关网络舆情监督管理的需要,最终形成各种舆情报告,为服务单位决策层全面掌握舆情动态,做出引导,提供分析依据。
[0004]舆情数据的获取存在两方面的难点:
[0005]一方面是数据源问题:互联网发展至今,信息的反馈不光是在网页文本上面,还有图片与视频上面,相对文本的识别分析,图片和视频体现的舆情信息识别更为复杂一些,一方面是图片、视频信息反馈的舆情意图无法用技术手段来准确识别并转化,如一种从情感上分析明显的是正面的语言表述却是用一种“反语”的语气来表达、或者没有语言表达纯粹是一些动作来表达不满等,另一方面是越来越多的社交媒体、评价网站、媒体网站等舆情产生地,基于法律、隐私、行业保护以及其它方面必要因素都在做一些功能性、法律性反数据搜索措施,导致舆情获取渠道越来越受限;
[0006]另一方面是情感分析问题:语言的情感分析是一个世界性的难题, ...
【技术保护点】
【技术特征摘要】
1.一种互联网大数据分析方法,其特征在于,该方法包括:获取多个互联网舆情数据源,对所述互联网舆情数据源进行预处理;从预设时间点起,采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理,得到每个互联网舆情数据源去重选负后的数据;在预设周期内,采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理,得到相似舆情的情感分析结果,同时得到被选定的互联网舆情数据源及互联网舆情推送时间,并将最早的时间赋予被选定的舆情数据;所述的采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理;具体包括:从预设时间点T1起,在时间序列上根据一家互联网舆情数据源对应的提供商依次推送的舆情数据,采用相似度函数对所述舆情数据进行舆情相似度计算,得到第一舆情相似度;根据所述第一舆情相似度,判断各个舆情数据是否为相似或者相同舆情数据。2.根据权利要求1所述的一种互联网大数据分析方法,其特征在于,每个所述互联网舆情数据源包括舆情数据的时间点和舆情数据的情感语义,所述舆情数据的情感语义包括正面情感、负面情感。3.根据权利要求1所述的一种互联网大数据分析方法,其特征在于,所述的根据所述第一舆情相似度,判断各个舆情数据是否为相似或者相同舆情数据;具体包括:若所述第一舆情相似度大于等于第一预设值,则各个舆情数据为相似舆情数据,进行各个舆情数据的情感对比分析,剔除重复舆情数据并选取负向舆情数据;并采用第一计数器记录提供商推送的重复或相似舆情数据次数进行累加;若所述第一舆情相似度小于第一预设值,则各个舆情数据为非相似舆情数据,进行非相似的舆情数据重复比较,进一步去掉重复舆情数据,得到互联网舆情数据源中去重选负后的数据。4.根据权利要求3所述的一种互联网大数据分析方法,其特征在于,所述的若所述舆情相似度大于等于第一预设值,则进行各个舆情数据的情感对比分析,剔除重复舆情数据并选取负向舆情数据;具体包括:在情感对比分析中,当舆情数据中只有一条负面舆情时,则剔除其它条舆情数据,选取该条舆情数据,同时该条舆情数据的时间点值取本次对比舆情数据中最早的时间点值;当舆情数据中不止一条负面舆情时,选取一条舆情数据作为本轮对比结果,剔除多余的负面舆情数据,同时选取的该条舆情数据的时间值取本次对比舆情数据中最早的时间点值。5.根据权利要求1所述的一种互联网大数据分析方法,其特征在于,所述的采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理,具体包括:在预设周期内,采用相似度函数对各个互联网舆情数据源去重选负后的舆情数据进行舆情相似度计算,得到第二舆情相似度;根据所述第二舆情相似度,进行各个舆情数据的舆情情感纠偏处理:若第二舆情相似度大于等于第二预设值,则各个互联网舆情数据源去重选负后的舆情数据为相似舆情;并进行以上舆情数据的情感对比;若第二舆情相似度小于第二预设值,则将渠道舆情数据作为参照数据项继续保留在预设周期内,看是否有新的对比舆情数据;若无,则将相关舆情数据作为平台的正式舆情数据
使用,并将最早的时间赋予被选定的舆情数据。6.根据权利要求5所述的一种互联网大数据分析方法,其特征在于,所述的若第二舆情相似度大于等于第二预设值,则各个互联网舆情数据源去重选负后的舆情数据为相似舆情;并进行以上舆情数据的情感对比;具体包括:步骤A,比较各个提供商在相同舆情的推送时间适时性,较晚的提供商均采用各自的第二计数器进行数量累加1;步骤B,比较各个提供商在相同舆情的横向对比中时间非最快次数,各个...
【专利技术属性】
技术研发人员:张思国,王春鹏,唐捷,李小龙,曹舸,范绪,何怀平,杨金澄,
申请(专利权)人:四川智胜慧旅科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。