一种互联网大数据分析方法及系统技术方案

技术编号:33854966 阅读:83 留言:0更新日期:2022-06-18 10:42
本发明专利技术公开了一种互联网大数据分析方法及系统,该方法包括:获取多个互联网舆情数据源,对所述互联网舆情数据源进行预处理;从预设时间点起,采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理,得到每个互联网舆情数据源去重选负后的数据;在预设周期内,采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理,得到相似舆情的情感分析结果,同时得到被选定的互联网舆情数据源及互联网舆情推送时间,并将最早的时间赋予被选定的舆情数据。本发明专利技术采用相似度计算,对比多家舆情的情感,规避一家舆情情感分析的一家“片面性”,从而使情感分析更为准确。为准确。为准确。

【技术实现步骤摘要】
一种互联网大数据分析方法及系统


[0001]本专利技术涉及信息
,具体涉及一种互联网大数据分析方法及系统。

技术介绍

[0002]互联网时代,人们喜欢用自媒体、论坛、网络客服等若干互联网途径表达和反馈自己对各种事物的想法、看法及评价等。而服务单位也非常希望通过互联网数据来分析公众对自身各项服务的评价和意见反馈,从而找到真正贴合用户的管理服务改进措施。于是,互联网舆情系统就诞生了。
[0003]互联网舆情监控系统主要依托搜索引擎技术和文本挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现服务单位对自己相关网络舆情监督管理的需要,最终形成各种舆情报告,为服务单位决策层全面掌握舆情动态,做出引导,提供分析依据。
[0004]舆情数据的获取存在两方面的难点:
[0005]一方面是数据源问题:互联网发展至今,信息的反馈不光是在网页文本上面,还有图片与视频上面,相对文本的识别分析,图片和视频体现的舆情信息识别更为复杂一些,一方面是图片、视频信息反馈的舆情意图无法用技术手段来准确识别并转化,如一种从情感上分析明显的是正面的语言表述却是用一种“反语”的语气来表达、或者没有语言表达纯粹是一些动作来表达不满等,另一方面是越来越多的社交媒体、评价网站、媒体网站等舆情产生地,基于法律、隐私、行业保护以及其它方面必要因素都在做一些功能性、法律性反数据搜索措施,导致舆情获取渠道越来越受限;
[0006]另一方面是情感分析问题:语言的情感分析是一个世界性的难题,无论是对哪一种语言的分析,因为语言文字不光是从文本上,还是在使用场景上,使用人的语气语调上不同,都有可能表达的是不同的意思。情感的分析在技术上只能是一个更好的解决方法,没有最好的解决方案。
[0007]互联网舆情渠道越来越广,舆情数据的检索、分析等工作需要投入大量的软、硬件资源,情感分析又是一个需要高技术投入的专业,还会涉及到一些法律法规方面的要求,所以舆情产品的市场准入门榄非常高。虽然不同的舆情厂商都投入巨资专项尽全力开发,但都无法完全靠自身的能力完全达到用户预期效果,各家公司又因其投入、技术能力、资源及运营方式等,其提供的舆情结果服务都有不同的优缺点,如舆情时间、舆情渠道、情感分析准确度等。但从市场需求来讲,用户单位希望获得的舆情系统最大的两项诉求,一方面就是全网,无论是哪里产生或传播的,都应该要获取到而且是适时获取到,另一方面就是情感分析尽可能的准确。

技术实现思路

[0008]本专利技术所要解决的技术问题是现有的互联网大数据获取不够快速与分析不够精准的问题,目的在于提供一种互联网大数据分析方法及系统,本专利技术围绕向用户输出尽可
能高的舆情服务水平的情况下,采用比较法向用户提供相对快速的舆情信息、传播渠道和相对准确的情感分析,而不是依赖某一家舆情厂商“片面”之言,从而获取得相对更为准确的舆情数据并为管理决策提供支持。
[0009]本专利技术通过下述技术方案实现:
[0010]第一方面,本专利技术提供了一种互联网大数据分析方法,该方法包括:
[0011]获取多个互联网舆情数据源,对所述互联网舆情数据源进行预处理;
[0012]从预设时间点起,采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理,得到每个互联网舆情数据源去重选负后的数据;
[0013]在预设周期内,采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理,得到相似舆情的情感分析结果,同时得到被选定的互联网舆情数据源及互联网舆情推送时间,并将最早的时间赋予被选定的舆情数据。
[0014]工作原理是:基于现有的互联网大数据获取不够快速与分析不够精准的问题,本专利技术设计了一种互联网大数据分析方法,通过多渠道的舆情数据获取和采集,充分整合各渠道的技术及资源优势,规避各家的短板,汇聚各家的舆情数据达到一个相对更完善的舆情数据渠道覆盖;同时结合纵向比较法和横向比较法,首先,从预设时间点起,采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理,得到每个互联网舆情数据源去重选负后的数据;其次,在预设周期内,采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理,得到相似舆情的情感分析结果,同时得到被选定的互联网舆情数据源及互联网舆情推送时间;这样通过多家舆情的情感对比,规避一家舆情情感分析的一家“片面性”,从而使情感分析更为准确;通过多家舆情提供商的舆情反馈时间来选择相对更适时的舆情数据;通过对多家舆情数据提供商的反向监控,可以将促进平台舆情服务水平“站在巨人肩膀上”,取得优于行业的舆情服务。
[0015]进一步地,每个所述互联网舆情数据源包括舆情数据的时间点和舆情数据的情感语义,所述舆情数据的情感语义包括正面情感、负面情感。
[0016]进一步地,所述的采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理;具体包括:
[0017]从预设时间点T1起,在时间序列上根据一家互联网舆情数据源对应的提供商依次推送的舆情数据,采用相似度函数对所述舆情数据进行舆情相似度计算,得到第一舆情相似度;根据所述第一舆情相似度,判断各个舆情数据是否为相似或者相同舆情数据:
[0018]若所述第一舆情相似度大于等于第一预设值,则各个舆情数据为相似舆情数据,进行各个舆情数据的情感对比分析,剔除重复舆情数据并选取负向舆情数据;并采用第一计数器记录提供商推送的重复或相似舆情数据次数进行累加;
[0019]若所述第一舆情相似度小于第一预设值,则各个舆情数据为非相似舆情数据,进行非相似的舆情数据重复比较,进一步去掉重复舆情数据,得到互联网舆情数据源中去重选负后的数据。
[0020]具体地,所述相似度函数使用bag of words模型或TF

IDF方法,将舆情数据文本转换为 feature vectors特征向量,使用余弦相似度,基于两个舆情数据文本的特征向量,来计算它们的相似度S:
[0021][0022]其中,A为第一舆情数据文本,B为第二舆情数据文本,A
i
为第一舆情数据文本的第i个词向量,B
i
为第二舆情数据文本的第i个词向量;n为第一舆情数据文本的词向量个数、第二舆情数据文本中的词向量个数。
[0023]进一步地,所述的若所述舆情相似度大于等于第一预设值,则进行各个舆情数据的情感对比分析,剔除重复舆情数据并选取负向舆情数据;具体包括:
[0024]在情感对比分析中,当舆情数据中只有一条负面舆情时,则剔除其它条舆情数据,选取该条舆情数据,同时该条舆情数据的时间点值取本次对比舆情数据中最早的时间点值;
[0025]当舆情数据中不止一条负面舆情时,选取一条舆情数据作为本轮对比结果,剔除多余的负面舆情数据,同时选取的该条舆情数据的时间值取本次对比舆情数据中最早的时间点值。
[0026]进一步地,所述的采用横向比较法对各个互联网舆情数据源去重选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种互联网大数据分析方法,其特征在于,该方法包括:获取多个互联网舆情数据源,对所述互联网舆情数据源进行预处理;从预设时间点起,采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理,得到每个互联网舆情数据源去重选负后的数据;在预设周期内,采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理,得到相似舆情的情感分析结果,同时得到被选定的互联网舆情数据源及互联网舆情推送时间,并将最早的时间赋予被选定的舆情数据;所述的采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理;具体包括:从预设时间点T1起,在时间序列上根据一家互联网舆情数据源对应的提供商依次推送的舆情数据,采用相似度函数对所述舆情数据进行舆情相似度计算,得到第一舆情相似度;根据所述第一舆情相似度,判断各个舆情数据是否为相似或者相同舆情数据。2.根据权利要求1所述的一种互联网大数据分析方法,其特征在于,每个所述互联网舆情数据源包括舆情数据的时间点和舆情数据的情感语义,所述舆情数据的情感语义包括正面情感、负面情感。3.根据权利要求1所述的一种互联网大数据分析方法,其特征在于,所述的根据所述第一舆情相似度,判断各个舆情数据是否为相似或者相同舆情数据;具体包括:若所述第一舆情相似度大于等于第一预设值,则各个舆情数据为相似舆情数据,进行各个舆情数据的情感对比分析,剔除重复舆情数据并选取负向舆情数据;并采用第一计数器记录提供商推送的重复或相似舆情数据次数进行累加;若所述第一舆情相似度小于第一预设值,则各个舆情数据为非相似舆情数据,进行非相似的舆情数据重复比较,进一步去掉重复舆情数据,得到互联网舆情数据源中去重选负后的数据。4.根据权利要求3所述的一种互联网大数据分析方法,其特征在于,所述的若所述舆情相似度大于等于第一预设值,则进行各个舆情数据的情感对比分析,剔除重复舆情数据并选取负向舆情数据;具体包括:在情感对比分析中,当舆情数据中只有一条负面舆情时,则剔除其它条舆情数据,选取该条舆情数据,同时该条舆情数据的时间点值取本次对比舆情数据中最早的时间点值;当舆情数据中不止一条负面舆情时,选取一条舆情数据作为本轮对比结果,剔除多余的负面舆情数据,同时选取的该条舆情数据的时间值取本次对比舆情数据中最早的时间点值。5.根据权利要求1所述的一种互联网大数据分析方法,其特征在于,所述的采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一步分析处理,具体包括:在预设周期内,采用相似度函数对各个互联网舆情数据源去重选负后的舆情数据进行舆情相似度计算,得到第二舆情相似度;根据所述第二舆情相似度,进行各个舆情数据的舆情情感纠偏处理:若第二舆情相似度大于等于第二预设值,则各个互联网舆情数据源去重选负后的舆情数据为相似舆情;并进行以上舆情数据的情感对比;若第二舆情相似度小于第二预设值,则将渠道舆情数据作为参照数据项继续保留在预设周期内,看是否有新的对比舆情数据;若无,则将相关舆情数据作为平台的正式舆情数据
使用,并将最早的时间赋予被选定的舆情数据。6.根据权利要求5所述的一种互联网大数据分析方法,其特征在于,所述的若第二舆情相似度大于等于第二预设值,则各个互联网舆情数据源去重选负后的舆情数据为相似舆情;并进行以上舆情数据的情感对比;具体包括:步骤A,比较各个提供商在相同舆情的推送时间适时性,较晚的提供商均采用各自的第二计数器进行数量累加1;步骤B,比较各个提供商在相同舆情的横向对比中时间非最快次数,各个...

【专利技术属性】
技术研发人员:张思国王春鹏唐捷李小龙曹舸范绪何怀平杨金澄
申请(专利权)人:四川智胜慧旅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1