舆情数据的获取方法和装置制造方法及图纸

技术编号:22167047 阅读:27 留言:0更新日期:2019-09-21 10:38
本申请实施例公开了一种舆情数据的获取方法和装置。所述方法包括:从舆情平台上发布的舆情数据中,选取发布目标舆情数据的用户,作为数据抓取对象;对所述数据抓取对象发布的数据进行数据抓取,获取与所述目标舆情对应的舆情数据。

Method and Device for Acquiring Public Opinion Data

【技术实现步骤摘要】
舆情数据的获取方法和装置
本申请涉及信息处理领域,尤指一种舆情数据的获取方法和装置。
技术介绍
在互联网时代,数据无处不在,尤其是公开的舆情数据,代表了广大民众的真实发声,非常具有数据挖掘和分析的价值。舆情监控是整合互联网信息采集技术及信息智能处理技术通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。针对个性化推送舆情数据的平台,传统的数据抓取方式是直接使用平台上一些可访问的数据接口获取数据,或以某一访客的身份通过页面浏览抓取网页源代码后解析数据而获取舆情数据。在实现本申请过程中,专利技术人发现现有技术存在如下问题:由于是个性化推荐平台,每个人因浏览习惯或兴趣点不同,舆情平台所推送的舆情数据也不相同,因此简单的通过接口访问或解析某一访客可浏览的数据,只能覆盖到很小一部分的数据,如果基于这部分进行数据分析会比较片面,不能为舆情大数据分析提供可信的保障。对于个性化推送舆情数据的平台,如何能够更全面的获取尽可能多的舆情数据成为了舆情数据抓取上遇到的一个难题。
技术实现思路
为了解决上述技术问题,本申请提供了一种舆情数据的获取方法和装置,能够提高更全面的获取尽可能多的舆情数据。为了达到本申请目的,本申请提供了一种舆情数据的获取方法,包括:从舆情平台上发布的舆情数据中,选取发布目标舆情数据的用户,作为数据抓取对象;对所述数据抓取对象发布的数据进行数据抓取,获取与所述目标舆情对应的舆情数据。在一个示例性实施例中,所述选取发布目标舆情数据的用户,包括:在所述舆情平台上获取目标舆情数据的基础舆情数据;查询所述舆情平台上内容包括所述基础舆情数据的内容,得到包括所述基础舆情数据的内容;记录包括所述基础舆情数据的内容的作者信息。在一个示例性实施例中所述选取发布目标舆情数据的用户,包括:利用预先设置的关键词信息,在所述舆情平台上进行舆情内容数据的搜索,得到包括所述关键词信息的内容;记录包括所述关键词信息的内容的作者信息。在一个示例性实施例中所述选取发布目标舆情数据的用户,包括如下至少一个方式:方式一、记录对所述作者发布的内容的评论者信息;方式二、查询所述作者发布的内容中是否还有包括所述目标舆情数据的内容;如果有包括所述目标舆情数据的第一目标内容,记录所述第一目标内容中的评论者信息;方式三、获取所述作者参与评论的内容;从参与评论的内容中,查询是否有包括所述目标舆情数据的内容;如果有包括所述目标舆情数据的第二目标内容,记录所述第二目标内容中的目标作者;方式四、记录对所述第二目标内容的评论者信息;方式五、查询所述目标作者发布的内容中是否还有包括所述目标舆情数据的内容;如果有包括所述目标舆情数据的第三目标内容,记录所述第三目标内容中的评论者信息。在一个示例性实施例中所述对所述数据抓取对象发布的数据进行数据抓取,获取与所述目标舆情对应的舆情数据之后,所述方法还包括:从获取到的舆情数据中,获取发布目标舆情数据的用户,更新到所述数据抓取对象中。为了达到本申请目的,本申请提供了一种舆情数据的获取装置,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用以调用所述存储器中的计算机程序以实现如下操作,包括:从舆情平台上发布的舆情数据中,选取发布目标舆情数据的用户,作为数据抓取对象;对所述数据抓取对象发布的数据进行数据抓取,获取与所述目标舆情对应的舆情数据。在一个示例性实施例中,所述处理器用以调用所述存储器中的计算机程序以实现选取发布目标舆情数据的用户的操作,包括:在所述舆情平台上获取目标舆情数据的基础舆情数据;查询所述舆情平台上内容包括所述基础舆情数据的内容,得到包括所述基础舆情数据的内容;记录包括所述基础舆情数据的内容的作者信息。在一个示例性实施例中,所述处理器用以调用所述存储器中的计算机程序以实现选取发布目标舆情数据的用户的操作,包括:利用预先设置的关键词信息,在所述舆情平台上进行舆情内容数据的搜索,得到包括所述关键词信息的内容;记录包括所述关键词信息的内容的作者信息。在一个示例性实施例中,所述处理器用以调用所述存储器中的计算机程序以实现选取发布目标舆情数据的用户的操作,包括如下至少一个方式:方式一、记录对所述作者发布的内容的评论者信息;方式二、查询所述作者发布的内容中是否还有包括所述目标舆情数据的内容;如果有包括所述目标舆情数据的第一目标内容,记录所述第一目标内容中的评论者信息;方式三、获取所述作者参与评论的内容;从参与评论的内容中,查询是否有包括所述目标舆情数据的内容;如果有包括所述目标舆情数据的第二目标内容,记录所述第二目标内容中的目标作者;方式四、记录对所述第二目标内容的评论者信息;方式五、查询所述目标作者发布的内容中是否还有包括所述目标舆情数据的内容;如果有包括所述目标舆情数据的第三目标内容,记录所述第三目标内容中的评论者信息。在一个示例性实施例中,所述处理器用以调用所述存储器中的计算机程序以实现对所述数据抓取对象发布的数据进行数据抓取,获取与所述目标舆情对应的舆情数据的操作之后,所述处理器用以调用所述存储器中的计算机程序还实现如下操作,包括:从获取到的舆情数据中,获取发布目标舆情数据的用户,更新到所述数据抓取对象中。本申请提供的实施例,从舆情平台上发布的舆情数据中,选取发布目标舆情数据的用户,作为数据抓取对象;再对所述数据抓取对象发布的数据进行数据抓取,获取与所述目标舆情对应的舆情数据,实现基于用户基础,对舆情数据进行抓取,达到更准确更全面的获取尽可能多的舆情数据的目的。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。图1为本申请提供的舆情数据的获取方法的流程图。具体实施方式为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1为本申请提供的舆情数据的获取方法的流程图。图1所示方法包括:步骤101、从舆情平台上发布的舆情数据中,选取发布目标舆情数据的用户,作为数据抓取对象;在一个示例性实施例中,舆情平台可以为内容的分享平台,如视频分享网站、社交网站等;目标舆情数据可以为用户所要了解的事件,如新闻热点等;通过对舆情平台上读取平台上公开发布的言论,抓取符合所述目标舆情数据的内容,并记录发布上述内容的发言者,得到用户库,即数据抓取对象。步骤102、对所述数据抓取对象发布的数据进行数据抓取,获取与所述目标舆情对应的舆情数据。在一个示例性实施例中,与相关技术中对舆情平台的内容为数据抓取对本文档来自技高网...

【技术保护点】
1.一种舆情数据的获取方法,其特征在于,包括:从舆情平台上发布的舆情数据中,选取发布目标舆情数据的用户,作为数据抓取对象;对所述数据抓取对象发布的数据进行数据抓取,获取与所述目标舆情对应的舆情数据。

【技术特征摘要】
1.一种舆情数据的获取方法,其特征在于,包括:从舆情平台上发布的舆情数据中,选取发布目标舆情数据的用户,作为数据抓取对象;对所述数据抓取对象发布的数据进行数据抓取,获取与所述目标舆情对应的舆情数据。2.根据权利要求1所述的方法,其特征在于,所述选取发布目标舆情数据的用户,包括:在所述舆情平台上获取目标舆情数据的基础舆情数据;查询所述舆情平台上内容包括所述基础舆情数据的内容,得到包括所述基础舆情数据的内容;记录包括所述基础舆情数据的内容的作者信息。3.根据权利要求1所述的方法,其特征在于,所述选取发布目标舆情数据的用户,包括:利用预先设置的关键词信息,在所述舆情平台上进行舆情内容数据的搜索,得到包括所述关键词信息的内容;记录包括所述关键词信息的内容的作者信息。4.根据权利要求2或3所述的方法,其特征在于,所述选取发布目标舆情数据的用户,包括如下至少一个方式:方式一、记录对所述作者发布的内容的评论者信息;方式二、查询所述作者发布的内容中是否还有包括所述目标舆情数据的内容;如果有包括所述目标舆情数据的第一目标内容,记录所述第一目标内容中的评论者信息;方式三、获取所述作者参与评论的内容;从参与评论的内容中,查询是否有包括所述目标舆情数据的内容;如果有包括所述目标舆情数据的第二目标内容,记录所述第二目标内容中的目标作者;方式四、记录对所述第二目标内容的评论者信息;方式五、查询所述目标作者发布的内容中是否还有包括所述目标舆情数据的内容;如果有包括所述目标舆情数据的第三目标内容,记录所述第三目标内容中的评论者信息。5.根据权利要求1所述的方法,其特征在于,所述对所述数据抓取对象发布的数据进行数据抓取,获取与所述目标舆情对应的舆情数据之后,所述方法还包括:从获取到的舆情数据中,获取发布目标舆情数据的用户,更新到所述数据抓取对象中。6.一种舆情数据的获取装置,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用以调用所述存储器中的计算机程序以实现如下操作,包括:从舆情平台上发布的舆情数据...

【专利技术属性】
技术研发人员:郭海燕
申请(专利权)人:精硕科技北京股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1