基于用户评论信息的POI数据采集方法及装置制造方法及图纸

技术编号:12401386 阅读:132 留言:0更新日期:2015-11-26 15:05
本发明专利技术公开了一种基于用户评论信息的POI数据采集方法及装置,涉及互联网技术领域,所述方法包括:抓取包含POI数据及用户评论信息的多个网页;提取网页中的POI数据及用户评论信息;根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。本发明专利技术通过用户评论信息来判断提取的POI数据的真实性,根据用户评论信息按照预设策略对提取的POI数据进行采集,从而有效地排除了互联网中充斥的脏数据、错误的数据,实现了POI数据的准确采集。

【技术实现步骤摘要】

本专利技术涉及互联网
,特别涉及一种基于用户评论信息的POI数据采集方法及装置
技术介绍
POI是“Point of Interest”的缩写,中文可以翻译为“兴趣点”,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。传统的POI数据采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经玮度,然后再标记下来,这种方法比较费时费力。而互联网上存在各种各样的POI数据,如果能从互联网上采集这些数据则会大大节省人力和时间,例如本地信息服务、团购等网站(比如大众点评网、美团网等网站)上存在着大量的类似于餐馆、影院、娱乐场所等POI数据,但有些POI数据所对应的店铺已经过期了或者已经不存在了,而在网站上依然存在,这些POI数据为互联网中的脏数据、错误的数据,对POI数据的准确采集造成了困难。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于用户评论信息的POI数据采集方法及装置。依据本专利技术的一个方面,提供了一种基于用户评论信息的POI数据采集方法,所述方法包括:抓取包含POI数据及用户评论信息的多个网页;提取网页中的POI数据及用户评论信息;根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。可选地,所述用户评论信息包括:用户评论数量和/或用户评论时间。可选地,所述根据所述用户评论信息按照预设策略对提取的POI数据进行采集,进一步包括:在所述用户评论数量超过预设数量和/或所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据。可选地,所述抓取包含POI数据及用户评论信息的多个网页,进一步包括:根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页。可选地,所述提取网页中的POI数据及用户评论信息,进一步包括:根据网页模板提取网页中的POI数据及用户评论信息。可选地,所述根据网页模板提取网页中的POI数据及用户评论信息之前,所述方法还包括:在抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成网页模板。依据本专利技术的另一个方面,提供了一种基于用户评论信息的POI数据采集装置,所述装置包括:网页抓取器,适于抓取包含POI数据及用户评论信息的多个网页;数据提取器,适于提取网页中的POI数据及用户评论信息;信息采集器,适于根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。可选地,所述用户评论信息包括:用户评论数量和/或用户评论时间。可选地,所述信息采集器,进一步适于在所述用户评论数量超过预设数量和/或所述用户评论时间超过预设时间时,采集所述用户评论信息对应的POI数据。可选地,所述网页抓取器,进一步适于根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页。可选地,所述数据提取器,进一步适于根据网页模板提取网页中的POI数据及用户评论信息。可选地,所述装置还包括:模板生成器,适于在抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成网页模板。本专利技术通过用户评论信息来判断提取的POI数据的真实性,根据用户评论信息按照预设策略对提取的POI数据进行采集,从而有效地排除了互联网中充斥的脏数据、错误的数据,实现了 POI数据的准确采集。【附图说明】通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术一种实施方式的基于用户评论信息的POI数据采集方法的流程图;图2是本专利技术一种实施方式的基于用户评论信息的POI数据采集方法的流程图;图3是本专利技术一种实施例的网页中POI数据所在位置的示意图;图4是本专利技术一种实施例的网页中用户评论所在位置的示意图;图5是本专利技术另一种实施例的网页中用户评论所在位置的示意图;图6是本专利技术一种实施方式的基于用户评论信息的POI数据采集装置的结构框图。【具体实施方式】下面结合附图和实施方式,对本专利技术的【具体实施方式】作进一步详细描述。以下实施方式用于说明本专利技术,但不用来限制本专利技术的范围。图1是本专利技术一种实施方式的基于用户评论信息的POI数据采集方法的流程图;参照图1,所述方法包括:SlOl:抓取包含POI数据及用户评论信息的多个网页;需要说明的是,一般可以采用网络蜘蛛、网页爬虫、搜索机器人或网络抓取脚本程序来实现抓取包含POI数据及用户评论信息的多个网页。可理解的是,由于包含POI数据及用户评论信息的网页通常集中在类似于本地信息服务、团购等网站(如大众点评网、美团网等)上,为提高网页的抓取效率,本实施方式中,根据预设目标网站的网址抓取包含POI数据及用户评论信息的多个网页,当然,还可采用其他方式,本实施方式对此不加以限制。S102:提取网页中的POI数据及用户评论信息;可理解的是,在提取网页中的POI数据及用户评论信息时,可采用多种方式,为了提高信息提取效率,本实施方式中,根据网页模板提取网页中的POI数据及用户评论信息,当然,还可采用其他方式,本实施方式对此不加以限制。在具体实现中,为了采用网页模板来提取网页中的POI数据及用户评论信息,在根据网页模板提取网页中的POI数据及用户评论信息之前,所述方法还包括:在抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成网页模板。由于不同网站的POI数据及用户评论信息的位置通常不同,故而,在根据网页模板提取网页中的POI数据及用户评论信息时,通常是不同网站采用不同的网页模板,也就是说,可在各网站抓取的至少一个网页中标注所述POI数据及用户评论信息的位置,以生成各网站的网页模板。S103:根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。本实施方式通过用户评论信息来判断提取的POI数据的真实性,根据用户评论信息按照预设策略对提取的POI数据进行采集,从而有效地排除了互联网中充斥的脏数据、错误的数据,实现了 POI数据的准确采集。图2是本专利技术一种实施方式的基于用户评论信息的POI数据采集方法当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种基于用户评论信息的POI数据采集方法,其特征在于,所述方法包括:抓取包含POI数据及用户评论信息的多个网页;提取网页中的POI数据及用户评论信息;根据所述用户评论信息按照预设策略对提取的POI数据进行采集,以获得所述POI数据的采集结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:王智广
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1