信息获取方法和装置制造方法及图纸

技术编号:18446065 阅读:46 留言:0更新日期:2018-07-14 10:51
本申请实施例公开了信息获取方法和装置。该方法的一具体实施方式包括:确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息。从而,可以直接根据网格的标注信息,确定与网格相关联的用户数据是否用于生成目标兴趣点的属性信息,节省了在数据挖掘中获取用于生成目标兴趣点的属性信息所需的用户数据的过程的开销,并且可以根据网格的标注信息,确定目标兴趣点的运营状态。

Information acquisition methods and devices

The application embodiment discloses a method and device for acquiring information. The implementation of this method includes: determining the initial area corresponding to the target interest point, and dividing the initial region of the target interest point into multiple grids; based on the feature information of each grid in multiple grids, the annotation information of each grid is generated. Therefore, it is possible to determine whether the user data associated with the grid is used to generate the attribute information of the target interest point, which saves the cost of obtaining the user data needed to generate the attribute information of the target interest point in the data mining, and can be based on the tagging information of the grid. To determine the operating state of the target interest point.

【技术实现步骤摘要】
信息获取方法和装置
本申请涉及计算机领域,具体涉及数据挖掘领域,尤其涉及信息获取方法和装置。
技术介绍
在对目标兴趣点的数据挖掘时,需要确定用于对目标兴趣点的数据挖掘的用户数据,利用用于对目标兴趣点的数据挖掘的用户数据,生成目标兴趣点的属性信息。目前,通常采用的方式为:以人工方式根据电子地图中与目标兴趣点相关的位置数据来标注目标兴趣点的轮廓,将出现在人工标注的目标兴趣点的轮廓中的用户的用户数据作为用于对目标兴趣点的数据挖掘的用户数据。由于目标兴趣点的数量为海量级别,人工标注的开销巨大。
技术实现思路
本申请实施例提供了信息获取方法和装置。第一方面,本申请实施例提供了信息获取方法,该方法包括:确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。第二方面,本申请实施例提供了信息获取装置,该装置包括:处理单元,配置用于确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;生成单元,配置用于基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。本申请实施例提供的信息获取方法和装置,通过确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与网格相关联的用户数据是否用于生成目标兴趣点的属性信息。从而,可以直接根据网格的标注信息,确定与网格相关联的用户数据是否用于生成目标兴趣点的属性信息,节省了在数据挖掘中获取用于生成目标兴趣点的属性信息所需的用户数据的过程的开销,并且可以根据网格的标注信息,确定目标兴趣点的运营状态。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出了可以应用于本申请的信息获取方法或装置的实施例的示例性系统架构;图2示出了根据本申请的信息获取方法的一个实施例的流程图;图3示出了划分网格的一个效果示意图;图4示出了根据本申请的信息获取装置的一个实施例的结构示意图;图5示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用于本申请的信息获取方法或装置的实施例的示例性系统架构。如图1所示,系统架构包括服务器101、网络102、服务器103。网络102可以为有线通信网络。服务器101可以为提供基于位置的服务(LBS)的服务器,服务器101存储有海量的用户的位置。服务器103可以从服务器101获取到在一个预设时间段内在目标兴趣点对应的初始区域出现过的多个用户的位置,获取到的属于一个用户的位置可以为多个。服务器103可以将目标兴趣点对应的初始区域划分为多个网格,根据获取到的多个用户的位置,分别生成每一个网格的标注信息。请参考图2,其示出了根据本申请的信息获取方法的一个实施例的流程。本申请实施例所提供的信息获取方法可以由服务器(例如图1中的服务器103)执行。该方法包括以下步骤:步骤201,确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格。在本实施例中,目标兴趣点可以为商场、小区等兴趣点。可以首先确定目标兴趣点对应的初始区域。在本实施例中,可以由服务器确定目标兴趣点对应的初始区域,将目标兴趣点对应的初始区域划分为多个网格。每一个网格为目标兴趣点对应的初始区域经过划分得到的一个子区域。在本实施例中,在确定目标兴趣点对应的初始区域时,可以根据路网信息确定目标兴趣点对应的初始区域。例如,目标兴趣点为一个商场,可以根据路网数据,确定该商场周边的道路、交通设施例如地铁口,将该商场周边的道路、交通设施包围的区域作为该商场对应的初始区域,该商场对应的初始区域包含该商场占据的实际区域。在本实施例中,任何一个被定位的可以获取到其在一个时间段内的定位数据的人均可以称之为用户。以目标兴趣点为一个商场为例,一个用户可以为在一个时间段内在该商场占据的实际区域出现过的人,换言之,该用户为在一个时间段内光顾该商场的人。一个用户也可以为在一个时间段内在该商场对应的初始区域中的该商场的附近例如在该商场附近的地铁口出现过的人,换言之,该用户为没有光顾该商场,只是路过该商场的人。在本实施例中,对于一个目标兴趣点,可以预先获取在预设时间段内的在目标兴趣点对应的初始区域的用户的位置。预设时间段的起始时刻与步骤201的执行时刻之间的时间差小于时间差阈值。换言之,预设时间段的起始时刻是距离步骤201的执行时刻较近的时间点,获取近期在目标兴趣点出现过的用户的位置。获取到的在预设时间段内的在目标兴趣点对应的初始区域的用户的位置中,属于同一个用户的位置可以为多个。属于一个用户的多个位置构成该用户的历史运行轨迹。例如,目标兴趣点为一个商场,预设时间段为某一天该商场的营业时间段,可以获取到在某一天该商场的营业时间段内多个在该商场对应的初始区域中出过的用户的位置。在本实施例的一些可选的实现方式中,在将目标兴趣点对应的初始区域划分为多个网格时,可以首先对多个在预设时间段内出现过的用户的位置进行聚类,得到多个位置聚类结果,每一个位置聚类结果中包含多个用户的位置,属于同一个用户的位置可以为多个。可以确定每一个聚类结果的中心点。一个聚类结果中包含至少一个用户的位置,一个聚类结果的中心点可以作为一个待生成的网格的中心点。对于一个待生成网格的中心点,可以将该网格的中心点分别与该网格的中心点距离最近的预设数量个其他待生成的网格的中心点进行连接,得到网格的中心点对应的多个连线,然后,确定多个连线各自的中垂线,多个连线各自的中垂线之间的交点可以构成该网格的角点,从而,构建出该网格的轮廓,得到该网格。请参考图3,其示出了划分网格的一个效果示意图。在图3中,示出了目标兴趣点中的一部分网格,一部分网格中的网格301为一个五边形。在图3中,示出了多个位置聚类结果的中心点,即多个网格的中心。两个网格的中心点之间的连线用虚线进行表示。网格301的中心点与距离最近的5个其他网格的中心点连接,构成5个连线,相应地,可以确定5个连线中的每一个连线的中垂线,得到5个中垂线,5个中垂线中的相邻的中垂线的交点构成网格301的角点,从而,得到网格301的轮廓本文档来自技高网...

【技术保护点】
1.一种信息获取方法,包括:确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。

【技术特征摘要】
1.一种信息获取方法,包括:确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。2.根据权利要求1所述的方法,将目标兴趣点对应的初始区域划分为多个网格包括:获取预设时间段内在目标兴趣点对应的初始区域出现过的多个用户的位置;对多个用户的位置进行聚类,得到多个位置聚类结果;分别将每一个位置聚类结果的中心点作为待生成的网格的中心点,其中,一个位置聚类结果的中心点对应一个待生成的网格的中心点;对于每一个待生成的网格的中心点,确定与待生成的网格的中心点距离最近的预设数量的其他待生成的网格的中心点,以及基于所述待生成的网格的中心点与确定出的与所述待生成的网格的中心点距离最近的预设数量的其他待生成的网格的中心点,确定所述待生成的网格的轮廓。3.根据权利要求2所述的方法,所述方法还包括:对于多个网格中的每一个网格,计算所述网格与每一个其他网格的杰卡德相似系数,其中,所述网格与一个其他网格的杰卡德相似系数基于预设时间段内在所述网格出现过的用户的数量与在所述其他网格出现过的用户的数量之和以及预设时间段内同时在所述网格和所述其他网格出现过的用户的数量而确定;基于多个网格中两两网格之间的杰卡德相似系数,确定出每一个网格对应的总相似度;将确定出的每一个网格对应的总相似度分别作为每一个网格的关联度信息。4.根据权利要求3所述的方法,一个网格的停留时长信息为预设时间段内在所述网格出现过的用户的停留时长的中位数;以及基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息包括:对于多个网格中的每一个网格,判断所述网格的停留时长信息是否大于时长阈值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。5.根据权利要求3所述的方法,基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息包括:对于多个网格中的每一个网格,判断所述网格的关联度信息是否大于关联度阈值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。6.根据权利要求3所述的方法,基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息包括:对于多个网格中的每一个网格,判断是否满足预设条件,所述预设条件包括:所述网格的停留时长信息大于时长阈值并且停留时长差值与关联度信息的乘积大于乘积阈值,所述停留时长差值为所述网格的停留时长信息与时长阈值的差值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。7.一种信息获取装置,包括:处理单元,配置用于确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;生成单元,配置用于...

【专利技术属性】
技术研发人员:张晓迪陈承泽徐云峰陈炜于
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1