The application embodiment discloses a method and device for acquiring information. The implementation of this method includes: determining the initial area corresponding to the target interest point, and dividing the initial region of the target interest point into multiple grids; based on the feature information of each grid in multiple grids, the annotation information of each grid is generated. Therefore, it is possible to determine whether the user data associated with the grid is used to generate the attribute information of the target interest point, which saves the cost of obtaining the user data needed to generate the attribute information of the target interest point in the data mining, and can be based on the tagging information of the grid. To determine the operating state of the target interest point.
【技术实现步骤摘要】
信息获取方法和装置
本申请涉及计算机领域,具体涉及数据挖掘领域,尤其涉及信息获取方法和装置。
技术介绍
在对目标兴趣点的数据挖掘时,需要确定用于对目标兴趣点的数据挖掘的用户数据,利用用于对目标兴趣点的数据挖掘的用户数据,生成目标兴趣点的属性信息。目前,通常采用的方式为:以人工方式根据电子地图中与目标兴趣点相关的位置数据来标注目标兴趣点的轮廓,将出现在人工标注的目标兴趣点的轮廓中的用户的用户数据作为用于对目标兴趣点的数据挖掘的用户数据。由于目标兴趣点的数量为海量级别,人工标注的开销巨大。
技术实现思路
本申请实施例提供了信息获取方法和装置。第一方面,本申请实施例提供了信息获取方法,该方法包括:确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。第二方面,本申请实施例提供了信息获取装置,该装置包括:处理单元,配置用于确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;生成单元,配置用于基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。本申请实施例提供的信息获取方法和装 ...
【技术保护点】
1.一种信息获取方法,包括:确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。
【技术特征摘要】
1.一种信息获取方法,包括:确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息,其中,一个网格的特征信息包括以下至少一项:停留时长信息、指示所述网格与其他网格的关联度的关联度信息,一个网格的标注信息用于指示与所述网格相关联的用户数据是否用于生成目标兴趣点的属性信息。2.根据权利要求1所述的方法,将目标兴趣点对应的初始区域划分为多个网格包括:获取预设时间段内在目标兴趣点对应的初始区域出现过的多个用户的位置;对多个用户的位置进行聚类,得到多个位置聚类结果;分别将每一个位置聚类结果的中心点作为待生成的网格的中心点,其中,一个位置聚类结果的中心点对应一个待生成的网格的中心点;对于每一个待生成的网格的中心点,确定与待生成的网格的中心点距离最近的预设数量的其他待生成的网格的中心点,以及基于所述待生成的网格的中心点与确定出的与所述待生成的网格的中心点距离最近的预设数量的其他待生成的网格的中心点,确定所述待生成的网格的轮廓。3.根据权利要求2所述的方法,所述方法还包括:对于多个网格中的每一个网格,计算所述网格与每一个其他网格的杰卡德相似系数,其中,所述网格与一个其他网格的杰卡德相似系数基于预设时间段内在所述网格出现过的用户的数量与在所述其他网格出现过的用户的数量之和以及预设时间段内同时在所述网格和所述其他网格出现过的用户的数量而确定;基于多个网格中两两网格之间的杰卡德相似系数,确定出每一个网格对应的总相似度;将确定出的每一个网格对应的总相似度分别作为每一个网格的关联度信息。4.根据权利要求3所述的方法,一个网格的停留时长信息为预设时间段内在所述网格出现过的用户的停留时长的中位数;以及基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息包括:对于多个网格中的每一个网格,判断所述网格的停留时长信息是否大于时长阈值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。5.根据权利要求3所述的方法,基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息包括:对于多个网格中的每一个网格,判断所述网格的关联度信息是否大于关联度阈值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。6.根据权利要求3所述的方法,基于多个网格中的每一个网格的特征信息,分别生成每一个网格的标注信息包括:对于多个网格中的每一个网格,判断是否满足预设条件,所述预设条件包括:所述网格的停留时长信息大于时长阈值并且停留时长差值与关联度信息的乘积大于乘积阈值,所述停留时长差值为所述网格的停留时长信息与时长阈值的差值;若是,生成所述网格的用于指示与所述网格相关联的用户数据用于生成目标兴趣点的属性信息的标注信息;若否,生成所述网格的用于指示与所述网格相关联的用户数据不用于生成目标兴趣点的属性信息的标注信息。7.一种信息获取装置,包括:处理单元,配置用于确定目标兴趣点对应的初始区域,以及将目标兴趣点对应的初始区域划分为多个网格;生成单元,配置用于...
【专利技术属性】
技术研发人员:张晓迪,陈承泽,徐云峰,陈炜于,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。