一种兴趣点识别方法和装置制造方法及图纸

技术编号:9381822 阅读:104 留言:0更新日期:2013-11-28 00:12
本发明专利技术提供了一种兴趣点(POI)识别的方法和装置,其中方法包括:A、预先针对决策树的各节点分别训练分类器,具体包括:确定决策树的各节点对应的训练集;针对决策树的各节点分别执行:将当前节点对应的训练集作为当前节点的正样本数据,将与当前在决策树中对应同一父节点的其他节点的训练集作为当前节点的负样本数据,训练当前节点的分类器;B、从决策树的根节点开始,利用各节点的分类器逐级判决待标注的POI是否属于当前判决到的节点,利用判决结果标注所述待标注的POI。通过本发明专利技术提高了POI分类的效率和准确性。

【技术实现步骤摘要】
一种兴趣点识别方法和装置
本专利技术涉及计算机应用
,特别涉及一种兴趣点识别方法和装置。
技术介绍
POI(Pointofinterest,兴趣点)是地理信息系统中收集的地理信息表现形式,可以是一栋建筑物、一个商家、一个邮筒或者一个公交站等。每个POI包含四方面的信息:名称、类别、经度和纬度。全面的POI信息是丰富导航地图的必备咨询,及时的POI能提醒用户路况的分支及周边建筑的详尽信息,也能方便地图中查找你所需要的各个地方,选择最为便捷的道路来进行路径规划,除了出行之外,丰富和准确地POI也能够为用户提供消费参考。用户可以通过地图查找感兴趣的POI,根据其所属分类来了解商家,诸如大众点评等网站都运用了这一信息。例如,用户通过在大众点评上查找“沸腾鱼乡”,根据该POI的类别可以知道它属于美食类的中餐馆且为川菜,用户就能够以此作为消费参考,并根据该POI的地理位置做出行规划。对POI的分类实际上就是为POI打tag(标签)的过程,通常需要对一个POI进行多级分类,即打上多级tag,例如上述的tag“沸腾鱼乡”,第一级tag是“美食”,第二级tag是“餐馆”,第三级tag是“中餐馆”,第四级tag是“川菜”,甚至还有更多级的tag。然而,现有技术中上述对POI进行分类的过程主要采用人工或者统计方式,一方面效率比较低,另一方面准确性较差。
技术实现思路
有鉴于此,本专利技术提供了一种POI识别的方法和装置,以便于提高POI分类的效率和准确性。具体技术方案如下:一种兴趣点POI识别的方法,所述方法包括:A、预先针对决策树的各节点分别训练分类器,具体包括:A1、确定决策树的各节点对应的训练集;A2、针对决策树的各节点分别执行:将当前节点对应的训练集作为当前节点的正样本数据,将与当前在决策树中对应同一父节点的其他节点的训练集作为当前节点的负样本数据,训练当前节点的分类器;B、从决策树的根节点开始,利用各节点的分类器逐级判决待标注的POI是否属于当前判决到的节点,利用判决结果标注所述待标注的POI。根据本专利技术一优选实施方式,所述步骤A1具体包括:A11、对已标注的POI数据进行聚类;A12、将聚类得到的各POI集合匹配到决策树的各节点上并作为匹配到的节点的候选训练集;A13、针对各节点的候选训练集的每一个POI分别执行:对当前POI进行网络数据挖掘,如果对当前POI挖掘出的网络数据与当前POI对应的节点匹配,则将当前POI数据放入对应节点的训练集。根据本专利技术一优选实施方式,步骤A12中所述将聚类得到的各POI集合匹配到决策树的各节点上包括:将聚类得到的各POI集合分别与决策树的各节点进行文本相似度的计算,如果POI集合i与节点j的文本相似度满足预设的相似度条件,则确定POI集合i匹配到了节点j上;或者,若POI集合i的POI数据中包含决策树的节点j,则确定POI集合i匹配到了节点j上。根据本专利技术一优选实施方式,步骤A13中所述对当前POI挖掘出的网络数据与当前POI对应的节点匹配包括:将对当前POI挖掘出的网络数据与当前POI对应的节点进行文本相似度的计算,如果文本相似度满足预设的相似度条件,则确定对当前POI挖掘出的网络数据与当前POI对应的节点匹配;或者,若当前POI挖掘出的网络数据中包含当前POI对应的节点,则确定对当前POI挖掘出的网络数据与当前POI对应的节点匹配。根据本专利技术一优选实施方式,所述步骤B具体包括:B11、获取待标注的POI的数据集;B12、从决策树的根节点开始执行步骤B13所述的判决;B13、将所述待标注的POI的数据集输入当前判决到的节点的分类器,若分类器输出所述待标注的POI属于当前判决到的节点的概率大于或等于预设的第一概率阈值,则执行步骤B14;若分类器输出所述待标注的POI属于当前判决到的节点的概率小于或等于预设的第二概率阈值,则执行步骤B15;若分类器输出所述待标注的POI属于当前判决到的节点的概率大于第二概率阈值且小于第一概率阈值,则执行步骤B16;B14、标注所述待标注的POI的主标签tag为当前判决到的节点,针对当前判决到的节点的子节点开始执行步骤B13所述的判决;B15、不继续进行当前判决到的节点的子节点的判决;B16、标注所述待标注的POI的次tag为当前判决到的节点,不继续进行当前判决到的节点的子节点的判决;其中所述第一概率阈值大于所述第二概率阈值。根据本专利技术一优选实施方式,所述主tag或次tag用于在搜索POI时召回用户输入的查询关键词命中的主tag或次tag对应的POI,但命中的主tag对应的POI的排次高于命中的次tag对应的POI的排次。根据本专利技术一优选实施方式,所述步骤B具体包括:B21、获取待标注的POI的数据集;B22、从决策树的根节点开始执行步骤B23所述的判决;B23、将所述待标注的POI的数据集输入当前判决到的节点的分类器,若分类器输出所述待标注的POI属于当前判决到的节点的概率大于或等于预设的第三概率阈值,则执行步骤B24;否则,不继续进行当前判决到的节点的子节点的判决;B24、标注所述待标注的POI的tag为当前判决到的节点,针对当前判决到的节点的子节点开始执行步骤B23所述的判决。根据本专利技术一优选实施方式,所述获取待标注的POI的数据集包括:获取运营商针对所述待标注的POI提供的数据;和/或,对所述待标注的POI进行网络数据挖掘,获取挖掘出的数据。根据本专利技术一优选实施方式,在训练分类器时以及在利用分类器进行判决时采用的特征为:从POI的名称中提取的类型信息,和/或从POI的地址中提取的n元词组n-gram,n为预设的正整数。一种POI识别的装置,该装置包括:训练单元和识别单元;所述训练单元具体包括:训练集确定子单元,用于确定决策树的各节点对应的训练集;分类器训练子单元,用于针对决策树的各节点分别执行:将当前节点对应的训练集作为当前节点的正样本数据,将与当前在决策树中对应同一父节点的其他节点的训练集作为当前节点的负样本数据,训练当前节点的分类器;所述识别单元,用于从决策树的根节点开始,利用各节点的分类器逐级判决待标注的POI是否属于当前判决到的节点,利用判决结果标注所述待标注的POI。根据本专利技术一优选实施方式,所述训练集确定子单元具体包括:聚类模块,用于对已标注的POI数据进行聚类;匹配模块,用于将聚类得到的各POI集合匹配到决策树的各节点上并作为匹配到的节点的候选训练集;挑选模块,用于针对各节点的候选训练集的每一个POI分别执行:对当前POI进行网络数据挖掘,如果对当前POI挖掘出的网络数据与当前POI对应的节点匹配,则将当前POI数据放入对应节点的训练集。根据本专利技术一优选实施方式,所述匹配模块在将聚类得到的各POI集合匹配到决策树的各节点上时,具体执行:将聚类得到的各POI集合分别与决策树的各节点进行文本相似度的计算,如果POI集合i与节点j的文本相似度满足预设的相似度条件,则确定POI集合i匹配到了节点j上;或者,若POI集合i的POI数据中包含决策树的节点j,则确定POI集合i匹配到了节点j上。根据本专利技术一优选实施方式,所述挑选模块具体将对当前POI挖掘出的网络数据与当前POI对应的节点进行文本相似度的计算,如果文本相似本文档来自技高网...
一种兴趣点识别方法和装置

【技术保护点】
一种兴趣点POI识别的方法,其特征在于,所述方法包括:A、预先针对决策树的各节点分别训练分类器,具体包括:A1、确定决策树的各节点对应的训练集;A2、针对决策树的各节点分别执行:将当前节点对应的训练集作为当前节点的正样本数据,将与当前在决策树中对应同一父节点的其他节点的训练集作为当前节点的负样本数据,训练当前节点的分类器;B、从决策树的根节点开始,利用各节点的分类器逐级判决待标注的POI是否属于当前判决到的节点,利用判决结果标注所述待标注的POI。

【技术特征摘要】
1.一种兴趣点POI识别的方法,其特征在于,所述方法包括:A、预先针对决策树的各节点分别训练分类器,具体包括:A11、对已标注的POI数据进行聚类;A12、将聚类得到的各POI集合匹配到决策树的各节点上并作为匹配到的节点的候选训练集;A13、针对各节点的候选训练集的每一个POI分别执行:对当前POI进行网络数据挖掘,如果对当前POI挖掘出的网络数据与当前POI对应的节点匹配,则将当前POI数据放入对应节点的训练集;A2、针对决策树的各节点分别执行:将当前节点对应的训练集作为当前节点的正样本数据,将与当前在决策树中对应同一父节点的其他节点的训练集作为当前节点的负样本数据,训练当前节点的分类器;B、从决策树的根节点开始,利用各节点的分类器逐级判决待标注的POI是否属于当前判决到的节点,利用判决结果标注所述待标注的POI。2.根据权利要求1所述的方法,其特征在于,步骤A12中所述将聚类得到的各POI集合匹配到决策树的各节点上包括:将聚类得到的各POI集合分别与决策树的各节点进行文本相似度的计算,如果POI集合i与节点j的文本相似度满足预设的相似度条件,则确定POI集合i匹配到了节点j上;或者,若POI集合i的POI数据中包含决策树的节点j,则确定POI集合i匹配到了节点j上。3.根据权利要求1所述的方法,其特征在于,步骤A13中所述对当前POI挖掘出的网络数据与当前POI对应的节点匹配包括:将对当前POI挖掘出的网络数据与当前POI对应的节点进行文本相似度的计算,如果文本相似度满足预设的相似度条件,则确定对当前POI挖掘出的网络数据与当前POI对应的节点匹配;或者,若当前POI挖掘出的网络数据中包含当前POI对应的节点,则确定对当前POI挖掘出的网络数据与当前POI对应的节点匹配。4.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:B11、获取待标注的POI的数据集;B12、从决策树的根节点开始执行步骤B13所述的判决;B13、将所述待标注的POI的数据集输入当前判决到的节点的分类器,若分类器输出所述待标注的POI属于当前判决到的节点的概率大于或等于预设的第一概率阈值,则执行步骤B14;若分类器输出所述待标注的POI属于当前判决到的节点的概率小于或等于预设的第二概率阈值,则执行步骤B15;若分类器输出所述待标注的POI属于当前判决到的节点的概率大于第二概率阈值且小于第一概率阈值,则执行步骤B16;B14、标注所述待标注的POI的主标签tag为当前判决到的节点,针对当前判决到的节点的子节点开始执行步骤B13所述的判决;B15、不继续进行当前判决到的节点的子节点的判决;B16、标注所述待标注的POI的次标签tag为当前判决到的节点,不继续进行当前判决到的节点的子节点的判决;其中所述第一概率阈值大于所述第二概率阈值。5.根据权利要求4所述的方法,其特征在于,所述主标签tag或次标签tag用于在搜索POI时召回用户输入的查询关键词命中的主标签tag或次标签tag对应的POI,但命中的主标签tag对应的POI的排次高于命中的次标签tag对应的POI的排次。6.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:B21、获取待标注的POI的数据集;B22、从决策树的根节点开始执行步骤B23所述的判决;B23、将所述待标注的POI的数据集输入当前判决到的节点的分类器,若分类器输出所述待标注的POI属于当前判决到的节点的概率大于或等于预设的第三概率阈值,则执行步骤B24;否则,不继续进行当前判决到的节点的子节点的判决;B24、标注所述待标注的POI的标签tag为当前判决到的节点,针对当前判决到的节点的子节点开始执行步骤B23所述的判决。7.根据权利要求4或6所述的方法,其特征在于,所述获取待标注的POI的数据集包括:获取运营商针对所述待标注的POI提供的数据;和/或,对所述待标注的POI进行网络数据挖掘,获取挖掘出的数据。8.根据权利要求1所述的方法,其特征在于,在训练分类器时以及在利用分类器进行判决时采用的特征为:从POI的名称中提取的类型信息,和/或从POI的地址中提取的n元词组n-gram,n为预设的正整数。9.一种POI识别的装置,其特征在于,该装置包括:训练单元和识别单元;所述训练单元具体包括:训练集确定子单元,用于确定决策树的各节点对应的训练集;分类器训练子单...

【专利技术属性】
技术研发人员:韩忠凯
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1