地点数据集及其建立方法和装置、数据处理方法和装置制造方法及图纸

技术编号:24708094 阅读:54 留言:0更新日期:2020-06-30 23:59
本说明书实施例提供一种地点数据集及其建立方法和装置、数据处理方法和装置,采集地点数据,将所述地点数据划分为多个类别,其中,第i+1类别的每条地点数据从属于第i类别的一条地点数据,每条地点数据分别对应一个地理区域,第i+1类别的第一地点数据对应的地理区域为第i类别的第二地点数据对应的地理区域的子区域;其中,所述第一地点数据从属于所述第二地点数据,i为正整数;采集至少一个地理区域的特征信息和图像;分别将所述特征信息和图像与对应的地点数据相关联,并根据各个地点数据及其所属的类别以及相关联的特征信息和图像,建立地点数据集。

【技术实现步骤摘要】
地点数据集及其建立方法和装置、数据处理方法和装置
本公开涉及数据处理
,尤其涉及地点数据集及其建立方法和装置、数据处理方法和装置。
技术介绍
在日常生活中,常常需要获取地点数据或者与地点数据相关的信息。例如,给定某个建筑物的照片,需要确定照片中的地点的功能(例如,餐馆或者商店),文化类型(例如,亚式风格或者欧式风格)以及经济类型(例如,工业型或者旅游型)。上述过程称为地点理解。地点理解一般是基于预先建立的地点数据集进行的,因此,地点数据集会对地点理解效果产生重要影响。然而,传统的地点数据集一般是基于特定的任务建立的,适用范围窄。
技术实现思路
本公开提供一种地点数据集及其建立方法和装置、数据处理方法和装置。根据本公开实施例的第一方面,提供一种地点数据集建立方法,所述方法包括:采集地点数据,将所述地点数据划分为多个类别,其中,第i+1类别的每条地点数据从属于第i类别的一条地点数据,每条地点数据分别对应一个地理区域,第i+1类别的第一地点数据对应的地理区域为第i类别的第二地点数据对应的地理区域的子区域;其中,所述第一地点数据从属于所述第二地点数据,i为正整数;采集至少一个地理区域的特征信息和图像;分别将所述特征信息和图像与对应的地点数据相关联,并根据各个地点数据及其所属的类别以及相关联的特征信息和图像,建立地点数据集。在一些实施例中,所述采集多个类别的地点数据,包括:采集原始数据;从所述原始数据中过滤掉非地点数据,得到所述多个类别的地点数据。在一些实施例中,所述从所述原始数据中过滤掉非地点数据,包括:在所述原始数据中不包括地理位置信息的情况下,和/或,在所述原始数据对应的实体识别结果指示所述原始数据对应的目标对象不属于地点类别的实体对象的情况下,过滤掉述目标对象对应的原始数据。在一些实施例中,所述方法还包括:在分别将所述特征信息和图像与对应的地点数据相关联之前,对所述图像进行去重处理。在一些实施例中,所述对所述图像进行去重处理,包括:获取至少部分图像的哈希值;根据所述至少部分图像的哈希值对所述至少部分图像进行去重处理。在一些实施例中,各个类别的地点数据对应的地理区域包括洲、国家、地区、省、州、市、县、镇中的一者;和/或第j类别的地点数据对应的地理区域的特征信息包括以下至少一项:国内生产总值、人口密度信息、人口总数信息、海拔信息、时区信息、面积信息、陆域信息、海域信息、第一地理位置信息、建立时间信息;和/或第k类别的地点数据对应的地理区域的特征信息包括以下至少一项:访问时间信息、第二地理位置信息、描述信息、消费信息、功能信息;其中,j与k为小于类别总数的正整数,且j小于k。根据本公开实施例的第二方面,提供一种地点数据集,所述地点数据集基于任一用于建立地点数据集的方法实施例中所述的方法而建立。根据本公开实施例的第三方面,提供一种数据处理方法,所述方法包括:将待处理数据输入预先训练的地点数据处理模型;通过所述地点数据处理模型对所述待处理数据进行处理,得到处理结果;其中,所述地点数据处理模型根据从预先建立的地点数据集中获取的训练样本数据训练得到,并基于预先确定的任务类型对所述待处理数据进行处理;所述地点数据集中包括多个类别的地点数据,第i+1类别的每条地点数据从属于第i类别的一条地点数据,每条地点数据对应一个地理区域,第i+1类别的第一地点数据对应的地理区域为第i类别的第二地点数据对应的地理区域的子区域;其中,所述第一地点数据从属于所述第二地点数据,至少一个类别的地点数据与对应地理区域的特征信息和图像相关联,i为正整数。在一些实施例中,所述任务类型包括:地点检索任务,地点分类任务,地点功能分类任务或者地点识别任务中的至少一项。在一些实施例中,所述方法还包括:根据基于所述任务类型而确定的评估参数,对所述地点数据处理模型的处理结果的准确率进行评估。在一些实施例中,在所述任务类型包括地点检索任务的情况下,所述评估参数包括所述地点数据处理模型的检索准确率;和/或在所述任务类型包括地点分类任务的情况下,所述评估参数包括所述地点数据处理模型的分类准确率;和/或在所述任务类型包括地点功能分类任务的情况下,所述评估参数包括所述地点数据处理模型的分类准确率;和/或在所述任务类型包括地点识别任务的情况下,所述评估参数包括所述地点数据处理模型的识别准确率。根据本公开实施例的第四方面,提供一种数据处理方法,所述方法包括:从地点数据集中采集多个目标地理区域对应的目标地点数据;对于每个目标地理区域对应的目标地点数据,根据与所述目标地点数据相关联的特征信息以及从属于所述目标地点数据的地点数据的图像,对所述目标地理区域进行向量化处理,得到所述目标地理区域的表示向量;根据所述多个目标地理区域对应的表示向量确定所述多个目标地理区域之间的关联关系;其中,所述地点数据集基于任一地点数据集建立方法而建立。在一些实施例中,所述根据与所述目标地点数据相关联的特征信息以及从属于所述目标地点数据的地点数据的图像,对所述目标地理区域进行向量化处理,得到所述目标地理区域的表示向量,包括:将与所述目标地点数据相关联的特征信息以及从属于所述目标地点数据的地点数据的图像分别输入预先建立的地点数据处理模型,并获取所述地点数据处理模型输出的所述目标地理区域的表示向量。在一些实施例中,所述地点数据处理模型通过以下方式获取所述目标地理区域的表示向量:获取所述目标地点数据相关联的特征信息对应的特征向量;将所述特征向量作为所述目标地理区域的表示向量;或者获取从属于所述目标地点数据的地点数据的图像对应的图像向量;将所述图像向量作为所述目标地理区域的表示向量;或者获取所述目标地点数据相关联的特征信息对应的特征向量,以及从属于所述目标地点数据的地点数据的图像对应的图像向量;根据所述特征向量和图像向量生成所述目标地理区域的表示向量。在一些实施例中,所述根据所述特征向量和图像向量生成所述目标地理区域的表示向量,包括:获取各个图像向量的平均向量;根据所述特征向量和平均向量生成所述目标地理区域的表示向量。根据本公开实施例的第五方面,提供一种地点数据集建立装置,所述装置包括:第一采集模块,用于采集地点数据,将所述地点数据划分为多个类别,其中,第i+1类别的每条地点数据从属于第i类别的一条地点数据,每条地点数据分别对应一个地理区域,第i+1类别的第一地点数据对应的地理区域为第i类别的第二地点数据对应的地理区域的子区域;其中,所述第一地点数据从属于所述第二地点数据,i为正整数;第二采集模块,用于采集至少一个地理区域的特征信息和图像;建立模块,用于分别将所述特征信息和图像与对应的地点数据相关联,并根据各个地点数据及其所属的类别以及相关联的特征信息和图像,建立地点数据集。根据本公开实施例的第六方面,提供一种数据处理装置,所述装置包括:输入模块,用于将待处理数据输入预先训练的地点数据处理模型;任务处理模块,用于通过所述地点数据处理模型对所述待处理数据进行处理,得到处理结果;其中,所述地点数据处理模本文档来自技高网...

【技术保护点】
1.一种地点数据集建立方法,其特征在于,所述方法包括:/n采集地点数据,将所述地点数据划分为多个类别,其中,第i+1类别的每条地点数据从属于第i类别的一条地点数据,每条地点数据分别对应一个地理区域,第i+1类别的第一地点数据对应的地理区域为第i类别的第二地点数据对应的地理区域的子区域;其中,所述第一地点数据从属于所述第二地点数据,i为正整数;/n采集至少一个地理区域的特征信息和图像;/n分别将所述特征信息和图像与对应的地点数据相关联,并根据各个地点数据及其所属的类别以及相关联的特征信息和图像,建立地点数据集。/n

【技术特征摘要】
1.一种地点数据集建立方法,其特征在于,所述方法包括:
采集地点数据,将所述地点数据划分为多个类别,其中,第i+1类别的每条地点数据从属于第i类别的一条地点数据,每条地点数据分别对应一个地理区域,第i+1类别的第一地点数据对应的地理区域为第i类别的第二地点数据对应的地理区域的子区域;其中,所述第一地点数据从属于所述第二地点数据,i为正整数;
采集至少一个地理区域的特征信息和图像;
分别将所述特征信息和图像与对应的地点数据相关联,并根据各个地点数据及其所属的类别以及相关联的特征信息和图像,建立地点数据集。


2.根据权利要求1所述的方法,其特征在于,所述采集地点数据,包括:
采集原始数据;
从所述原始数据中过滤掉非地点数据,得到所述多个类别的地点数据。


3.根据权利要求2所述的方法,其特征在于,所述从所述原始数据中过滤掉非地点数据,包括:
在所述原始数据中不包括地理位置信息的情况下,和/或,在所述原始数据对应的实体识别结果指示所述原始数据对应的目标对象不属于地点类别的实体对象的情况下,过滤掉述目标对象对应的原始数据。


4.根据权利要求1至3任意一项所述的方法,其特征在于,所述方法还包括:
在分别将所述特征信息和图像与对应的地点数据相关联之前,对所述图像进行去重处理。


5.根据权利要求4所述的方法,其特征在于,所述对所述图像进行去重处理,包括:
获取至少部分图像的哈希值;
根据所述至少部分图像的哈希值对所述至少部分图像进行去重处理。


6.根据权利要求1至5任意一项所述的方法,其特征在于,各个类别的地点数据对应的地理区域包括洲、国家、地区、省、州、市、县、镇中的一者;和/或
第j类别的地点数据对应的地理区域的特征信息包括以下至少一项:国内生产总值、人口密度信息、人口总数信息、海拔信息、时区信息、面积信息、陆域信息、海域信息、第一地理位置信息、建立时间信息;和/或
第k类别的地点数据对应的地理区域的特征信息包括以下至少一项:访问时间信息、第二地理位置信息、描述信息、消费信息、功能信息;
其中,j与k为小于类别总数的正整数,且j小于k。


7.一种地点数据集,其特征在于,所述地点数据集基于权利要求1至6任意一项所述的方法而建立。


8.一种数据处理方法,其特征在于,所述方法包括:
将待处理数据输入预先训练的地点数据处理模型;
通过所述地点数据处理模型对所述待处理数据进行处理,得到处理结果;
其中,所述地点数据处理模型根据从预先建立的地点数据集中获取的训练样本数据训练得到,并基于预先确定的任务类型对所述待处理数据进行处理;
所述地点数据集中包括多个类别的地点数据,第i+1类别的每条地点数据从属于第i类别的一条地点数据,每条地点数据对应一个地理区域,第i+1类别的第一地点数据对应的地理区域为第i类别的第二地点数据对应的地理区域的子区域;其中,所述第一地点数据从属于所述第二地点数据,至少一个类别的地点数据与对应地理区域的特征信息和图像相关联,i为正整数。


9.根据权利要求8所述的方法,其特征在于,所述任务类型包括:地点检索任务,地点分类任务,地点功能分类任务或者地点识别任务中的至少一项。


10.根据权利要求8或9所述的方法,其特征在于,所述方法还包括:
根据基于所述任务类型而确定的评估参数,对所述地点数据处理模型的处理结果的准确率进行评估。


11.根据权利要求10所述的方法,其特征在于,在所述任务类型包括地点检索任务的情况下,所述评估参数包括所述地点数据处理模型的检索准确率;和/或
在所述任务类型包括地点分类任务的情况下,所述评估参数包括所述地点数据处理模型的分类准确率;和/或
在所述任务类型包括地点功能分类任务的情况下,所述评估参数包括所述地点数据处理模型的分类准确率;和/或
在所述任务类型包括地点识别任务的情况下,所述评估参数包括所述地点数据处理模型的识别准确率。


12.一种数据处理方法,其特征在于,所述方法包括:
从地点数据集中采集多个目标地理区域对应的目标地点数据;
对于每个目标地理区域对应的目标地点...

【专利技术属性】
技术研发人员:黄怀毅章余琪郭正奎黄青虬刘子纬林达华
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1