【技术实现步骤摘要】
一种数据目录的分类方法、装置、系统、设备和存储介质
[0001]本专利技术涉及数据处理
,具体涉及一种数据目录的分类方法、装置、系统、设备和存储介质。
技术介绍
[0002]在进行自然资源信息规划时,数据目录是探索和使用数据的主要方式,数据目录包含数据的分类,主要包括大类和小类的划分,比如大类包括管理数据、规划数据、现状数据等。往下还会有细分的小类,比如现状数据下有水资源、海洋、气候、灾害等。规划数据下有土地利用规划、城乡规划、林地规划等,管理数据下有不动产登记、自然资源确权登记等,目录下的分类是非常多的。在分类存储时需要通过人工识别出数据所属的类别后,再放入对应的分类目录下。而自然资源体系下的数据来源以及数据目录的分类体系呈现越来越复杂的趋势,通过人工识别来生产数据目录的方式不仅成本高而且效率低。
技术实现思路
[0003]为了解决现有技术存在的成本高、效率低的问题,本专利技术提供了一种数据目录的分类方法、装置、系统、设备和存储介质,其具有自动分类、效率更高等特点。
[0004]根据本专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种数据目录的分类方法,其特征在于,包括:获取待分类的空间数据文件;将所述待分类的空间数据文件转换为预设格式的数据文件,所述预设格式的数据文件中具有表征空间数据特征的属性数据;将所述预设格式的数据文件输入至预先构建的目录分类模型中进行目录类别识别,以得到和所述属性数据相匹配的目录类别;将所述目录分类模型输出的所述目录类别和所述待分类的空间数据文件相关联后存储。2.根据权利要求1所述的方法,其特征在于,所述将所述预设格式的数据文件输入至预先构建的目录分类模型中进行目录类别识别,以得到和所述属性数据相匹配的目录类别,包括:基于机器学习算法构建至少两个初始分类模型;基于分类训练数据集合对每个所述初始分类模型分别进行训练和测试;将所述预设格式的数据文件输入至正确率最高的初始分类模型中进行目录类别识别,以得到和所述属性数据相匹配的目录类别。3.根据权利要求2所述的方法,其特征在于,所述基于分类训练数据集合对每个所述初始分类模型分别进行训练和测试,包括:将所述分类训练数据集中的一部分数据进行每个所述初始分类模型的训练,另一部分数据进行每个所述初始分类模型的测试,所述分类训练数据集中每个包含属性数据的文档具有唯一的目标标签。4.根据权利要求2所述的方法,其特征在于,所述基于分类训练数据集合对每个所述初始分类模型分别进行训练和测试,还包括:若得到的每个所述初始分类模型的正确率均小于预设阈值,则重新调整所述分类训练数据集合中的数据构成后,基于调整后的分类训练...
【专利技术属性】
技术研发人员:肖静,罗亚,杨龙,白富权,于海昕,韩晓峰,张永朋,
申请(专利权)人:上海数慧系统技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。