【技术实现步骤摘要】
一种基于类别代码匹配的多源数据优化处理方法
[0001]本专利技术涉及数据处理方法
,尤其涉及一种多源数据处理方法。
技术介绍
[0002]随着社会的不断进步,部分城市正在以数字产业化和产业数字化为主攻方向,大力发展数字经济,建设智慧城市、数字生态,促进数字化转型;其中,信息资源库的建设和管理,是建设智慧城市的一项重要工作;对新增加的数据进行梳理、清洗以及数据质量提升的同时,对所有历史数据进行管理;通过数据梳理、关联比对和整合后,形成了公共基础信息资源,为领导决策、公共资源配置、公共服务与管理提供数据支撑;随着增量数据的梳理数量级越来越大,用户在政府工作和民生方面,对库的数据质量的要求也越来越高,需要进一步推进数据梳理工作。
[0003]经检索,中国专利申请号为CN201710521990.7的专利,公开了一种基于知识库的数据快速梳理方法及系统,基于根据业务信息资源及资源之间的关系已经建立的知识库对应的板块集合,判断当前要进行数据梳理的第二板块是否有与所述板块集合中的第一板块属于共同上级的相同业务类型,如果有, ...
【技术保护点】
【技术特征摘要】
1.一种多源数据处理方法,其特征在于,包括如下步骤:S1:数据的分类,对数据的类型进行分类;S2:数据的整理,基于数据类型进行数据整理;S3:数据的优化,对整理后的数据进行优化;S4:数据的存储,存储优化完成的数据;其中,所述S1中,数据的分类具体包括如下步骤:S11:预设类别库,针对所要获取的数据类型设立类别库;S12:预设关键词,根据所要获取的数据类型,设立关键词;S13:关键词与类别库的匹配,将关键词与相应的类别库进行匹配,赋予关键词相应的类别代码;S14:在获取的源数据中筛查关键词,将筛查出的关键词的类别代码赋予该条源数据;S15:将该条源数据根据类别代码的赋予结果存储至相应的类别库中。2.根据权利要求1所述的一种多源数据处理方法,其特征在于,所述S14步骤中,若筛查出一个关键词,直接将该源数据按照关键词的类别代码分类至相应的类别库中;若筛查出多个关键词,则将对应的类别代码均赋予该条源数据,针对重复的类别代码计次处理。3.根据权利要求2所述的一种多源数据处理方法,其特征在于,所述类别代码赋有权重值,在对具有多个类别代码的源数据进行分类时,根据源数据被赋予的类别代码计算类别权重值,计算方式为:该类别代码的权重值
×
该类别代码计次的次数=该源数据的类别权重值;计算得出所有的类别权重值后,对类别权重值进行比较,以类别权重值最大的类别代码为准,将该源数据分类至相应的类别库中。4.根据权利要求3所述的一种多源数据处理方法,其特征在于,所述...
【专利技术属性】
技术研发人员:武刚,潘晓军,贺智博,
申请(专利权)人:深圳市大数据资源管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。