信息资源编目文件的数据清洗方法及装置制造方法及图纸

技术编号:30408437 阅读:26 留言:0更新日期:2021-10-20 11:20
本发明专利技术提供了一种信息资源编目文件的数据清洗方法及装置,其中,该方法包括:对信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查;根据完整上级分类编码清洗不合法数据;根据信息资源完整分类编码校验合法性,根据信息资源完整分类编码、分类编码及完整上级分类编码清洗错误数据,根据信息资源名称和信息资源编码清洗重复数据,根据信息资源格式分类和信息资源格式类型清洗不全数据;根据完整分类编码与完整上级编码和分类编码清洗错误数据,根据信息资源编码清洗错误数据,根据信息项名称和信息项编码清洗的重复数据;并对不合法数据信息进行统一重构。通过上述方案能够提高信息资源管理效率。息资源管理效率。息资源管理效率。

【技术实现步骤摘要】
信息资源编目文件的数据清洗方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种信息资源编目文件的数据清洗方法及装置。

技术介绍

[0002]信息资源存在数量多、门类广、分布分散、信息不对称的特性,由于这些特性造成信息资源采集录入与管理上的困难。目前市面上的软件系统有多种获取方式,包括日常行政管理过程中形成的,或者是通过先进的自动化监测仪器(例如,卫星遥感影像等)进行采集等,但往往功能上只是单一的手动整理录入,操作过程较为繁琐。
[0003]若要实现信息资源更好的管理,就需要一种全面的技术方式来处理信息资源,实现信息资源的高效管理,满足人们在大量信息资源中准确、全面、迅速、方便、经济地获取所需信息内容的各种要求。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种信息资源编目文件的数据清洗方法及装置,以提高信息资源管理效率。
[0005]为了达到上述目的,本专利技术采用以下方案实现:
[0006]根据本专利技术实施例的一个方面,提供了一种信息资源编目文件的数据清洗方法,包括:
[0007]获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件;
[0008]对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查;
[0009]获取信息资源编目文件中信息资源分类模板表中的分类名称、分类编码及完整上级分类编码,根据分类名称和分类编码清洗信息资源分类模板表中的重复数据,根据完整上级分类编码清洗信息资源分类模板表中的不合法数据;
[0010]获取信息资源编目文件中信息资源信息模板表中的信息资源完整分类编码、信息资源名称、信息资源编码、信息资源格式分类及信息资源格式类型,根据信息资源完整分类编码校验信息资源信息模板表中数据信息的合法性,根据信息资源完整分类编码、分类编码及完整上级分类编码清洗信息资源信息模板表中的错误数据,根据信息资源名称和信息资源编码清洗信息资源信息模板表中的重复数据,根据信息资源格式分类和信息资源格式类型清洗信息资源信息模板表中的不全数据;
[0011]获取信息资源编目文件中信息项模板表中的完整分类编码、信息资源编码、信息项名称及信息项编码,根据信息项模板表中的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码清洗信息项模板表中的错误数据,根据信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码清洗错误数据,根据信息项模板表中的信息
项名称和信息项编码清洗信息项模板表中的重复数据;
[0012]获取信息项模板表中的数据类型、数据长度、共享类型、共享条件、共享方式分类、共享方式类型、开放类型及开放条件中的一个或多个数据信息进行合法性验证,并对不合法数据信息进行统一重构。
[0013]在一些实施例中,获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件,包括:
[0014]通过http协议获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件。
[0015]在一些实施例中,对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查,包括:
[0016]比对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表名称;
[0017]比对信息资源分类模板表中的分类编码、信息资源分类模板表中的完整上级分类编码、信息资源信息模板表中的信息资源完整分类编码、信息项模板表中的完整分类编码、及信息项模板表中的信息资源编码之间的映射关系;
[0018]校验信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的文件名格式一致性。
[0019]在一些实施例中,根据分类名称和分类编码清洗信息资源分类模板表中的重复数据,包括:
[0020]根据分类名称和分类编码校验信息资源分类模板表中数据信息的重复性,并清洗信息资源分类模板表中的重复数据信息。
[0021]在一些实施例中,根据信息资源完整分类编码校验信息资源信息模板表中数据信息的合法性,包括:
[0022]判断信息资源信息模板表中信息资源完整分类编码的数据是否存在,若存在,则确定信息资源信息模板表中相应数据信息为合法数据;
[0023]根据信息资源完整分类编码、分类编码及完整上级分类编码清洗信息资源信息模板表中的错误数据,包括:
[0024]拆分信息资源完整分类编码,通过比对将拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,将校验无效的数据作为错误数据,并清洗信息资源信息模板表中的错误数据;
[0025]根据信息资源名称和信息资源编码清洗信息资源信息模板表中的重复数据,包括:
[0026]根据信息资源名称和信息资源编码校验信息资源信息模板表中的重复数据,并清洗信息资源信息模板表中的重复数据;
[0027]根据信息资源格式分类和信息资源格式类型清洗信息资源信息模板表中的不全数据,包括:
[0028]根据信息资源格式分类和信息资源格式类型校验信息资源信息模板表中的信息资源格式类型不全的数据,并清洗信息资源信息模板表中信息资源格式类型不全的数据。
[0029]在一些实施例中,根据信息项模板表中的完整的分类编码与信息资源分类模板表
中的完整上级编码和分类编码清洗信息项模板表中的错误数据,包括:
[0030]拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码校验信息项模板表中数据的有效性,将无效数据作为无效数据,并清洗信息项模板表中的无效数据;
[0031]根据信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码清洗错误数据,包括:
[0032]通过比对信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码校验信息项模板表中数据的有效性,将无效数据作为错误数据,并清洗错误数据;
[0033]根据信息项模板表中的信息项名称和信息项编码清洗信息项模板表中的重复数据,包括:
[0034]根据信息项模板表中的信息项名称和信息项编码校验信息项模板表中的重复数据,并清洗重复数据。
[0035]在一些实施例中,拆分信息资源完整分类编码,通过比对将拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,包括
[0036]根据分隔符拆分信息资源完整分类编码,通过比对将拆分后的信息资源完整分类编码与分类编码和完整上级分类编码校验信息资源信息模板表中数据的有效性,其中,信息资源完整分类编码由分类编码和完整上级分类编码通过分隔符连接成。
[0037]在一些实施例中,拆分信息项模板表中的完整分类编码,通过比对拆分后的完整分类编码与信息资源分类模板表中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息资源编目文件的数据清洗方法,其特征在于,包括:获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件;对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查;获取信息资源编目文件中信息资源分类模板表中的分类名称、分类编码及完整上级分类编码,根据分类名称和分类编码清洗信息资源分类模板表中的重复数据,根据完整上级分类编码清洗信息资源分类模板表中的不合法数据;获取信息资源编目文件中信息资源信息模板表中的信息资源完整分类编码、信息资源名称、信息资源编码、信息资源格式分类及信息资源格式类型,根据信息资源完整分类编码校验信息资源信息模板表中数据信息的合法性,根据信息资源完整分类编码、分类编码及完整上级分类编码清洗信息资源信息模板表中的错误数据,根据信息资源名称和信息资源编码清洗信息资源信息模板表中的重复数据,根据信息资源格式分类和信息资源格式类型清洗信息资源信息模板表中的不全数据;获取信息资源编目文件中信息项模板表中的完整分类编码、信息资源编码、信息项名称及信息项编码,根据信息项模板表中的完整分类编码与信息资源分类模板表中的完整上级编码和分类编码清洗信息项模板表中的错误数据,根据信息项模板表中的信息资源编码和信息资源信息模板表中的信息资源编码清洗错误数据,根据信息项模板表中的信息项名称和信息项编码清洗信息项模板表中的重复数据;获取信息项模板表中的数据类型、数据长度、共享类型、共享条件、共享方式分类、共享方式类型、开放类型及开放条件中的一个或多个数据信息进行合法性验证,并对不合法数据信息进行统一重构。2.如权利要求1所述的信息资源编目文件的数据清洗方法,其特征在于,获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件,包括:通过http协议获取包含信息资源分类模板表、信息资源信息模板表及信息项模板表的信息资源编目文件。3.如权利要求1所述的信息资源编目文件的数据清洗方法,其特征在于,对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表信息及表关系进行有效性分析及错误检查,包括:比对信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的表名称;比对信息资源分类模板表中的分类编码、信息资源分类模板表中的完整上级分类编码、信息资源信息模板表中的信息资源完整分类编码、信息项模板表中的完整分类编码、及信息项模板表中的信息资源编码之间的映射关系;校验信息资源编目文件中信息资源分类模板表、信息资源信息模板表及信息项模板表的文件名格式一致性。4.如权利要求1所述的信息资源编目文件的数据清洗方法,其特征在于,根据分类名称和分类编码清洗信息资源分类模板表中的重复数据,包括:根据分类名称和分类编码校验信息资源分类模板表中数据信息的重复性,并清洗信息
资源分类模板表中的重复数据信息。5.如权利要求1所述的信息资源编目文件的数据清洗方法,其特征在于,根据信息资源完整分类编码校验信息资源信息模板表中数据信息的合法性,包括:判断信息资源信息模板表中信息资源完整分类编码的数据是否存在,若存在,则确...

【专利技术属性】
技术研发人员:王臻赵龙军罗雨帆崔丹丹郝治国李攀李洋
申请(专利权)人:中国雄安集团数字城市科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1