一种文物保护的异构多源数据融合处理方法、装置及系统制造方法及图纸

技术编号:35736056 阅读:42 留言:0更新日期:2022-11-26 18:38
本发明专利技术提供了一种文物保护的异构多源数据融合处理方法、装置和系统,其中,所述融合处理方法包括:构建文物保护的异构多源数据融合处理模型;利用构建的异构多源数据融合处理模型对原始数据进行结构化、数据规范化处理,得到第一数据集;利用构建的异构多源数据融合处理模型对第一数据进行数据清洗与质量评估,得到第二数据集;利用构建的异构多源数据融合处理模型对第二数据进行数据融合和数据摘取,得到最终数据集。相比于现有技术,本发明专利技术具有如下有益效果:构建了文物保护的异构多源数据融合处理系统,实现了对文物保护场景下的数据处理、数据融合;对接入的数据进行数据治理,解决了接入数据中存在的语义冲突、冗余、一致性、质量等问题。量等问题。量等问题。

【技术实现步骤摘要】
一种文物保护的异构多源数据融合处理方法、装置及系统


[0001]本专利技术涉及文物保护数据处理
,尤其涉及一种文物保护的异构多源数据融合处理方法、装置及系统。

技术介绍

[0002]数据处理工作在商业、医疗和电信等领域已经取得了成效,研究人员已经开发出部分数据治理框架和模型,并概括治理要素,从而指导数据处理框架的构建。
[0003]然而在文物保护领域中,由于文物保护的数据的异构性和多源性,比如需要从繁多的传感器、设备、人员、环境、系统甚至是社会秩序以及法律法规中获取数据,针对文物保护领域的数据处理方面的研究尚属空白。
[0004]可见,现在急需一种较为完善的数据处理平台,来对文物保护场景下的数据进行处理。

技术实现思路

[0005]针对现有技术中所存在的不足,根据本专利技术的实施例,提供了一种文物保护的异构多源数据融合处理方法、装置和系统,其解决了现有技术中存在的文物保护场景下的数据处理困难等问题。
[0006]第一个方面,在一个实施例中,提出来一种文物保护的异构多源数据融合处理方法,其特征在于,所述融合处理方法包括:
[0007]步骤S11:构建文物保护的异构多源数据融合处理模型;
[0008]步骤S12:利用构建的异构多源数据融合处理模型对原始数据进行结构化、数据规范化处理,得到第一数据集;
[0009]步骤S13:利用构建的异构多源数据融合处理模型对第一数据进行数据清洗与质量评估,得到第二数据集;
[0010]步骤S14:利用构建的异构多源数据融合处理模型对第二数据进行数据融合和数据摘取,得到最终数据集。
[0011]在一个实施例中,在构建文物保护的异构多源数据融合处理模型之后,所述方法还包括:
[0012]根据原始数据的规范性对不同的原始数据进行分类,得到半结构化原始数据和非结构化原始数据。
[0013]在一个实施例中,当所述原始数据的类型为半结构化原始数据时,利用构建的异构多源数据融合处理模型对原始数据进行结构化、数据规范化处理,得到第一数据集,包括:
[0014]对于以HTML网页、XML、WORD和EXCLE等文件形式存储的人员、制度等方面的半结构化文件,通过信息抽取技术识别文本中的实体、属性和关系,并输出为二维表形式的第一数据集。
[0015]在一个实施例中,当所述原始数据的类型为非结构化原始数据时,利用构建的异构多源数据融合处理模型对原始数据进行结构化、数据规范化处理,得到第一数据集,包括:
[0016]对于原始数据中的视频文件,通过构建视频信息核心元数据与其结构化信息的关联关系,实现视频文件到结构化数据的语义映射,形成第一数据集;
[0017]对于原始数据中的实体信息,通过调研资料、咨询相关专家、实体考察和访问信息系统,基于字典的命名实体识别技术建立同该实体的实体链指,形成第一数据集。
[0018]在一个实施例中,利用构建的异构多源数据融合处理模型对第一数据进行数据清洗与质量评估,得到第二数据集,包括:
[0019]针对第一数据集中的每组数值,当与该组数值的平均值偏差超过两倍标准差时,判定为异常值,并采用该组中位数来替代该异常值;
[0020]对于第一数据集中的结构性错误,通过人工识别的方法对该数据进行校正;
[0021]对于第一数据集中由系统层面造成的重复记录数据,通过系统依据时间数据判断消除重复项;
[0022]对于第一数据集中由实体的不同表述形成的重复数据,通过实体链指来实现重复项的清除;
[0023]对于第一数据集中的缺失数据,通过朴素贝叶斯和决策树将其转化为分类问题进行补充。
[0024]第二个方面,提出了一种文物遗址保护异构数据接入装置,其特征在于,主要包括:
[0025]数据融合处理模型构建模块,用于构建文物保护的异构多源数据融合处理模型;
[0026]数据处理模块,用于利用构建的异构多源数据融合处理模型对原始数据进行结构化、数据规范化处理,得到第一数据集;
[0027]数据清洗与质量评估模块,用于利用构建的异构多源数据融合处理模型对第一数据进行数据清洗与质量评估,得到第二数据集;
[0028]数据融合与数据摘取模块,用于利用构建的异构多源数据融合处理模型对第二数据进行数据融合和数据摘取,得到最终数据集。
[0029]第三个方面,提出了一种基于上述实施例中任意一项所述的文物保护的异构多源数据融合处理系统,其特征在于,所述融合处理系统采用层次化技术架构,主要包括基础设施层、数据资源层、应用支撑层、应用服务层和展现层,各层之间有统一的数据接口、数据交换规范、数字资源编目编码规范和安全保障规范;
[0030]所述基础设施层设置在系统的最底层,包括若干硬件和软件的组合;
[0031]所述数据资源层设置在所述基础设施层之上,用于存储基础原始数据和融合数据;所述数据资源层包括基础数据库模块、业务数据库模块、专题数据库模块和数字数据库模块;
[0032]所述应用支撑层设置在所述数据资源层之上,用于为所述数据融合处理系统提供应用支撑;所述应用支撑层包括组件库模块和基础服务模块;
[0033]所述应用服务层设置在所述应用支撑层之上,包括所述文物遗址保护异构数据接入装置,用于完成数据清洗、数据关联、数据融合等数据治理工作及边缘智能应用;所述应
用服务层包括元数据管理模块、主数据管理模块、血缘分析模块、资源目录管理模块、模型管理模块、数据上报管理模块和安全策略管理模块;
[0034]所述展现层设置于所述应用服务层之上,用于实现与用户的数据交互。
[0035]在一个实施例中,所述资源目录管理模块用于通过元数据收割机制汇聚数据,实现对数据的管理。
[0036]在一个实施例中,所述资源目录管理模块的管理数据由数据资源元数据构成,所述数据资源元数据被分为数据资源分类、数据资源名称、数据资源代码、数据资源提供方、数据资源提供方代码、来源系统、来源数据库、数据资源摘要、数据资源格式、数据项、共享属性、共享方式、开放属性、更新周期、发布日期、关联资源代码或/和数据服务。
[0037]在一个实施例中,数据资源分类还包括业务大类、业务细类、管理对象分类、主题分类和数据类别分类;数据资源提供方还包括数据资源提供方名称、提供方内部部门和提供方联系方式;数据资源格式还包括数据资源格式分类、数据资源格式类型和其他类型数据资源格式描述;数据项还包括数据项名称、数据类型和扩展数据类型;共享属性还包括共享类型、共享条件和共享范围;共享方式还包括共享方式分类、共享方式类型和共享服务方式;开放属性还包括是否向社会开放和开放条件;数据服务还包括服务类型和服务地址。
[0038]相比于现有技术,本专利技术具有如下有益效果:构建了文物保护的异构多源数据融合处理系统,实现了对文物保护场景下的数据处理、数据融合。
[0039]在数据结构化处理、数据质量评估与数据清洗、数据规范化、数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文物保护的异构多源数据融合处理方法,其特征在于,所述融合处理方法包括:步骤S11:构建文物保护的异构多源数据融合处理模型;步骤S12:利用构建的异构多源数据融合处理模型对原始数据进行结构化、数据规范化处理,得到第一数据集;步骤S13:利用构建的异构多源数据融合处理模型对第一数据进行数据清洗与质量评估,得到第二数据集;步骤S14:利用构建的异构多源数据融合处理模型对第二数据进行数据融合和数据摘取,得到最终数据集。2.如权利要求1所述的一种文物保护的异构多源数据融合处理方法,其特征在于,在构建文物保护的异构多源数据融合处理模型之后,所述方法还包括:根据原始数据的规范性对不同的原始数据进行分类,得到半结构化原始数据和非结构化原始数据。3.如权利要求2所述的一种文物保护的异构多源数据融合处理方法,其特征在于,当所述原始数据的类型为半结构化原始数据时,利用构建的异构多源数据融合处理模型对原始数据进行结构化、数据规范化处理,得到第一数据集,包括:对于以HTML网页、XML、WORD和EXCLE等文件形式存储的人员、制度等方面的半结构化文件,通过信息抽取技术识别文本中的实体、属性和关系,并输出为二维表形式的第一数据集。4.如权利要求3所述的一种文物保护的异构多源数据融合处理方法,其特征在于,当所述原始数据的类型为非结构化原始数据时,利用构建的异构多源数据融合处理模型对原始数据进行结构化、数据规范化处理,得到第一数据集,包括:对于原始数据中的视频文件,通过构建视频信息核心元数据与其结构化信息的关联关系,实现视频文件到结构化数据的语义映射,形成第一数据集;对于原始数据中的实体信息,通过调研资料、咨询相关专家、实体考察和访问信息系统,基于字典的命名实体识别技术建立同该实体的实体链指,形成第一数据集。5.如权利要求4所述的一种文物保护的异构多源数据融合处理方法,其特征在于,利用构建的异构多源数据融合处理模型对第一数据进行数据清洗与质量评估,得到第二数据集,包括:针对第一数据集中的每组数值,当与该组数值的平均值偏差超过两倍标准差时,判定为异常值,并采用该组中位数来替代该异常值;对于第一数据集中的结构性错误,通过人工识别的方法对该数据进行校正;对于第一数据集中由系统层面造成的重复记录数据,通过系统依据时间数据判断消除重复项;对于第一数据集中由实体的不同表述形成的重复数据,通过实体链指来实现重复项的清除;对于第一数据集中的缺失数据,通过朴素贝叶斯和决策树将其转化为分类问题进行补充。6.一种文物遗址保护异构数据接入装置,其特征在于,主要包括:数据融合处理模型构建模块,用于构建文物保护的异构多源数据融合处理模型;
数据处理模块,用于利...

【专利技术属性】
技术研发人员:王奎殷庆李想位冠飞郭磊江曼陈潇
申请(专利权)人:重庆声光电智联电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1