一种基于多源异构数据融合的非遗知识图谱构建方法技术

技术编号：40945750 阅读：2 留言：0更新日期：2024-04-18 15:03

本发明专利技术公开了一种基于多源异构数据融合的非遗知识图谱构建方法，涉及文化遗产保护技术领域，所述数据收集单元用于从多个来源收集非遗相关的数据，所述数据融合单元用于融合经过清洗和预处理操作后的非遗相关的数据，所述特征提取单元使用深度学习技术对融合后的数据进行特征提取，所述知识图谱构建单元使用图谱构建算法构建非遗知识图谱，所述知识图谱存储和可视化单元用于将构建好的非遗知识图谱存储在数据库或知识库中，并使用可视化技术进行展示。本发明专利技术通过语义相似度模型来判断数据源中是否存在同名实体含义不同以及不同名称实体代表同一含义的情况，并对收集到的非遗数据集进行实体消歧和共指消解操作来提高数据集的融合效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文化遗产保护，具体为一种基于多源异构数据融合的非遗知识图谱构建方法。

技术介绍

1、在非遗知识图谱的构建过程中，多源异构数据融合是关键步骤之一，通过融合不同来源、不同格式的数据，可以丰富知识图谱的内容，提高其完整性和准确性，然而现有的非遗知识谱图在构建的过程中并不能自动识别不同数据源之间的关联关系，多源异构数据并不能有效融合，存在一定的缺陷。

2、现有的非遗知识图谱构建方法存在的缺陷是：

3、1、在专利文件cn111813963b中，主要考虑如何降低知识图谱构建的门槛，并没有考虑到现有的在构建非遗知识图谱时存在数据融合效果差的问题；

4、2、在专利文件cn106168965b中，主要考虑如何实现整个知识图谱构建系统的稳定架构设计，并没有考虑到现有的在构建非遗知识图谱时大多使用统一的模型进行训练，数据输出结果的准确性较低；

5、3、在专利文件cn112347265b中，主要考虑如何提高实体关系预测的准确性，并没有考虑到现有的在构建非遗知识图谱时并不能根据属性的不同来分析不同数据子集内各实体之间的关系，分析结果的误差较大；

6、4、在专利文件cn113177124b中，主要考虑如何提高知识图谱构建方法的专业性、准确性和高效性，并没有考虑到现有的在构建非遗知识图谱时数据来源较为单一的问题。

技术实现思路

1、本专利技术的目的在于提供一种基于多源异构数据融合的非遗知识图谱构建方法，以解决上述
技术介绍
中提出的问题。p>

2、为实现上述目的，本专利技术提供如下技术方案：一种基于多源异构数据融合的非遗知识图谱构建方法，包括数据收集单元、数据清洗预处理单元、数据融合单元、特征提取单元、知识图谱构建单元与知识图谱存储和可视化单元，所述数据收集单元用于从多个来源收集非遗相关的数据，所述数据清洗预处理单元用于对数据收集单元收集到的数据进行清洗和预处理操作，所述数据融合单元用于融合经过清洗和预处理操作后的非遗相关的数据，所述特征提取单元使用深度学习技术对融合后的数据进行特征提取，所述知识图谱构建单元使用图谱构建算法构建非遗知识图谱，所述知识图谱存储和可视化单元用于将构建好的非遗知识图谱存储在数据库或知识库中，并使用可视化技术进行展示；

3、所述数据融合单元与数据库交互，所述知识图谱存储和可视化单元与javascript数据可视化库进行交互；

4、所述基于多源异构数据融合和深度学习的非遗知识图谱构建方法如下：

5、s1、使用多种方式收集各种来源的非遗数据，并将收集到的非遗知识数据整理成非遗数据集；

6、s2、去除非遗数据集中重复数据、填补缺失值、去除噪音，并进行格式转换操作，然后使用语义相似度模型筛选相同或相似实体，并进行实体消歧和共指消解操作；

7、s3、利用关联规则挖掘算法对预处理后的非遗数据集进行融合挖掘；

8、s4、构建机器学习模型，并使用深度学习技术进行特征提取操作；

9、s5、使用提取的特征训练机器学习模型；

10、s6、通过实体链接技术和图谱构建算法生成非遗知识图谱；

11、s7、将构建好的非遗知识图谱存储在数据库或知识库中，并根据非遗知识的特点和需求，进行可视化设计和实现，为用户提供交互式可视化界面和体验。

12、优选的，在s1中，还包括如下步骤：多种收集方式包括关键词、修饰词、中心词、否定词、时间、起源地和流传地中的其中一种或多种；

13、各种来源的非遗数据包括从图书馆、博物馆和档案馆的平台、数据库或社交媒体中收集的文本、图像、音频和视频。

14、优选的，在s2中，还包括如下步骤：

15、s21、语义相似度模型通过比较非遗实体间的语义相似度，来衡量非遗实体之间的相似度；

16、s22、语义相似度模型包括基于词向量的模型、基于知识图的模型、基于语法的模型、基于深度学习的模型和基于迁移学习的模型中的其中一种或多种；

17、s23、实体消歧用于解决同名实体产生歧义的问题，共指消解用于解决多个指称对应同一实体的问题。

18、优选的，在衡量好非遗实体之间的相似度后，使用基于文本分类以及文本中的词与词、句与句上下文关系模型方法来搜寻数据库，并判断各相同实体之间是否代表不同含义或相同含义。

19、优选的，在s3中，还包括如下步骤：在融合收集到的非遗数据后，使用自然语言处理技术初步分析融合后的非遗数据集中各实体的关系和属性，并根据非遗数据属性的不同将非遗数据集划分成不同的非遗数据子集。

20、优选的，在s4中，还包括如下步骤：

21、s41、根据属性不同的非遗数据子集构建不同的机器学习模型，并使用深度学习技术对不同非遗数据子集进行特征提取操作；

22、s42、特征提取包括字面特征、位置特征、同性特征、语法特征、文本特征、时间特征、地理特征、传承人特征和技艺特征。

23、优选的，非遗数据集中各实体的关系包括传承关系、保护单位与非遗项目的关系、非遗项目与相关文化、历史和地理方面的关系；

24、非遗数据集中各实体的属性包括非遗项目的名称、类型、级别和保护状态，传承人的姓名、性别、年龄、职业和传承技艺，保护单位的名称、所在地和联系方式，非遗项目相关的文化、历史和地理方面的信息，非遗项目的技艺特点、制作过程和材料来源，非遗项目的保护措施、传承计划和推广活动，非遗项目的社会影响和经济效益。

25、优选的，在s5中，还包括如下步骤：将提取的不同属性非遗数据子集中的特征输入到s41中构建的机器学习模型中，根据属性的不同训练不同的模型，从而输出不同属性非遗数据子集中各实体名称以及各实体之间的关系。

26、优选的，在s6中，还包括如下步骤：在生成非遗知识图谱后，使用sql查询语言进行非遗知识图谱的查询和检索。

27、优选的，在s7中，还包括如下步骤：利用算法识别技术和摄影测量技术，将数据库中相应实体对应的相片或者视频进行处理，从而获取相片中实体的形状、大小、位置、特性及其相互关系，并借助3d数字化扫描技术将二维图片合成三维模型。

28、与现有技术相比，本专利技术的有益效果是：

29、1、本专利技术通过语义相似度模型来判断不同的数据源中是否存在同名实体，且各同名实体之间的含义是否相同，以及是否存在不同名称实体代表同一含义的情况，并对收集到的非遗数据集进行实体消歧和共指消解操作来解决多个名称对应同一实体以及同名实体产生歧义的问题，从而在一定程度上能够提高不同源数据集之间的融合效果。

30、2、本专利技术在数据融合后使用自然语言处理技术对收集的数据集进行关系抽取和语义分析操作，并基于文本分类和统计分析文本中的词与词、句与句上下文关系模型方法按照非遗数据的属性和关系来将非遗数据集划分为多个数据子集，并根据数据子集的属性训练不同类型的模型，从而方便提高后续模型输出结果的准确性本文档来自技高网...

【技术保护点】

1.一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：包括数据收集单元、数据清洗预处理单元、数据融合单元、特征提取单元、知识图谱构建单元与知识图谱存储和可视化单元，所述数据收集单元用于从多个来源收集非遗相关的数据，所述数据清洗预处理单元用于对数据收集单元收集到的数据进行清洗和预处理操作，所述数据融合单元用于融合经过清洗和预处理操作后的非遗相关的数据，所述特征提取单元使用深度学习技术对融合后的数据进行特征提取，所述知识图谱构建单元使用图谱构建算法构建非遗知识图谱，所述知识图谱存储和可视化单元用于将构建好的非遗知识图谱存储在数据库或知识库中，并使用可视化技术进行展示；

2.根据权利要求1所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在S1中，还包括如下步骤：多种收集方式包括关键词、修饰词、中心词、否定词、时间、起源地和流传地中的其中一种或多种；

3.根据权利要求1所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在S2中，还包括如下步骤：

4.根据权利要求3所述的一种基于多源异构数据融合的非遗知识图谱构

5.根据权利要求1所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在S3中，还包括如下步骤：在融合收集到的非遗数据后，使用自然语言处理技术初步分析融合后的非遗数据集中各实体的关系和属性，并根据非遗数据属性的不同将非遗数据集划分成不同的非遗数据子集。

6.根据权利要求5所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在S4中，还包括如下步骤：

7.根据权利要求5所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：非遗数据集中各实体的关系包括传承关系、保护单位与非遗项目的关系、非遗项目与相关文化、历史和地理方面的关系；

8.根据权利要求6所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在S5中，还包括如下步骤：将提取的不同属性非遗数据子集中的特征输入到S41中构建的机器学习模型中，根据属性的不同训练不同的模型，从而输出不同属性非遗数据子集中各实体名称以及各实体之间的关系。

9.根据权利要求1所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在S6中，还包括如下步骤：在生成非遗知识图谱后，使用SQL查询语言进行非遗知识图谱的查询和检索。

10.根据权利要求1所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在S7中，还包括如下步骤：利用算法识别技术和摄影测量技术，将数据库中相应实体对应的相片或者视频进行处理，从而获取相片中实体的形状、大小、位置、特性及其相互关系，并借助3D数字化扫描技术将二维图片合成三维模型。

...

【技术特征摘要】

2.根据权利要求1所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在s1中，还包括如下步骤：多种收集方式包括关键词、修饰词、中心词、否定词、时间、起源地和流传地中的其中一种或多种；

3.根据权利要求1所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在s2中，还包括如下步骤：

4.根据权利要求3所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在衡量好非遗实体之间的相似度后，使用基于文本分类以及文本中的词与词、句与句上下文关系模型方法来搜寻数据库，并判断各相同实体之间是否代表不同含义或相同含义。

5.根据权利要求1所述的一种基于多源异构数据融合的非遗知识图谱构建方法，其特征在于：在s3中，还包括如...

【专利技术属性】
技术研发人员：周诗源，
申请(专利权)人：嘉兴南湖学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人