System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种知识图谱构建方法及系统技术方案_技高网

一种知识图谱构建方法及系统技术方案

技术编号:41190186 阅读:2 留言:0更新日期:2024-05-07 22:20
本发明专利技术公开了一种知识图谱构建方法及系统,包括:从多源数据中采集知识数据并进行预处理,并进行语义增强标注进行多模态实体识别,利用深度学习模型抽取实体间的关系;构建知识图谱,进行动态知识融合,定期更新和优化知识图谱。本发明专利技术方法通过结合BERT模型和人工复审的方法,显著提升了语义标注的准确性,并通过深度学习技术有效抽取了实体间复杂的关系。动态知识融合与图谱的定期更新保证了知识的时效性,增强了知识图谱的应用价值,提供了精确和全面的信息检索,从而支持更智能的决策和服务。

【技术实现步骤摘要】

本专利技术涉及计算机平台负载平衡,具体为一种知识图谱构建方法及系统


技术介绍

1、在当前信息爆炸的时代,大量的数据和知识呈现出碎片化、分散化的特点,给知识的获取和应用带来了挑战。知识图谱通过模拟现实世界中实体及其相互关系的方式,整合多源数据来构建一个结构化的语义知识库。这些数据不仅包括文本,还扩展到图像、音频和视频等非文本信息,形成了一个多模态的知识体系。这样的结构化数据使得复杂的信息变得可查询和可分析,为机器学习模型和智能系统提供了知识基础。

2、知识图谱作为一种结构化的知识表示方法,可以将各种知识元素进行关联和组织,提供更高效的知识检索和应用。然而,目前的知识图谱构建方法存在着构建复杂、耗时、耗力的问题,需要一种更高效的构建方法来解决这些问题。


技术实现思路

1、鉴于上述存在的问题,提出了本专利技术。

2、因此,本专利技术解决的技术问题是:目前的知识图谱构建方法存在着构建复杂、耗时、耗力的问题。

3、为解决上述技术问题,本专利技术提供如下技术方案:一种知识图谱构建方法,包括:从多源数据中采集知识数据并进行预处理,并进行语义增强标注进行多模态实体识别,利用深度学习模型抽取实体间的关系;构建知识图谱,进行动态知识融合,定期更新和优化知识图谱。

4、作为本专利技术所述的知识图谱构建方法的一种优选方案,其中:所述知识数据包括利用数据抓取工具从多源数据中采集相关的知识数据,包括文本、图像、音频和视频形式;对于非文本数据,使用图像识别技术提取图像中的文字和知识,使用语音识别技术转录音频内容,转换为可分析的文本格式,将原本数据与转换后的文本数据对应并进行保存。

5、作为本专利技术所述的知识图谱构建方法的一种优选方案,其中:所述语义增强标注包括,bert模型对每个标注输出提供置信度分数,根据bert模型输出的置信度分数设置阈值a,根据bert模型的错误历史数据设置易错数据类型,利用bert模型对预处理后的数据进行分析;当数据中所有标注的置信度分数都大于等于a,且数据类型不属于易错数据类型时,不进行人工复审;当数据中存在标注的置信度分数小于a,置信度分数小于a的标注占全部标注50%以下,且数据类型不属于易错数据类型时,对置信度分数小于a的标注进行人工复审;当数据中存在标注的置信度分数小于a,置信度分数小于a的标注占全部标注50%以上时,对全部数据进行人工复审,并且将人工复审的结果反馈给bert模型,进行再训练和优化;当数据类型属于易错数据类型时,对全部数据进行人工复审,并且将人工复审的结果反馈给bert模型,进行再训练和优化。

6、作为本专利技术所述的知识图谱构建方法的一种优选方案,其中:所述多模态实体识别包括,通过将文本数据中的实体边界与非文本数据中的实体位置对齐,将文本数据和非文本数据整合在一起,对整合后的数据进行特征提取,对于文本数据,使用预训练的bert模型提取文本特征;对于图像和视频数据,使用卷积神经网络提取图像特征,对于音频数据,使用mel频谱特征提取方法提取音频特征,将非文本特征进行整合,根据整合后的非文本特征识别并标记文本数据中的实体。

7、作为本专利技术所述的知识图谱构建方法的一种优选方案,其中:所述深度学习模型包括,

8、

9、

10、其中,r表示实体间的关系类型;e表示实体特征;c表示实体间的上下文信息;gi表示关系类型i的门控值;wr表示关系类型预测的权重矩阵;br表示关系类型预测的偏置项;wu表示上下文编码的权重矩阵;n表示关系类型的数量;m表示上下文特征的维度;σ表示sigmoid激活函数;α表示调整参数。

11、作为本专利技术所述的知识图谱构建方法的一种优选方案,其中:所述构建知识图谱包括,根据历史数据设置实体间的关系阈值rh>rl,设置门控阈值gh>gl,当实体间r≥rh且g≥gh时,将实体和实体间的关系添加到知识图谱中,标记实体间的关系为高置信度关系,在后续的数据分析和查询提供优先级;当实体间rl≤r<rh且g≥gl时,将关系加入待验证队列,根据后续数据检查待验证队列中的关系,若后续数据检查通过则将关系添加到知识图谱中,若后续数据检查未通过则触发人工复审;当实体间r≥rl且gl≤g<gh时,对关系进行上下文分析,检查是否存在模糊性和潜在的歧义,调用额外的数据源进行交叉验证,若上下文分析和交叉验证都通过,则将关系加入图谱,若存在上下文分析或交叉验证未通过,将关系转入待验证队列;当实体间r<rl或g<gl时,将关系加入隔离队列并通过模式分析和历史数据对比,检查是否误判,若存在误判则重新进行多模态实体识别和关系抽取,若不存在误判则将关系标记为低置信度并进行人工复审;对每个实体和实体间的关系分配一个唯一标识符,识别并合并重复的实体节点,当存在相似的实体时,选择信息最丰富完善的实体保留,其他相似的实体作为辅助合并;将指向同一实体对的重复关系进行合并,并对关系的权重进行归一化处理。

12、作为本专利技术所述的知识图谱构建方法的一种优选方案,其中:所述动态知识融合包括,通过多模态实体识别对新数据进行扫描,当识别到新实体时,对比新实体与现有实体,若新实体与现有实体不同,则为新实体分配一个全局唯一的标识符,根据新实体的属性抽取新实体与现有实体间的关系,将新实体融合到知识图谱中;若新实体与现有实体重复,检测现有实体的属性变更,在知识图谱中定位对应的现有实体并更新实体的属性,为变更的属性创建历史记录;利用深度学习模型从新数据中识别出实体间的新关系,若新关系在知识图谱中不存在,则对新关系的类型和属性进行归一化处理,将新关系融合到知识图谱中;若新关系在知识图谱中已存在,检测现有关系的权重和属性变更,在知识图谱中定位到对应的现有关系,并更新现有关系属性和权重,关系的权重更新表示为,

13、

14、其中,wu表示更新后的关系权重;wc表示现有关系的权重;λ表示控制权重更新的步长的学习率;δw表示权重的变化幅度;τ表示变化幅度的阈值;σ(γ·gi)γ表示根据门控计算的置信度;γ表示调节置信度对权重更新影响的参数。

15、第二方面,本专利技术还提供了知识图谱构建系统,包括,数据采集模块,从多源数据中采集所需的知识数据,将非文本数据转换为文本格式,并与原始非文本格式的数据对应保存,并进行语义增强标注识别模块,根据知识数据和语义增强标注,进行多模态实体识别,利用深度学习模型抽取实体间的关系,获得数据中的实体和实体之间的关系;知识图谱构建模块,根据实体和实体之间的关系构建知识图谱,定期执行数据抓取任务,检测更新的数据,进行动态知识融合,定期更新和优化知识图谱。

16、第三方面,本专利技术还提供了一种计算设备,包括:存储器和处理器;

17、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现所述知识图谱构建方法的步骤。

18、第四方面,本专利技术还提供了一种计算机可读存储介本文档来自技高网...

【技术保护点】

1.一种知识图谱构建方法,其特征在于,包括:

2.如权利要求1所述的知识图谱构建方法,其特征在于:所述知识数据包括利用数据抓取工具从多源数据中采集相关的知识数据,包括文本、图像、音频和视频形式;

3.如权利要求2所述的知识图谱构建方法,其特征在于:所述语义增强标注包括,BERT模型对每个标注输出提供置信度分数,根据BERT模型输出的置信度分数设置阈值A,根据BERT模型的错误历史数据设置易错数据类型,利用BERT模型对预处理后的数据进行分析;

4.如权利要求3所述的知识图谱构建方法,其特征在于:所述多模态实体识别包括,通过将文本数据中的实体边界与非文本数据中的实体位置对齐,将文本数据和非文本数据整合在一起,对整合后的数据进行特征提取,对于文本数据,使用预训练的BERT模型提取文本特征;

5.如权利要求4所述的知识图谱构建方法,其特征在于:所述深度学习模型包括,

6.如权利要求5所述的知识图谱构建方法,其特征在于:所述构建知识图谱包括,根据历史数据设置实体间的关系阈值Rh>Rl,设置门控阈值Gh>Gl,当实体间R≥Rh且G≥Gh时,将实体和实体间的关系添加到知识图谱中,标记实体间的关系为高置信度关系,在后续的数据分析和查询提供优先级;

7.如权利要求6所述的知识图谱构建方法,其特征在于:所述动态知识融合包括,通过多模态实体识别对新数据进行扫描,当识别到新实体时,对比新实体与现有实体,若新实体与现有实体不同,则为新实体分配一个全局唯一的标识符,根据新实体的属性抽取新实体与现有实体间的关系,将新实体融合到知识图谱中;

8.一种采用如权利要求1~7任一所述方法的知识图谱构建系统,其特征在于,包括,

9.一种计算设备,包括:存储器和处理器;

10.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至7任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种知识图谱构建方法,其特征在于,包括:

2.如权利要求1所述的知识图谱构建方法,其特征在于:所述知识数据包括利用数据抓取工具从多源数据中采集相关的知识数据,包括文本、图像、音频和视频形式;

3.如权利要求2所述的知识图谱构建方法,其特征在于:所述语义增强标注包括,bert模型对每个标注输出提供置信度分数,根据bert模型输出的置信度分数设置阈值a,根据bert模型的错误历史数据设置易错数据类型,利用bert模型对预处理后的数据进行分析;

4.如权利要求3所述的知识图谱构建方法,其特征在于:所述多模态实体识别包括,通过将文本数据中的实体边界与非文本数据中的实体位置对齐,将文本数据和非文本数据整合在一起,对整合后的数据进行特征提取,对于文本数据,使用预训练的bert模型提取文本特征;

5.如权利要求4所述的知识图谱构建方法,其特征在于:所述深度学习模型包括,

6.如权利要求5所述的...

【专利技术属性】
技术研发人员:晋世仲谢天薛松吴爽朱世鹏卞志刚毛旭初
申请(专利权)人:国家能源集团新能源技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1