基于知识图谱的文件语义关联存储系统及方法技术方案

技术编号:32020527 阅读:30 留言:0更新日期:2022-01-22 18:39
一种基于知识图谱的文件语义关联存储系统及方法,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块,本发明专利技术以工业生产领域过程中产生的多类型文件集为输入,结合领域知识图谱完成文件语义关联与分区,最后基于文件分块以及链式哈希完成文件分区安全存储,并形成相应的存储元数据。据。据。

【技术实现步骤摘要】
基于知识图谱的文件语义关联存储系统及方法


[0001]本专利技术涉及的是一种信息处理领域的技术,具体是一种基于知识图谱的文件语义关联存储系统及方法。

技术介绍

[0002]针对工业生产领域过程中产生的多类型文件的存储与归档是工业界数字化建设中必不可少的一步,然而目前工业界对于多类型文件的存储与归档仍然面临着以下几个方面的难题:首先,对于文件的处理分析方式单一,针对XML类型文件、图纸类型文件及文档类型文件等不同类型的文件都仅仅采用单一的通用元数据抽取方式,如何对于多类型文件针对性地进行文件特征抽取是一个重要的问题;另外,文件本身在文件系统中的存储极其孤立,除让文件管理者手动建立关联之外,如何智能化、自动化使得海量新旧文件之间关联起来并保证文件关联的完整性也是一个值得考虑的问题;最后,文件的存储往往简单地通过明文的方式存在文件系统中且也没有备份,如何在文件存储归档的同时提高文件的保密性、安全性以及防篡改性同样值得探索。
[0003]针对上述问题,当前业界已经存在一部分相关的技术,例如:对于文件关联对象进行查询和其他处理的实现方法、基于文件本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的文件语义关联存储系统,其特征在于,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块,其中:多模态特征抽取模块对输入的多类型文件集进行多模态分析及特征抽取进一步转化为包含特征信息的语义抽象文件集;结构化知识抽取模块借助从XML类型文件抽取出的元结构再从输入的多类型文件集中抽取出对应的实体从而转化为结构化知识集;多层次语义补全模块将结构化知识集自顶向下地融合到领域知识图谱中实现知识图谱的动态演化;自动语义关联模块以领域知识图谱为支撑对包含特征信息的语义抽象文件集进行实体链接并建立语义关联从而转化为关联文件集;柔性动态分区模块通过语义聚类分区将文件动态划分到与其最关联的分区中;哈希安全存储模块基于语义分区文件集的分区信息,结合文件分块以及链式哈希对文件进行分布式安全存储;所述的多模态文件特征抽取包括:XML类型文件特征抽取、图纸类型文件特征抽取以及文档类型文件特征抽取。2.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的XML类型文件特征抽取是指:通过SAX文件解析库将XML文件中每个属性对应的相对路径转化为基于XPATH表述的静态绝对路径结构并识别出具体的属性原子类型,然后将每条绝对路径合并封装成为XML文件的元结构,最后提取每一条XPATH记录的叶节点名词属性值作为XML类型文件的语义特征;所述的图纸类型文件特征抽取是指:首先将平面图纸文件通过PNG导出的方式生成对应的图像文件从而方便后续的图像处理,再针对导出的PNG图像使用在对应领域下预训练的CNN卷积神经网络来对图像中的每一个像素点进行分类,并划分为背景、噪音、造型对象三大类别区域,最后针对造型对象对应的类别区域采用对象识别结合分类器的方式识别出造型对象的具体类别,并视作对应的文件语义特征;所述的文档类型文件特征抽取是指:首先采用PDF解析库解析结合OCR文本识别扫描的综合方式对于文档文件进行文档解析和文本提取,之后基于一定的分词算法针对提取出的文本进行分词处理,并提取出带有名词特性的关键作为语义特征候选集,最后对于预处理得到的单词集进行关键词挖掘来获得真正能够表征文档类型文件语义特性的关键词集。3.根据权利要求2所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的关键词挖掘具体是指:首先基于Word2Vec词聚类算法,将单词集转化为低位稠密向量并由优化的聚类算法得到候选关键词词组,之后以候选关键词词组为粒度针对其中每一个单词分别运行TF

IDF算法以及Text Rank算法生成对应的得分,再针对得分经由合并算法产生新的单词的得分,最后选取每一个关键词词组中的Top

K作为关键词词组。4.根据权利要求3所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的优化的聚类算法是指:基于公式动态生成实际聚类的个数,其中为平均文件大小,s为原始文件大小,为平均候选关键词数量,n为候选关键词数量,为平均关键词数量,为θ动态配置的常量代入公式;所述的合并算法是指:首先针对两个算法得到的分数基于公式来进行归一化,其中score
max
、score
min
分别代表当前已统计分数中的最大值与最小值,score代
表当前分数,S代表归一化后的最终得分,然后基于加权平均S
final
=αS
TF

IDF
+(1

α)S
TextRank
得到最终的分数,其中S
TF

IDF
、S
TextRank
分别代表TF

IDF和Text Rank算法得到的归一化的公式,α为动态配置的权重常量。5.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的结构化知识抽取是指:首先将从XML类型文件抽取出的嵌套一维静态结构转化为二维图结构,再结合XPATH对应的静态绝对路径通过SAX解析库的XPATH查询方法读取XML类型文件的数据内容从而抽取出与二维图结构对应的实体,其中:所述的嵌套一维静态结构转化为二维图结构具体是指:遍历每一条基于XPATH表述的静态绝对路径结构并从根开始读取每一层属性对应的字段,如果该字段尚未被建成节点则创建对应的节点并连接到上层字段对应的节点上去,反之则继续遍历直到将静态结构转换为相应的二维图结构。6.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的多层次语义补全包括:语义本体补全以及语义实体补全,其中:所述的语义本体补全是指:遍历结构化知识集中的每个具有领域类型的本体作为待融合本体,并遍历知识图谱的本体层中具有领域类型的本体作为目标本体,接着基于相似度计算获得每个目标本体与待融合本体的相似度,其中相似度计算首先将本体代入词向量文件获得对应的低位稠密向量,再结合余弦相似度公式计算目标本体与待融合本体之间的相似度,之后再对于目标本体...

【专利技术属性】
技术研发人员:蔡鸿明潘子奕于晗姜丽红
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1