【技术实现步骤摘要】
一种IPFS节点本地基于关键词搜索文件的方法、介质及系统
[0001]本专利技术属于数据检索
,尤其涉及一种基于IPFS本地文件关键词检索方法。
技术介绍
[0002]随着计算机与互联网的高速发展,产生的数据也呈爆炸式增长,数据的安全存储与高效检索需求也越来越成为人们重视的问题。星际文件系统(IPFS)是一个分布式文件系统,目前已得到广泛使用。IPFS是一个基于内容索引,可版本化的,点对点的文件系统。IPFS有三大技术:通过内容寻址进行唯一标识,通过有向无环图(DAG)链接内容,通过分布式哈希表(DHT)发现内容。它的核心原则是将所有数据作为同一Merkel
‑
DAG的一部分来建模。IPFS在DAG的基础上定义了四种对象类型:block,list,tree,commit;block指大小可变数据块,list指block或者list集合,tree指block,list或者tree的集合,commit指tree版本历史快照,这四种类型建立了一种可版本化的文件系统。在IPFS系统内,文件默认以256k进行分 ...
【技术保护点】
【技术特征摘要】
1.一种IPFS节点本地基于关键词搜索文件的方法,其特征在于,包括以下步骤:S1、索引提取,将文件解析元数据并使用TF
‑
IDF算法确定关键词,对文件建立索引七元组;S2、获取该关键词倒排索引文件哈希,通过哈希在IPFS获取倒排索引文件,并将新的索引七元组插入对应的倒排索引文件中,用新的倒排索引文件CID更新本地记录;S3、关键词搜索时先比对缓存是否命中,若未命中则本地记录查找倒排索引CID,再根据CID在IPFS获取倒排索引文件,并将索引信息返回。2.根据权利要求1所述的一种IPFS节点本地基于关键词搜索文件的方法,其特征在于,所述步骤S1中使用Apache Tika对文件提取元数据,Tika对文件处理后能返回文件的纯文本信息;然后使用TF
‑
IDF算法对文件的文本信息提取关键词,计算公式如下:IDF算法对文件的文本信息提取关键词,计算公式如下:TF
W
指某词w的词频,N
W
是某一文本中词w出现的次数,N是该文本总词条数,TF
W
反映了词w在该文本中出现频率;IDF
W
指某词w的逆向文件频率,Y指语料库中文件总数,Y
W
指包含词语w的文档总数,IDF
W
反映了词w在整个文本出现频率,TF
‑
IDF
W
的计算公式如下:TF
‑
IDF
W
=TF
W
*IDF
W
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)3.根据权利要求1或2所述的一种IPFS节点本地基于关键词搜索文件的方法,其特征在于,所述步骤S1中的索引七元组为(Keyword,CID,Type,Illegal,F
‑
date,Name,Size),其中Keyword表示文件提取的主题词,CID表示文件内容哈希,Type表示文件类型,Illegal表示文件内容是否合法,F
‑
date表示建立时间,Name表示文件名,Size表示文件大小。4.根据权利要求3所述的一种IPFS节点本地基于关键词搜索文件的方法,其特征在于,所述步骤S2中的文件索引使用倒排索引数据结构存储,即不是由记录来确定属性值,而是由属性值来确定记录的位置,索...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。