【技术实现步骤摘要】
基于IPFS的数据获取方法及系统
[0001]本专利技术涉及信息
中的信息处理技术、信息检索领域,尤其涉及一种基于IPFS的数据获取方法及系统。
技术介绍
[0002]IPFS创造了一个点对点的分布式文件系统,升级了现有的网络结构,实现了真正意义上的去中心化存储。IPFS为解决数据的规模量级不断提高,提供了一个去中心化的优良存储方案,它在满足海量数据存储需求的同时,还可以有效的进行数据的共享。每一个上传到IPFS存储的文件,都会有一个唯一的文件标识符。目前IPFS仅支持基于文件标识符的寻址方式,资源请求者需要准确提供文件标识符才能请求相应文件。由于缺乏相应的搜索功能,资源请求者很难通过关键词或者其它描述信息获取相关文件。
[0003]ipfs
‑
search是github上的一个开源项目,该项目尝试在IPFS上建立一个通用的搜索引擎。ipfs
‑
search是一种基于Elasticsearch的集中式搜索引擎,通过利用IPFS的日志监听其它对等节点添加文件事件。ipfs />‑
se本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于IPFS的数据获取方法,其特征在于,按下列步骤进行:a、获取文本在IPFS的标识符,对所述文本进行预处理,获取文本关键词及中心语句,训练词向量模型,建立关键词索引,建立句子索引;b、为索引存储节点分配节点地址,组成分布式哈希表,以存储索引文件;c、根据查询语句长度决定执行的索引机制,检查缓存,执行搜索,得到最终的搜索结果;d、发布查询的节点根据规则,将查询语句及查询结果加入缓存或者对缓存进行更新。2.根据权利要求1所述的基于IPFS的数据获取方法,其特征在于,步骤a中获取文本在IPFS的标识符:是将待存储文本存入IPFS后,得到一个唯一标识所述文本的标识符;对所述文本进行预处理:包括分词,去停用词,去标点符号操作;获取文本的关键词及中心语句,使用词频
‑
逆文件频率算法:首先计算词在该文件中出现次数,记为词频,然后计算词在所有文本中出现的频率,记为逆文件频率,最后计算两者的乘积,乘积越大表示该词对这个文本的重要性越大,选取对文本区分度高的词作为关键词,对文本的中心语句,计算中心语句的关键词权重值;对所述关键词进行哈希运算,得到160bit的关键词哈希,将关键词哈希与步骤a中所述标识符组合,得到关键词索引;训练词向量模型,使用深度学习方法进行多次迭代训练,通过逻辑回归的方法对文本进行训练,将训练数据集合内的每个词汇表示成为128维的特征向量,使得词汇间的语义相似性转为空间相似性;训练好的词向量模型将文本中心语句分词后得到的关键词表示为128维的词向量,将各个词向量乘以其权重比后对应维度相加,得到句子的向量表示,使用局部敏感哈希算法得到句子向量降维后的哈希表示,降维后的向量各维拼接得到160bit的值与步骤a所述标识符组成句子索引,句子索引保留了文本内容的相似性。3.根据权利要求1所述的基于IPFS的数据获取方法,其特征在于,步骤b所述的索引存储,索引文件采用去中心化的存储方式,将关键词索引及句子索引存储在分布式哈希表中,分布式哈希表使用哈希算法为每个索引存储节点分配一个唯一的160bit的节点地址,节点地址与关键词索引及句子索引的键值具有相同值域,将所述关键词索引及所述句子索引存储在节点地址与其相同或相近的索引存储节点中,在索引存储节点使用倒排表结构对索引文件进行整合。4.根据权利要求1所述的基于IPFS的数据获取方法,其特征在于,步骤c中根据查询语句长度决定执行的索引机制、缓存检查和执行搜索,具体为:对等节点发起查询时,对查询语句进行分词,判断是否执行句子索引,若判断为是,则使用与建立句子索引相同过程计算查询语句的160bit哈希值,判断缓存中是否存储相关查询结果,若判断为是,则发起查询的节点对缓存中的查询结果进行整合过滤,得到最终搜索结果,更新缓存,结束查询;若判断为否,执行句子索引,若在索引存储节点无法精确匹配的情况下,因为相似内容的句子索引相邻存储,在存储句子索引的节点附近进行搜索,然后发起查询的节点对搜索过程中返回的结果进行整合过滤,得到最终搜索结果,更新缓存,结束查询;若判断为否,使用与建立关键词索引同样的哈希算法,计算查询关键词的160bit哈希值,判断缓存中是否存储相关查询结果,若判断为是,则发起查询的节点对对缓存中的查询结果进行整合过滤,得到最终搜索结果,...
【专利技术属性】
技术研发人员:周喜,石秋娥,王轶,马博,王磊,马玉鹏,
申请(专利权)人:中国科学院新疆理化技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。