一种富文本全文检索及云存储系统技术方案

技术编号:33638090 阅读:35 留言:0更新日期:2022-06-02 01:54
本发明专利技术公开了一种富文本全文检索及云存储系统,包括:前端界面、Nginx Web服务器、Spring Cloud微服务框架、索引服务模块、搜索服务模块、授权服务模块以及云端原文件存储服务模块;本系统基于Spring Cloud微服务框架,支持各版本常见类型富文本的索引和检索,支持基于元数据的文件索引,采用动态匹配算法,将用户检索条件与建立索引的文件信息进行综合动态匹配采用云存储服务对文件进行统一管理并依据OSS对象存储服务动态更新。本发明专利技术可以降低企业文件存储系统部署成本,存储系统拓展灵活。基于文件元数据搜索(文件内容)与智能分析搜索内容,提高了文件搜索的精确度和速度,有较高的容灾备份能力,有效地减少用户的损失。失。失。

【技术实现步骤摘要】
一种富文本全文检索及云存储系统


[0001]本专利技术涉及一种全文检索及云存储系统,特别是一种富文本全文检索及云存储系统。

技术介绍

[0002]在信息时代快速发展的背景下,每个人每天都会产生大量的数据文件,据统计,仅2019年一年,全球就产生了33ZB的数据文件。大量的数据文件,不仅给文件的分类存储造成了困难,同时对文件的索引和检索也是巨大的挑战。如何在爆炸性输出的信息量中快速检索出用户需要的信息成为了刚性需求。
[0003]进入2020年,人们越来越多的使用互联网进行交流、工作协同,这其中的文件传输更是频繁。但现有的文件存储和搜索系统都存在诸多不足之处。例如现在使用最广泛的网盘,百度网盘和微盘等网盘,没有针对文件的内容进行检索的功能,并且上传文件类型与文件存储路径由用户自定义,对文件的全文检索难以实现,因此用户只能通过查找文件名来找到文件,这就导致无法精确的查找所需内容。其次大多数的网盘的内容都是半公开的,没有严格的权限管理系统,例如百度网盘,只要有链接和分享码即可查看,一旦泄露就无法确保文件的安全和隐私。有的企业或者单位考虑到文件的安全和隐私问题,就会考虑自建文件存储服务,因此可能会选择Seafile、NextCloud等文件共享系统。虽然这些系统具有完善的权限管理、文件共享等功能,但也无法对上传的所有文件的内容进行索引和检索,这导致在文件的数量十分庞大时,它们存储的文件只有熟悉自身所需文件存放地址的用户才能快速的找到文件,企业或单位的新人就很难快速上手这些系统。还有的单位会考虑FreeNAS、 TrueNAS、群晖等NAS系统作为文件共享和存储服务器,但这些系统中也存在类似的问题。

技术实现思路

[0004]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种富文本全文检索及云存储系统。
[0005]为了解决上述技术问题,本专利技术公开了一种富文本全文检索及云存储系统(Rich Text Full

text Retrieval and Cloud Storage System),包括:前端界面、Nginx Web服务器、 Spring Cloud微服务框架、索引服务模块、搜索服务模块、授权服务模块以及云端原文件存储服务模块;
[0006]其中,前端界面包括:用户登录界面、搜索界面和上传及下载操作界面;
[0007]Nginx Web服务器中包括反向代理服务模块,该模块与Spring Cloud Gateway网关进行对接;
[0008]Spring Cloud微服务框架用于实现分布式高速搜索、上传和下载;
[0009]索引服务模块用于对用户上传的各种文件,提取元数据,并按倒排索引方法建立索引文件;
[0010]搜索服务模块用于通过算法分析搜索内容,形成语法树和词链表,与文件上传时
建立的索引文件进行对比,检索文件内容,并返回用户所需的文件;
[0011]授权服务模块采用Spring Cloud为用户提供授权服务,管理用户搜索、上传和下载文件的权限;
[0012]云端原文件存储服务模块将用户上传的文件存储在云端,提供容灾备份,实现集中统一管理文件。
[0013]本专利技术中所述前端界面包括:
[0014]用户注册与登录界面、用户组创建与管理界面、访问鉴权界面、文件上传与下载界面以及文件搜索与结果展示界面;
[0015]其中,用户注册与登录界面包括:用户注册,用户个人信息设置,用户登录;用户登录方法包括账号登录与手机短信登录;
[0016]用户组创建与管理界面包括:通过管理员权限创建员工组,并设置组与组之间的关系;通过管理员权限设置已完成注册员工的员工组信息;
[0017]访问鉴权界面包括:对用户是否有权搜索或下载文件进行鉴权,保护文件私有性;
[0018]文件上传与下载界面包括:进行文件的上传与下载,下载文件前先鉴权用户是否有权下载文件;
[0019]文件搜索与结果展示界面包括:用户输入搜索内容,系统判断用户组后,分别向本组、子组和根组搜索相应文件;将匹配的文件与文件中匹配的内容在页面上面进行展示,供用户选择。
[0020]本专利技术中所述反向代理服务模块采用Nginx来提供反向代理服务,并且与SpringCloud Gateway网关对接,即Nginx将访问直接转发到Spring Cloud Gateway网关;同时采用云存储,将功能选择和下载操作从Nginx系统中剥离。
[0021]本专利技术中所述Spring Cloud微服务框架包括:
[0022]使用服务发现框架Eureka实现服务注册和发现,所有的其他的微服务组件都需要向服务发现框架Eureka注册自己,在服务需要微服务配合完成功能时,通过服务发现框架Eureka进行查找其他服务并调用,系统功能面向微服务设计,实现系统服务复用;
[0023]用户发送的所有请求,先通过Nginx的代理被Spring Cloud Gateway接收,Gateway 判断用户所请求的服务后,去服务发现框架Eureka查找对应微服务地址,将用户的请求转发给对应的微服务,微服务根据用户权限最终实现该服务。
[0024]本专利技术中所述索引服务模块包括:对用户通过前端界面上传到云存储中心的各种文件提取元数据,按倒排索引法进行建立索引文件;元数据的提取根据不同的文件类型所提供的接口,采用相应的方法完成;
[0025]对用户的文件建立索引文件时,索引用户上传文件的正文内容,同时索引文件的作者,文件的最近修改日期,文件的页数和大小,形成元数据;用户检索文件时,检索具有同一类元数据的文件,不同类型的文件产生不同的元数据;用户通过自定义元数据,对文件进行个性化归类和建立索引;通过设置特定字段元数据,对文件访问权限进行控制。
[0026]本专利技术中所述搜索服务模块包括:通过对用户输入的搜索内容进行解析、索引获取和索引匹配,实现对文件匹配;根据搜索内容出现的频率、搜索内容的重要性、文件的长度、文件的重要性以及用户搜索的次数匹配搜索文件,动态改变搜索内容和文件的权重;其中,权重的动态改变规则包括:
[0027]用户输入的搜索内容在用户可以检索的所有文件中出现的次数越多,则这个搜索内容的权重越小;相反,用户输入的搜索内容在用户可以检索的所有文件中出现的次数越少,则这个搜索内容的权重越大;对于单个文件,如果用户输入的搜索内容在某个文件中出现的次数越多,则该文件的权重就越大,如果用户输入的搜索内容在某个文件中出现的次数越少,则该文件的权重就越小;
[0028]用户在搜索内容时对不同的关键词添加不同的权重,区分关键词的重要程度,包含更重要的关键词的文件获得更大的权重;包含关键词越多的文件,权重越大;文件中包含多个字段时,根据字段的默认值判断权重,字段的值越大,权重越大;
[0029]文件被赋予初始权重,文件被下载的次数越多,则初始权重越大。
[0030]本专利技术中所述搜索服务模块包括:
...

【技术保护点】

【技术特征摘要】
1.一种富文本全文检索及云存储系统,其特征在于,包括:前端界面、Nginx Web服务器、Spring Cloud微服务框架、索引服务模块、搜索服务模块、授权服务模块以及云端原文件存储服务模块;其中,前端界面包括:用户登录界面、搜索界面和上传及下载操作界面;Nginx Web服务器中包括反向代理服务模块,该模块与Spring Cloud Gateway网关进行对接;Spring Cloud微服务框架用于实现分布式高速搜索、上传和下载;索引服务模块用于对用户上传的各种文件,提取元数据,并按倒排索引方法建立索引文件;搜索服务模块用于通过算法分析搜索内容,形成语法树和词链表,与文件上传时建立的索引文件进行对比,检索文件内容,并返回用户所需的文件;授权服务模块采用Spring Cloud为用户提供授权服务,管理用户搜索、上传和下载文件的权限;云端原文件存储服务模块将用户上传的文件存储在云端,提供容灾备份,实现集中统一管理文件。2.根据权利要求1所述的一种富文本全文检索及云存储系统,其特征在于,所述前端界面包括:用户注册与登录界面、用户组创建与管理界面、访问鉴权界面、文件上传与下载界面以及文件搜索与结果展示界面;其中,用户注册与登录界面包括:用户注册,用户个人信息设置,用户登录;用户登录方法包括账号登录与手机短信登录;用户组创建与管理界面包括:通过管理员权限创建员工组,并设置组与组之间的关系;通过管理员权限设置已完成注册员工的员工组信息;访问鉴权界面包括:对用户是否有权搜索或下载文件进行鉴权,保护文件私有性;文件上传与下载界面包括:进行文件的上传与下载,下载文件前先鉴权用户是否有权下载文件;文件搜索与结果展示界面包括:用户输入搜索内容,系统判断用户组后,分别向本组、子组和根组搜索相应文件;将匹配的文件与文件中匹配的内容在页面上面进行展示,供用户选择。3.根据权利要求2所述的一种富文本全文检索及云存储系统,其特征在于,反向代理服务模块采用Nginx来提供反向代理服务,并且与Spring Cloud Gateway网关进行对接,即Nginx将访问直接转发到Spring Cloud Gateway网关;同时采用云存储,将功能选择和下载操作从后端系统中剥离。4.根据权利要求3所述的一种富文本全文检索及云存储系统,其特征在于,所述Spring Cloud微服务框架包括:使用服务发现框架Eureka实现服务注册和发现,所有的其他的微服务组件都需要向服务发现框架Eureka注册自己,在服务需要微服务配合完成功能时,通过服务发现框架Eureka进行查找其他服务并调用,系统功能面向微服务设计,实现系统服务复用;用户发送的所有请求,先通过Nginx的代理被Spring Cloud Gateway接收,Gateway判
断用户所请求的服务后,去服务发现框架Eureka查找对应微服务地址,将用户的请求转发给对应的微服务,微服务根据用户权限最终实现该服务。5.根据权利要求4所述的一种富文本全文检索及云存储系统,其特征在于,索引服务模块包括:对用户通过前端界面上传到云存储中心的各种文件提取元数据,按倒排索引法进行建立索引文件;元数据的提取根据不同的文件类型所提供的接口,采用相应的方法完成;对用户的文件建立索引文件时,索引用户上传文件的正文内容,同时索引文件的作者,文件的最近修改日期,文件的页数和大小,形成元数据;用户检索文件时,检索具有同一类元数据的文件,不同类型的文件产生不同的元数据;用户通过自定义元数据,对文件进行个性化归类和建立索引;通过设置特定字段元数据,对文件访问权限进行控制。6.根据权利要求5所述的一种富文本全文检索及云存储系统,其特征在于,搜索服务模块包括:通过对用户输入的搜索内容进行解析、索引获取和索引匹配,实现对文件匹配;根据搜索内容出现的频率、搜索内容的重要性、文件的长度、文件的重要性以及用户搜索的次数匹配搜索文件,动态改变搜索内容和文件的权重;其中,权重的动态改变规则包括:用户输入的搜索内容在用户可以检索的所有文件中出现的次数越多,则这个搜索内容的权重越小;相反,用户输入的搜索内容在用户可以检索的所有文件中出现的次数越少,则这个搜索内容的权重越大;对于单个文件,如果用户输入的搜索内容在某个文件中出现的次数越多,则该文件的权重就越大,如果用户输入的搜索内容在某个文件中出现的次数越少,则该文件的权重就越小;用户在搜索内容时对不同的关键词添加不同的权重,区分关键词的重要程度,包含更重要的关键词的文件获得更大的权重;包含关键词越多的文件,权重越大;文件中包含多个字段时,...

【专利技术属性】
技术研发人员:朱淳臻王胜康孙晨樊力豪丁书浩林超董佳奇产昊鹏徐良
申请(专利权)人:金陵科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1