【技术实现步骤摘要】
本专利技术涉及一种用于大数据平台的系统及方法,尤其涉及一种大数据平台安全索引系统及方法。
技术介绍
大数据平台在存储、处理、传输等过程中面临诸多安全风险。目前最好的办法就是对数据加密,断绝他人窥探隐私的可能性。搜索引擎技术很好的解决了用户在信息海洋里高效定位所需信息的难题。但通常大数据平台的搜索引擎实现都不安全,一个常见的示例是倒排索引文件以明文的形式存储,攻击者通过非法手段窃取倒排索引文件,再结合语言模型等技术就能高质量的还原出文件内容。虽然原始文件内容被加密存储在服务器,但还是会造成隐私泄露。为了满足大数据平台安全与隐私保护需求,大数据平台搜索引擎的索引文件也需要加密。但要做到却并不容易:首先,索引是个很大的文件,而加解密的过程又非常耗时;其次,大数据平台不断更新的特性注定索引文件也会被频繁修改,这些工作必然要涉及加密和解密;再次,大数据平台高速增长的特性也决定了索引文件势必非常巨大,这也将导致系统迟缓;最后,索引文件被加密后是不能直接响应业务请求的,额外的解密工作会再次拉长用户的等待时间。
技术实现思路
为了解决上述问题,本专利技术提供一种大数据平台安全索引系统及方法。一种大数据平台安全索引系统,接收客户端提交的搜索关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档,服务器提供与关键字匹配的文档,所述大数据平台安全索引系统包含对所述服务器提供的文档进行处理以生成包含特征索引的相应倒排索引文件集的索引生成逻辑模块、密钥服务器、搜索请求分析模块、搜索引擎池、搜索结果生成模块;所述大数据平台安全索引系统还包括将所述索引生成逻辑模块处理产生的包含特 ...
【技术保护点】
一种大数据平台安全索引系统,接收客户端提交的搜索关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档,服务器提供与关键字匹配的文档,所述大数据平台安全索引系统包含对所述服务器提供的文档进行处理以生成包含特征索引的相应倒排索引文件集的索引生成逻辑模块、密钥服务器、搜索请求分析模块、搜索引擎池、搜索结果生成模块,其特征在于,所述大数据平台安全索引系统还包括将所述索引生成逻辑模块处理产生的包含特征索引的倒排索引文件集按照单一特征智能分段并加密以密文形式安全存储在分布式文件系统hadoop中的安全索引模块、管理所述安全索引模块生成的索引段文件的元数据引擎模块;所述元数据引擎模块为管理所述安全索引模块生成的段文件并能根据特征快速定位段的索引引擎,包括包含搜索域中的段中的特征的完整索引的元数据索引模块以及被元数据索引模块索引并索引安全索引的元数据索引扩展模块;所述安全索引模块包括将所述索引生成逻辑模块生成的倒排索引文件集写入索引缓存并能支持索引缓存更新的高速缓存模块、分析所述高速缓存中的索引缓存数据并按需生成持久化任务以及分析元数据引擎中的安全索引段生成相应段优化任务的优化器。
【技术特征摘要】
2016.06.03 CN 20161039527251.一种大数据平台安全索引系统,接收客户端提交的搜索关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档,服务器提供与关键字匹配的文档,所述大数据平台安全索引系统包含对所述服务器提供的文档进行处理以生成包含特征索引的相应倒排索引文件集的索引生成逻辑模块、密钥服务器、搜索请求分析模块、搜索引擎池、搜索结果生成模块,其特征在于,所述大数据平台安全索引系统还包括将所述索引生成逻辑模块处理产生的包含特征索引的倒排索引文件集按照单一特征智能分段并加密以密文形式安全存储在分布式文件系统hadoop中的安全索引模块、管理所述安全索引模块生成的索引段文件的元数据引擎模块;所述元数据引擎模块为管理所述安全索引模块生成的段文件并能根据特征快速定位段的索引引擎,包括包含搜索域中的段中的特征的完整索引的元数据索引模块以及被元数据索引模块索引并索引安全索引的元数据索引扩展模块;所述安全索引模块包括将所述索引生成逻辑模块生成的倒排索引文件集写入索引缓存并能支持索引缓存更新的高速缓存模块、分析所述高速缓存中的索引缓存数据并按需生成持久化任务以及分析元数据引擎中的安全索引段生成相应段优化任务的优化器。2.根据权利要求1所述的大数据平台安全索引系统,其特征在于,所述优化器包括检查所述高速缓存中需要持久化的索引缓存数据并生成持久化任务和分析所述元数据引擎中记录的安全索引段的状态信息生成段优化任务的分析器、根据所述分析器分析出的任务生成任务队列的任务队列模块、处理所述任务队列模块中记录的任务的执行器。3.一种大数据平台安全索引方法,其特征在于,所述大数据平台安全索引方法采用大数据平台安全索引系统来实现安全索引,包括如下步骤:s1、用户通过客户端提交需要查询的关键字,通过所述大数据平台安全索引系统接收客户端提交的关键字信息并在搜索域内根据关键字进行搜索以标识匹配关键字的文档;s2、服务器提供与关键字匹配的文档给所述大数据平台安全索引系统;s3、由所述大数据平台安全索引系统中的索引生成逻辑模块对所述服务器提供的与关键字匹配的文档进行处理以生成包含特征索引的相应倒排索引文件集,所述倒排文件及包含特征term和文档提取凭证docID;s4、由所述大数据平台安全索引系统中的安全索引模块对s3中生成的倒排文件集按照单一特征进行智能分段,所述每一段尺寸和规范统一,并对每一段进行加密以密文形式存储在分布式文件系统Hadoop中;首先,通过所述安全索引模块中的高速缓存模块将所述倒排文件集写入索引缓存并同时支持进行索引缓存更新;其次,通过所述安全索引模...
【专利技术属性】
技术研发人员:陈天莹,向雷,何剑,
申请(专利权)人:中国电子科技网络信息安全有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。