System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及金融日志存储,具体为一种基于混合云环境的高效日志边缘存储算法的平台。
技术介绍
1、随着银行业务的不断发展,金融系统越来越多,业务数据量也越来越大,系统安全遭遇越来越多的威胁,日志文件正是我们分析系统状况的重要文件之一,因此需要对日志文件进行合理存储,边缘即边缘节点的用户端,混合云是一种计算环境,其中两种不同类型的技术基础设施通常称为公共云和私有云协同工作,使组织能够利用场外和场内计算的特定优势,混合云融合了公有云和私有云,是近年来云计算的主要模式和发展方向。我们已经知道私有云主要是面向企业用户,出于数据安全考虑企业更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源,在这种情况下混合云被越来越多的采用,它将公有云和私有云进行混合和匹配,以获得最佳的效果,混合云可使得日志文件的存储更为合理同时便于查询。
2、经检索,发现现有技术中的日志存储系统典型的如公开号一种日志存储方法包括:获取日志文件的写请求,生成写请求对应的日志序号;将写请求所请求写入的日志文件所属日志对象的标识信息与日志序号作为键,并通过键计算得到写请求所请求写入的日志文件的存储地址;其主要特点是根据日志文件的存储地址将写请求所请求写入的日志文件储存到磁盘系统中。实现了日志文件在keyvalue存储系统中的存储。
3、综上所述,现有的日志存储系统容易因日志资料复杂繁多而影响查询效率,针对上述问题,需要对现有日志存储系统进行改进。
技术实现思路
1、本专利技术的目的在于提
2、为实现上述目的,本专利技术提供如下技术方案:一种基于混合云环境的高效日志边缘存储算法的平台,包括:
3、上传模块,所述上传模块用于将金融工作中获取的业务日志上传至平台,且上传模块接入互联网,同时上传模块的使用需要借助外部终端设备;
4、分类模块,所述分类模块用于对上传模块上传至平台的日志进行分析,并通过分析将其以链式日志的形式就近存储至存储模块的内部;
5、提取模块,所述提取模块对存储模块内部的日志的关键性信息进行提取,并将提取的信息输入至生成模块处,通过生成模块将其生成分布式索引;
6、备份模块,所述备份模块用于对存储模块内部存储的金融日志加盖信息戳,同时对存储模块内部金融日志的增、删、改和查操作进行记录。
7、优选的,所述分类模块通过id3算法完成的,id3算法公式为:
8、
9、其中,s为用来计算熵的当前数据集,x为类的集合,p(x)为类为的元素数量与集合的总数的比值。
10、优选的,所述分类模块中当h(s)=0时,集合为完全可分集合,即集合s的所有元素的类相同,在id3算法中,计算的是每个剩余属性熵。
11、优选的,所述存储模块的存储范围包括本地磁盘和就近存储设施,且就近存储设施包括但不限制于云盘、nas和san。
12、优选的,所述提取模块的提取操作通过关键词提取算法完成,且键词提取算法以excel形式输出。
13、优选的,所述提取模块的提取算法公式为:
14、tf-idf=tf*idf
15、其中,tf为词频指的是某词在文章中出现的次数/该文章的总词数,idf为逆文档频率指的是log(语料库的文档总数/(包含该词的文档数+1))。
16、优选的,所述提取模块中公式tf-idf=tf*idf的提取逻辑为:首先对于待提取关键词的文本进行分词、词性筛选、去重和去除停用词等数据预处理操作,得到候选关键词;其次计算所有候选关键词的tf-idf值取所有候选关键词中tf-idf值top n大的关键词作为该文档的最终关键词。
17、优选的,所述tf-idf=tf*idf的提取算法会自主优先词语在全局文档中的重要程度,且在提取之后可人为对其进行修改。
18、优选的,所述生成模块以生成的分布式索引即日志检索流程可通过目标主机集群或相关存储设施提取,且日志链的提取操作以混合云作为基础。
19、所述基于混合云环境的高效日志边缘存储算法的平台的使用方法包括以下步骤:
20、s1:首先金融业务操作中产出的日志通过上传模块上传至接入互联网且以混合云为基础的平台,接着平台中的分类模块将对日志进行分析,同时分析依据是业务的重要性和价值性;
21、s2:接着分类模块将通过分类算法将日志存储在本地磁盘或者就近的存储设施即云盘、nas以及san内,备份模块将实时对其进行备份,提取模块将通过提取算法对存储的日志关键词进行浓缩;
22、s3:紧接着生成模块将以提取模块提取的关键词作为依据生成分布式索引运维人员利用中央日志检索后台通过分布式日志检索流程实时从目标主机集群或相关存储设施提取日志链。
23、与现有技术相比,本专利技术的有益效果是:本专利技术通过存储模块、提取模块和生成模块的配合使用可有效解决现有的日志存储系统容易因日志资料复杂繁多而影响查询效率的问题,本申请以混合云技术为基础在多中心、云原生和虚机并存的企业级数据中心环境下以最低传输、拷贝和存储成本下的日志存储及访问,业务系统通过存储模块、提取模块以及生成模块的配合在本地磁盘或者就近的存储设施云盘、nas、san进行链式日志存储并生成分布式索引;通过分布式日志检索流程实时从目标主机集群或相关存储设施提取日志链,与传统方式相较查询更为便捷快速,运维人员利用中央日志检索后台通过分布式日志检索流程实时从目标主机集群或相关存储设施提取日志链,即本专利技术可以避免企业搭建沉重的日志采集系统和进行大量低价值数据的拷贝和传输,是实现企业级经济型日志管理的一种新思路。
本文档来自技高网...【技术保护点】
1.一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于,包括:
2.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述分类模块(2)通过ID3算法完成的,ID3算法公式为:
3.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述分类模块(2)中当H(S)=0时,集合为完全可分集合,即集合S的所有元素的类相同,在ID3算法中,计算的是每个剩余属性熵。
4.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述存储模块(3)的存储范围包括本地磁盘和就近存储设施,且就近存储设施包括但不限制于云盘、NAS和SAN。
5.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述提取模块(4)的提取操作通过关键词提取算法完成,且关键词提取算法以EXCEL形式输出。
6.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述提取模块(4)的提取算法公式为:
7.
8.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述TF-IDF=TF*IDF的提取算法会自主优先词语在全局文档中的重要程度,且在提取之后可人为对其进行修改。
9.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述生成模块(5)以生成的分布式索引即日志检索流程可通过目标主机集群或相关存储设施提取,且日志链的提取操作以混合云作为基础。
10.根据权利要求1-9所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述基于混合云环境的高效日志边缘存储算法的平台的使用方法包括以下步骤:
...【技术特征摘要】
1.一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于,包括:
2.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述分类模块(2)通过id3算法完成的,id3算法公式为:
3.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述分类模块(2)中当h(s)=0时,集合为完全可分集合,即集合s的所有元素的类相同,在id3算法中,计算的是每个剩余属性熵。
4.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述存储模块(3)的存储范围包括本地磁盘和就近存储设施,且就近存储设施包括但不限制于云盘、nas和san。
5.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述提取模块(4)的提取操作通过关键词提取算法完成,且关键词提取算法以excel形式输出。
6.根据权利要求1所述的一种基于混合云环境的高效日志边缘存储算法的平台,其特征在于:所述提取模块(4)的提取算法公式为:...
【专利技术属性】
技术研发人员:杨洋,刘洋,石良生,柳君,
申请(专利权)人:兴业证券股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。