System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及多平台数据采集,具体是指一种基于机器学习和区块链优化采集多平台数据的方法。
技术介绍
1、一般跨平台数据由两种方式采集,统一调用接口和爬虫的方式。统一调用接口即被动式采集,不同的平台或业务系统按规则调用数据接口。爬虫的方式即主动式采集,通过脚本模拟大量的数据访问请求,来获取巨量的数据内容,本专利技术重点对第一种被动式采集的方式进行优化。
2、一般的数据采集接口都会建有接口统计体系,对明确的业务数据进行归类统计,利用大数据系统分析各类业务特征,作为常规的统计手段,这种方式可以满足大部分的业务需求。但该方式在进行业务发掘的工作时,完全依赖于人工的设计,依据工作者的经验,对数据进行各种维度分析,目的明确,但会失去一些未设想到的业务可能性。
3、所以,一种基于机器学习和区块链优化采集多平台数据的方法成为人们亟待解决的问题。
技术实现思路
1、本专利技术的目的是通过sklearn机器学习技术对多平台数据进行自主性的发掘训练,与传统的人工方式相结合,在这个过程中基于区块链溯源技术,对多平台数据来源,根据数据贡献量对其进行权益划分,鼓励各平台贡献更多数据,使得机器学习得出的模型更精准,发掘出数据更多的价值。
2、为解决上述技术问题,本专利技术提供的技术方案为:一种基于机器学习和区块链优化采集多平台数据的方法,包括以下步骤,
3、步骤1、各企业将平台数据统一发送到指定数据采集接口,将结构化数据存入数据库直接进行人工分析,将非结构化数据依
4、步骤2、通过sklearn机器学习技术对非结构化的数据进行模型训练并存储训练结果,该训练无业务倾向,用于探寻海量数据的未知共同点;
5、步骤3、存储训练结果完成后,将数据分析模型应用到大数据采集分析中,将训练得到的有用结论应用到各企业业务系统,同时将训练结果上链。
6、进一步的,所述步骤1中将数据的来源信息上链形成原始数据权益记录。
7、进一步的,所述步骤3中将训练结果上链形成有价值数据权益记录。
8、进一步的,所述机器学习内容包括对数据的分类、回归、聚类、降维、模型选择以及预处理。
9、进一步的,所述步骤3中将模型训练结果分类后得到的各类数据模型导入模型仓库,并将其应用于大数据清洗。
10、本专利技术与现有技术相比的优点在于:
11、本专利技术将多家企业、不同行业的数据要素流通平台的数据打通,通过中心服务器采集后使用机器学习技术对其进行模型训练,得到了包括数据类型自动识别、文件安全性自检测、数据资产培育等多种功能的数据模型,同时共享了不同行业中部分用户画像信息,对各企业业务发展产生了一定帮助。
12、以机器学习模型辅助人工分析,对产品运营人员的思路进行补充,产生了更多的数据挖掘可能性。
13、以权益溯源机制激励各企业间共享更多数据,在传统技术的基础上拓展了可供分析的数据来源。
本文档来自技高网...【技术保护点】
1.一种基于机器学习和区块链优化采集多平台数据的方法,其特征在于:包括以下步骤,
2.根据权利要求1所述的一种基于机器学习和区块链优化采集多平台数据的方法,其特征在于:所述步骤1中将数据的来源信息上链形成原始数据权益记录。
3.根据权利要求2所述的一种基于机器学习和区块链优化采集多平台数据的方法,其特征在于:所述步骤3中将训练结果上链形成有价值数据权益记录。
4.根据权利要求3所述的一种基于机器学习和区块链优化采集多平台数据的方法,其特征在于:所述机器学习内容包括对数据的分类、回归、聚类、降维、模型选择以及预处理。
5.根据权利要求4所述的一种基于机器学习和区块链优化采集多平台数据的方法,其特征在于:所述步骤3中将模型训练结果分类后得到的各类数据模型导入模型仓库,并将其应用于大数据清洗。
【技术特征摘要】
1.一种基于机器学习和区块链优化采集多平台数据的方法,其特征在于:包括以下步骤,
2.根据权利要求1所述的一种基于机器学习和区块链优化采集多平台数据的方法,其特征在于:所述步骤1中将数据的来源信息上链形成原始数据权益记录。
3.根据权利要求2所述的一种基于机器学习和区块链优化采集多平台数据的方法,其特征在于:所述步骤3中将训练结果上链形成有价值数...
【专利技术属性】
技术研发人员:吉长军,田文丰,王睿,刘铜,冯宏伟,王韬然,
申请(专利权)人:北京易安睿龙科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。