一种大数据智能采集处理方法和系统技术方案

技术编号:23288032 阅读:41 留言:0更新日期:2020-02-08 18:06
大数据智能采集处理方法,包括以下步骤:S1.设置第一数据库和第二数据库;S2.设置网络智能机器人,获得采集数据;S3.将采集数据逐条同第一数据库中数据进行对比,将数据A存入第一数据库;否则将数据A存入第二数据库;S4.将数据A存入所述第二数据库时,进行相似度γ计算;S41.当相似度γ大于阈值β时,则将数据A,替换相似度γ最高的一条数据;S42.否则将数据A直接存入第二数据库;S5.超过时间阈值δ时,将第二数据库中的数据存入第一数据库,同时清除第二数据库中数据;S6.将第二数据库中的数据分别同第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。

A big data intelligent collection and processing method and system

【技术实现步骤摘要】
一种大数据智能采集处理方法和系统
本专利技术涉及信息
,特别是涉及一种大数据智能采集处理方法和系统。
技术介绍
随着大数据时代的到来,人们对数据的需求越来越旺盛。由于数据源在实际生活中千奇百怪,因此不经多重处理就进入数据库的数据很可能让数据的整体可靠性和有效性会大大降低,用这样的数据在进行后续的数据使用,其使用效率是很低的。为了获得更有效的文本数据,特别是适用于供应、需求、销售、交易、电商的数据处理,用户需要提取最及时有用的含有信息量大的数据,同时在适当时候,更新信息量相对较小的数据。数据清洗方法及装置201010578479.9,获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;对所述样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排本文档来自技高网...

【技术保护点】
1.一种大数据智能采集处理方法,其特征在于包括以下步骤:/nS1.设置第一数据库和第二数据库;/nS2.设置一个或多个网络智能机器人,实时智能抓取公开信息,获得采集数据;/nS3.将所述采集数据逐条同所述第一数据库中数据进行对比,当所述采集数据中数据A,同所述第一数据库中数据相似度γ均小于阈值α时,则将所述采集数据中数据A存入所述第一数据库;否则将所述采集数据中数据A存入所述第二数据库;/nS4. 将所述采集数据中数据A存入所述第二数据库时,将所述采集数据中数据A同所述第二数据库中数据进行相似度γ计算;/nS41.当所述采集数据中数据A同所述第二数据库中某一条或多条数据相似度γ大于阈值β时,则...

【技术特征摘要】
1.一种大数据智能采集处理方法,其特征在于包括以下步骤:
S1.设置第一数据库和第二数据库;
S2.设置一个或多个网络智能机器人,实时智能抓取公开信息,获得采集数据;
S3.将所述采集数据逐条同所述第一数据库中数据进行对比,当所述采集数据中数据A,同所述第一数据库中数据相似度γ均小于阈值α时,则将所述采集数据中数据A存入所述第一数据库;否则将所述采集数据中数据A存入所述第二数据库;
S4.将所述采集数据中数据A存入所述第二数据库时,将所述采集数据中数据A同所述第二数据库中数据进行相似度γ计算;
S41.当所述采集数据中数据A同所述第二数据库中某一条或多条数据相似度γ大于阈值β时,则将所述采集数据中数据A,替换所述第二数据库中同所述采集数据中数据A相似度γ最高的一条数据;
S42.否则将所述采集数据中数据A直接存入所述第二数据库;
S5.超过时间阈值δ时,将所述第二数据库中的数据存入所述第一数据库,同时清除所述第二数据库中数据;
S6.将所述第二数据库中的数据存入所述第一数据库时,将所述第二数据库中的数据分别同所述第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。


2.根据权利要求1所述的大数据智能采集处理方法,其特征在于所述采集数据,至少包括发布人、发布内容、发布类型三个数据标签。


3.根据权利要求1所述的大数据智能采集处理方法,其特征在于,进行数据检索时,只检索所述第一数据库中数据,而对于所述第一数据库中所述同一类数据只...

【专利技术属性】
技术研发人员:张乔木李雷
申请(专利权)人:太原蓝知科技有限公司
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1