一种高效分布式大数据数据采集实现方法及系统技术方案

技术编号:30145364 阅读:26 留言:0更新日期:2021-09-23 15:18
本发明专利技术公开了一种高效分布式大数据数据采集实现方法及系统,其中,所述方法包括:获得第一视频信息;对所述第一视频信息进行特征提取,获得所述第一视频信息的文字特征、语音特征和视觉特征;分别对所述文字特征、所述语音特征和所述视觉特征进行主成分分析,获得第一主成分特征集合;通过大数据获得第一视频集合,所述第一视频集合包括与所述第一主成分特征集合相匹配的视频集合;根据所述第一主成分特征集合对所述第一视频集合进行主成分特征数据采集。解决了现有技术中的无法对海量数据进行分布式的高效采集,使得采集得到的目标数据精确度不高的技术问题。据精确度不高的技术问题。据精确度不高的技术问题。

【技术实现步骤摘要】
一种高效分布式大数据数据采集实现方法及系统


[0001]本专利技术涉及数据采集领域,具体地,涉及一种高效分布式大数据数据采集实现方法及系统。

技术介绍

[0002]在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,数据采集领域已经发生了重要的变化。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。
[0003]但本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:现有技术中存在无法对海量数据进行分布式的高效采集,使得采集得到的目标数据精确度不高的技术问题。

技术实现思路

[0004]针对现有技术中的缺陷,本申请实施例的目的是,通过提供一种高效分布式大数据数据采集实现方法及系统,解决了现有技术中的无法对海量数据进行分布式的高效采集,使得采集得到的目标数据精确度不高的技术问题。通过对比所述第一主成分特征集合,对所述第一视频集合进行去冗杂处理,以便于对文字、语音以及视觉特征进行有效提取,进而确保对采集的数据进行直本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种高效分布式大数据数据采集实现方法,其中,所述方法包括:获得第一视频信息;对所述第一视频信息进行特征提取,获得所述第一视频信息的文字特征、语音特征和视觉特征;分别对所述文字特征、所述语音特征和所述视觉特征进行主成分分析,获得第一主成分特征集合;通过大数据获得第一视频集合,所述第一视频集合包括与所述第一主成分特征集合相匹配的视频集合;根据所述第一主成分特征集合对所述第一视频集合进行主成分特征数据采集。2.如权利要求1所述的方法,其中,所述分别对所述文字特征、所述语音特征和所述视觉特征进行主成分分析,获得第一主成分特征集合,包括:对第一特征数据集进行去中心化处理,获得第二特征数据集;获得所述第二特征数据集的第一协方差矩阵;对所述第一协方差矩阵进行运算,获得所述第一协方差矩阵的第一特征值和第一特征向量;将所述第一特征数据集投影到所述第一特征向量,获得第一降维数据集,其中所述第一降维数据集为所述第一主成分特征集合。3.如权利要求1所述的方法,其中,所述根据所述第一主成分特征集合对所述第一视频集合进行主成分特征数据采集之前,包括:对所述第一视频集合按照所述文字特征、所述语音特征和所述视觉特征进行决策树分类,获得第一分类结果;根据所述第一主成分特征集合对所述第一分类结果进行主成分特征数据采集。4.如权利要求3所述的方法,其中,所述对所述第一视频集合按照所述文字特征、所述语音特征和所述视觉特征进行决策树分类,获得第一分类结果,包括:对所述文字特征进行信息编码运算,获得第一特征信息熵;对所述语音特征进行信息论编码运算,获得第二特征信息熵,对所述视觉特征进行信息论编码运算,获得第三特征信息熵;将所述第一特征信息熵、所述第二特征信息熵以及所述第三特征信息熵输入数据大小比...

【专利技术属性】
技术研发人员:杨昕
申请(专利权)人:北京黑马企服科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1