【技术实现步骤摘要】
一种基于机器学习的非结构性数据采集技术
[0001]本专利技术涉及数据采集处理技术相关领域,具体是一种基于机器学习的非结构性数据采集技术。
技术介绍
[0002]随着大数据时代的到来,越来越多的数据被收集和储存,其中包括大量非结构化数据,非结构化数据在企业中有着广泛的应用场景,这类数据也是企业最重要的资产之一。
[0003]然而非结构化数据是没有明显的组织形式和关系、没有特定的格式或排序的各种类型的数据,其具有多样性、复杂性、规模性等问题,由于非结构化数据缺乏明确的组织形式和关系,因此对其进行高效的管理变得异常困难,在这个信息化高速发展的时代,解决数据采集,方便数据管理尤其重要。
技术实现思路
[0004]因此,为了解决上述不足,本专利技术在此提供一种基于机器学习的非结构性数据采集技术。
[0005]本专利技术是这样实现的,构造一种基于机器学习的非结构性数据采集技术,该装置包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库。
[0006]优选的,所述非结构性数据收集总 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的非结构性数据采集技术,其特征在于,包括:非结构性数据收集总库(c1)、预处理(c2)、特征工程(c3)、机器学习算法(c4)和数据应用库(c5),所述非结构性数据收集总库(c1)包括数据获取(c11)和数据定义(c12),所述非结构性数据收集总库(c1)用于对所有数据进行收纳集结,数据获取(c11)用来实时输入资源信息,数据定义(c12)用于对收集的数据及时进行定义。2.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述预处理(c2)包括去除数据杂质(c21)、查重转换(c22)、降维(c23)和归一化(c24),所述数据杂质(c21)和查重转换(c22)用于对海量的非结构性数据进行数据质量筛选和清理处理,降维(c23)用来降低数据的维度,归一化(c24)使得数据更佳规整和可视化。3.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述特征工程(c3)包括类别区分(c31)、特征区分(c32)、特征冗余处理(c33)和特征提取向量化(c34),所述类别区分(c31)用于将各类规整在一体的数据先一步进行整体分块,特征区分(c32)用于根据不同分块里的数据特征不同而进行区分,特征冗余处理(c33)用来将重复或者无用的数据处理掉,特征提取向量化(c34)用于从非结构性数据中提取有意义的、可计算的特征数据。4.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述机器学习算法(c4)包括聚类分析(c41)、回归方法(c42)、决策树方法(c43)、深度学习(c44)和支持向量机(c45),所述聚类分析(c41)用于图像和文本的相似性分析,以及音频和视频信号处理,回归方法(c42)用来分析非线性模型...
【专利技术属性】
技术研发人员:张开羽,李徵宁,霍世超,
申请(专利权)人:苏州宇易信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。