一种基于机器学习的非结构性数据采集技术制造技术

技术编号:39425820 阅读:20 留言:0更新日期:2023-11-19 16:12
本发明专利技术公开了一种基于机器学习的非结构性数据采集技术,包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库,通过设置向非结构性数据收集总库,用以实时收集获取到的各类数据,进行预处理和特征工程,对大数据中的杂质质量信息进行清理处理,便于从原始非结构化数据中提取的有意义的、可计算特征的数据,运用机器学习算法对数据进行分析任务,让非结构性数据能在基于机器学习的方法上被进行高效分析,提高数据采集分析的效率通过设置了数据应用库,使用者随时可以运用结果导向搜索,灵活的使用采集到的数据,数据也因此能被高效管理,而让使用者能更好地获取和分析复杂的非结构化数据。析复杂的非结构化数据。析复杂的非结构化数据。

【技术实现步骤摘要】
一种基于机器学习的非结构性数据采集技术


[0001]本专利技术涉及数据采集处理技术相关领域,具体是一种基于机器学习的非结构性数据采集技术。

技术介绍

[0002]随着大数据时代的到来,越来越多的数据被收集和储存,其中包括大量非结构化数据,非结构化数据在企业中有着广泛的应用场景,这类数据也是企业最重要的资产之一。
[0003]然而非结构化数据是没有明显的组织形式和关系、没有特定的格式或排序的各种类型的数据,其具有多样性、复杂性、规模性等问题,由于非结构化数据缺乏明确的组织形式和关系,因此对其进行高效的管理变得异常困难,在这个信息化高速发展的时代,解决数据采集,方便数据管理尤其重要。

技术实现思路

[0004]因此,为了解决上述不足,本专利技术在此提供一种基于机器学习的非结构性数据采集技术。
[0005]本专利技术是这样实现的,构造一种基于机器学习的非结构性数据采集技术,该装置包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库。
[0006]优选的,所述非结构性数据收集总库还包括数据获取和数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的非结构性数据采集技术,其特征在于,包括:非结构性数据收集总库(c1)、预处理(c2)、特征工程(c3)、机器学习算法(c4)和数据应用库(c5),所述非结构性数据收集总库(c1)包括数据获取(c11)和数据定义(c12),所述非结构性数据收集总库(c1)用于对所有数据进行收纳集结,数据获取(c11)用来实时输入资源信息,数据定义(c12)用于对收集的数据及时进行定义。2.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述预处理(c2)包括去除数据杂质(c21)、查重转换(c22)、降维(c23)和归一化(c24),所述数据杂质(c21)和查重转换(c22)用于对海量的非结构性数据进行数据质量筛选和清理处理,降维(c23)用来降低数据的维度,归一化(c24)使得数据更佳规整和可视化。3.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述特征工程(c3)包括类别区分(c31)、特征区分(c32)、特征冗余处理(c33)和特征提取向量化(c34),所述类别区分(c31)用于将各类规整在一体的数据先一步进行整体分块,特征区分(c32)用于根据不同分块里的数据特征不同而进行区分,特征冗余处理(c33)用来将重复或者无用的数据处理掉,特征提取向量化(c34)用于从非结构性数据中提取有意义的、可计算的特征数据。4.根据权利要求1所述一种基于机器学习的非结构性数据采集技术,其特征在于:所述机器学习算法(c4)包括聚类分析(c41)、回归方法(c42)、决策树方法(c43)、深度学习(c44)和支持向量机(c45),所述聚类分析(c41)用于图像和文本的相似性分析,以及音频和视频信号处理,回归方法(c42)用来分析非线性模型...

【专利技术属性】
技术研发人员:张开羽李徵宁霍世超
申请(专利权)人:苏州宇易信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1