一种基于机器学习的非结构性数据采集技术制造技术

技术编号：39425820 阅读：20 留言：0更新日期：2023-11-19 16:12

本发明专利技术公开了一种基于机器学习的非结构性数据采集技术，包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库，通过设置向非结构性数据收集总库，用以实时收集获取到的各类数据，进行预处理和特征工程，对大数据中的杂质质量信息进行清理处理，便于从原始非结构化数据中提取的有意义的、可计算特征的数据，运用机器学习算法对数据进行分析任务，让非结构性数据能在基于机器学习的方法上被进行高效分析，提高数据采集分析的效率通过设置了数据应用库，使用者随时可以运用结果导向搜索，灵活的使用采集到的数据，数据也因此能被高效管理，而让使用者能更好地获取和分析复杂的非结构化数据。析复杂的非结构化数据。析复杂的非结构化数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的非结构性数据采集技术

[0001]本专利技术涉及数据采集处理技术相关领域，具体是一种基于机器学习的非结构性数据采集技术。

技术介绍

[0002]随着大数据时代的到来，越来越多的数据被收集和储存，其中包括大量非结构化数据，非结构化数据在企业中有着广泛的应用场景，这类数据也是企业最重要的资产之一。
[0003]然而非结构化数据是没有明显的组织形式和关系、没有特定的格式或排序的各种类型的数据，其具有多样性、复杂性、规模性等问题，由于非结构化数据缺乏明确的组织形式和关系，因此对其进行高效的管理变得异常困难，在这个信息化高速发展的时代，解决数据采集，方便数据管理尤其重要。

技术实现思路

[0004]因此，为了解决上述不足，本专利技术在此提供一种基于机器学习的非结构性数据采集技术。
[0005]本专利技术是这样实现的，构造一种基于机器学习的非结构性数据采集技术，该装置包括非结构性数据收集总库、预处理、特征工程、机器学习算法和数据应用库。
[0006]优选的，所述非结构性数据收集总...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的非结构性数据采集技术，其特征在于，包括：非结构性数据收集总库(c1)、预处理(c2)、特征工程(c3)、机器学习算法(c4)和数据应用库(c5)，所述非结构性数据收集总库(c1)包括数据获取(c11)和数据定义(c12)，所述非结构性数据收集总库(c1)用于对所有数据进行收纳集结，数据获取(c11)用来实时输入资源信息，数据定义(c12)用于对收集的数据及时进行定义。2.根据权利要求1所述一种基于机器学习的非结构性数据采集技术，其特征在于：所述预处理(c2)包括去除数据杂质(c21)、查重转换(c22)、降维(c23)和归一化(c24)，所述数据杂质(c21)和查重转换(c22)用于对海量的非结构性数据进行数据质量筛选和清理处理，降维(c23)用来降低数据的维度，归一化(c24)使得数据更佳规整和可视化。3.根据权利要求1所述一种基于机器学习的非结构性数据采集技术，其特征在于：所述特征工程(c3)包括类别区分(c31)、特征区分(c32)、特征冗余处理(c33)和特征提取向量化(c34)，所述类别区分(c31)用于将各类规整在一体的数据先一步进行整体分块，特征区分(c32)用于根据不同分块里的数据特征不同而进行区分，特征冗余处理(c33)用来将重复或者无用的数据处理掉，特征提取向量化(c34)用于从非结构性数据中提取有意义的、可计算的特征数据。4.根据权利要求1所述一种基于机器学习的非结构性数据采集技术，其特征在于：所述机器学习算法(c4)包括聚类分析(c41)、回归方法(c42)、决策树方法(c43)、深度学习(c44)和支持向量机(c45)，所述聚类分析(c41)用于图像和文本的相似性分析，以及音频和视频信号处理，回归方法(c42)用来分析非线性模型...

【专利技术属性】
技术研发人员：张开羽，李徵宁，霍世超，
申请(专利权)人：苏州宇易信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人