基于大语言模型的多源数据自动化采集方法技术

技术编号:46061737 阅读:8 留言:0更新日期:2025-08-11 15:47
本发明专利技术提供的基于大语言模型的多源数据自动化采集方法,包括:分析历史采集数据的特征分布,结合当前数据源的状态,动态生成最优采集策略;实时调度采集任务,得到动态调度的数据流;对所述动态调度的数据流进行实时异常检测与自适应补偿,得到自容错数据流;分析所述自容错数据流的实体关联及业务逻辑,预测潜在的数据需求点;自动扩展数据采集范围,得到知识增强的数据资产;识别所述数据资产的数据传输流的协议特征,基于协议特征映射的解析器对数据进行解析,得到协议无关标准化数据;进行语义噪声过滤与跨模态清洗,得到语义纯净数据。在本发明专利技术中,克服了现有多源数据采集技术无法进行协议适配以及自适应策略优化的缺陷。

【技术实现步骤摘要】

本专利技术涉及数据处理的,特别涉及一种基于大语言模型的多源数据自动化采集方法


技术介绍

1、在大数据与人工智能深度融合的技术背景下,多源数据采集已成为各行业数字化转型的关键环节。当前,工业物联网、智慧城市、金融风控等领域均面临海量异构数据源(如传感器、数据库、api 接口、网页等)的协同采集需求。然而,现有多源数据采集技术存在以下显著缺陷:

2、其一,协议适配能力局限。传统数据采集依赖预先编写的协议解析规则(如针对http、modbus 协议的固定解析模块),难以应对新型物联网协议(如 lorawan、自定义工业协议)或协议版本快速迭代的场景。当出现未知协议时,需耗费大量人力进行协议逆向分析与解析器开发,导致采集系统扩展性差,无法满足动态变化的业务需求。

3、其二,采集策略静态化。多数采集系统采用固定的采集模式(如每小时采集一次日志数据),无法根据数据价值密度、数据源负载状态等动态调整策略。这导致高价值数据漏采、低价值数据冗余采集并存,造成计算资源浪费与关键信息缺失的双重问题。

4、综上所述,现有的多源数据采集技术在协本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的多源数据自动化采集方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型的多源数据自动化采集方法,其特征在于,所述协议无关标准化数据是消除了原数据所依赖的通信协议特性,统一转换为独立的数据格式的数据。

3.根据权利要求1所述的基于大语言模型的多源数据自动化采集方法,其特征在于,所述采集策略包括采样频率、批量大小及优先级排序。

4.根据权利要求1所述的基于大语言模型的多源数据自动化采集方法,其特征在于,分析历史采集数据的特征分布,结合当前数据源的状态,动态生成最优采集策略,包括:

5.根据权利要求1所...

【技术特征摘要】

1.一种基于大语言模型的多源数据自动化采集方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型的多源数据自动化采集方法,其特征在于,所述协议无关标准化数据是消除了原数据所依赖的通信协议特性,统一转换为独立的数据格式的数据。

3.根据权利要求1所述的基于大语言模型的多源数据自动化采集方法,其特征在于,所述采集策略包括采样频率、批量大小及优先级排序。

4.根据权利要求1所述的基于大语言模型的多源数据自动化采集方法,其特征在于,分析历史采集数据的特征分布,结合当前数据源的状态,动态生成最优采集策略,包括:

5.根据权利要求1所述的基于大语言模型的多源数据自动化采集方法,其特征在于,基于大语言模型构建领域知识图谱,分析所述自容错数据流的实体关联及业务逻辑,预测潜在的数据需求点,包括:

6...

【专利技术属性】
技术研发人员:周洪峰潘孝挺刘林峰熊杰杨欢
申请(专利权)人:深圳微品致远信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1