一种基于大语言模型的对话式目标驱动的网络数据采集系统及方法技术方案

技术编号:46177943 阅读:9 留言:0更新日期:2025-08-22 18:40
本申请公开了一种基于大语言模型的对话式目标驱动的网络数据采集系统及方法,涉及数据采集领域,该系统中用户界面模块用于获取目标网页网址和自然语言需求;用户浏览器与远程浏览器控制模块和AI对话模块进行通信;远程浏览器控制模块用于根据目标网页网址加载和同步目标网页至用户浏览器中;AI对话模块用于接收用户的自然语言需求,并与后台AI引擎进行通信;后台AI引擎根据自然语言需求,利用大语言模型确定用户意图,并结合目标网页上下文生成爬虫代码和进行自校验;分布式执行环境与后台AI引擎通信,并用于接收爬虫代码以及并行执行爬虫代码。本申请能够通过自然语言交互降低技术门槛,动态适应网站变化,并减少维护成本。

【技术实现步骤摘要】

本申请涉及数据采集领域,特别是涉及一种基于大语言模型的对话式目标驱动的网络数据采集系统及方法


技术介绍

1、现有网络数据采集技术存在技术门槛高、灵活性不足、自适应能力有限以及维护成本高等问题。传统的基于爬虫框架(如scrapy)的代码方式需要专业的编程技能,无代码工具(如八爪鱼、instant data scraper等)在处理复杂场景时能力有限,而新兴的ai爬虫工具(如crawl4ai、firecrawl等)在用户交互和自校验方面仍有不足。

2、为了解决上述问题,亟需提供新的网络数据采集系统,能够通过自然语言交互降低技术门槛,动态适应网站变化,并减少维护成本。


技术实现思路

1、本申请的目的是提供一种基于大语言模型的对话式目标驱动的网络数据采集系统及方法,能够通过自然语言交互降低技术门槛,动态适应网站变化,并减少维护成本。

2、为实现上述目的,本申请提供了如下方案:

3、第一方面,本申请提供了一种基于大语言模型的对话式目标驱动的网络数据采集系统,所述基于大语言模型的对话本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述基于大语言模型的对话式目标驱动的网络数据采集系统包括:用户界面模块、用户浏览器、远程浏览器控制模块、AI对话模块、后台AI引擎以及分布式云执行环境;

2.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述基于大语言模型的对话式目标驱动的网络数据采集系统采用B/S架构。

3.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述分布式执行环境包括多个服务器节点。

4.根据权利要求1所述的基于大语言模型的对话式目标驱...

【技术特征摘要】

1.一种基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述基于大语言模型的对话式目标驱动的网络数据采集系统包括:用户界面模块、用户浏览器、远程浏览器控制模块、ai对话模块、后台ai引擎以及分布式云执行环境;

2.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述基于大语言模型的对话式目标驱动的网络数据采集系统采用b/s架构。

3.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述分布式执行环境包括多个服务器节点。

4.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述远程浏览器启动playwright实例加载目标网页,采用websocket技术进行目标网页同步。

5.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,后台ai引擎的自校验机制包括:格式校验、内容完整性校验以及异常检测。

6.根据权利要求1所述的...

【专利技术属性】
技术研发人员:武志刚何丽段建勇王昊郑起龙
申请(专利权)人:北方工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1