【技术实现步骤摘要】
本申请涉及数据采集领域,特别是涉及一种基于大语言模型的对话式目标驱动的网络数据采集系统及方法。
技术介绍
1、现有网络数据采集技术存在技术门槛高、灵活性不足、自适应能力有限以及维护成本高等问题。传统的基于爬虫框架(如scrapy)的代码方式需要专业的编程技能,无代码工具(如八爪鱼、instant data scraper等)在处理复杂场景时能力有限,而新兴的ai爬虫工具(如crawl4ai、firecrawl等)在用户交互和自校验方面仍有不足。
2、为了解决上述问题,亟需提供新的网络数据采集系统,能够通过自然语言交互降低技术门槛,动态适应网站变化,并减少维护成本。
技术实现思路
1、本申请的目的是提供一种基于大语言模型的对话式目标驱动的网络数据采集系统及方法,能够通过自然语言交互降低技术门槛,动态适应网站变化,并减少维护成本。
2、为实现上述目的,本申请提供了如下方案:
3、第一方面,本申请提供了一种基于大语言模型的对话式目标驱动的网络数据采集系统,所述
...【技术保护点】
1.一种基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述基于大语言模型的对话式目标驱动的网络数据采集系统包括:用户界面模块、用户浏览器、远程浏览器控制模块、AI对话模块、后台AI引擎以及分布式云执行环境;
2.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述基于大语言模型的对话式目标驱动的网络数据采集系统采用B/S架构。
3.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述分布式执行环境包括多个服务器节点。
4.根据权利要求1所述的基于大语
...【技术特征摘要】
1.一种基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述基于大语言模型的对话式目标驱动的网络数据采集系统包括:用户界面模块、用户浏览器、远程浏览器控制模块、ai对话模块、后台ai引擎以及分布式云执行环境;
2.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述基于大语言模型的对话式目标驱动的网络数据采集系统采用b/s架构。
3.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述分布式执行环境包括多个服务器节点。
4.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,所述远程浏览器启动playwright实例加载目标网页,采用websocket技术进行目标网页同步。
5.根据权利要求1所述的基于大语言模型的对话式目标驱动的网络数据采集系统,其特征在于,后台ai引擎的自校验机制包括:格式校验、内容完整性校验以及异常检测。
6.根据权利要求1所述的...
【专利技术属性】
技术研发人员:武志刚,何丽,段建勇,王昊,郑起龙,
申请(专利权)人:北方工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。