网站信息提取方法及其电子设备技术

技术编号:46630848 阅读:1 留言:0更新日期:2025-10-14 21:30
本发明专利技术实施例提供一种网站信息提取方法、装置、系统,包括:获取目标网站的地址信息以及用户输入的对应目标内容语言描述数据;基于所述目标内容语言描述数据以及目标网站的页面布局数据,对至少一个所述地址信息内对应的链接数据进行识别匹配,确定至少一个目标链接数据;通过预设AI语言大模型,对所述目标链接数据进行提取处理,确定目标内容的信息。通过获取目标网站地址和用户输入的目标内容需求,结合页面布局数据识别匹配目标链接数据,并利用AI语言大模型提取目标内容信息,能够基于用户需求自动识别目标链接并通过AI语言大模型提取页面字段信息,提升网站信息提取的智能化水平和处理效率。

【技术实现步骤摘要】

本专利技术涉及智慧识别领域,尤其涉及一种网站信息提取方法、装置、系统、电子设备及其存储介质。


技术介绍

1、随着互联网信息量的快速增长,用户在访问网站时,往往需要从大量网页中提取特定目标内容,例如客户信息、业务数据或联系方式等。然而,现有的信息提取方法大多依赖固定的网页结构模板或基于规则的爬虫程序,这些方法在应对不同网站结构、复杂页面布局及动态加载内容时存在适应性差、通用性低、人工维护成本高等问题。

2、同时,现有技术缺乏对用户自然语言需求的深度理解和针对性信息提取能力,无法实现基于用户输入自动精准匹配目标数据的功能。

3、因此,现有的信息提取方法存在缺乏对用户自然语言需求的深度理解和针对性信息提取能力,无法实现基于用户输入自动精准匹配目标数据的问题。


技术实现思路

1、本专利技术实施例提供一种网站信息提取方法,以解决现有的信息提取方法存在缺乏对用户自然语言需求的深度理解和针对性信息提取能力,无法实现基于用户输入自动精准匹配目标数据的问题,以提升信息提取的自动化、准确性和通用性。...

【技术保护点】

1.一种网站信息提取方法,其特征在于,包括:

2.如权利要求1所述的网站信息提取方法,其特征在于,所述获取目标网站的地址信息以及用户输入的对应目标内容语言描述数据,包括:

3.如权利要求1所述的网站信息提取方法,其特征在于,所述基于所述目标内容语言描述数据以及目标网站的页面布局数据,对至少一个所述地址信息内对应的链接数据进行识别匹配,确定至少一个目标链接数据之前,所述方法还包括:

4.如权利要求1所述的网站信息提取方法,其特征在于,所述基于所述目标内容语言描述数据以及目标网站的页面布局数据,对至少一个所述地址信息内对应的链接数据进行识别匹配,确定至少一...

【技术特征摘要】

1.一种网站信息提取方法,其特征在于,包括:

2.如权利要求1所述的网站信息提取方法,其特征在于,所述获取目标网站的地址信息以及用户输入的对应目标内容语言描述数据,包括:

3.如权利要求1所述的网站信息提取方法,其特征在于,所述基于所述目标内容语言描述数据以及目标网站的页面布局数据,对至少一个所述地址信息内对应的链接数据进行识别匹配,确定至少一个目标链接数据之前,所述方法还包括:

4.如权利要求1所述的网站信息提取方法,其特征在于,所述基于所述目标内容语言描述数据以及目标网站的页面布局数据,对至少一个所述地址信息内对应的链接数据进行识别匹配,确定至少一个目标链接数据,包括:

5.如权利要求4所述的网站信息提取方法,其特征在于,所述将各所述链接数据对应的位置特征数据和结构特征数据与所述目标需求内...

【专利技术属性】
技术研发人员:高靖乔晨光陈金鹏
申请(专利权)人:中山英诺莱比精密制造有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1