XPath制造技术

技术编号:39857116 阅读:25 留言:0更新日期:2023-12-30 12:54
本发明专利技术提供一种

【技术实现步骤摘要】
XPath生成方法、系统、存储介质及电子设备


[0001]本专利技术属于
XPath

XML Path Language

XML
路径语言)的
,特别是涉及一种
XPath
生成方法

系统

存储介质及电子设备


技术介绍

[0002]在网络爬虫

数据抓取等应用中,经常需要解析
HTML
文档并生成
XPath
来定位特定的元素
。XPath
是一种在
XML
文档中查找信息的语言,可以用来在
XML
文档中对元素和属性进行遍历

[0003]现有技术中,
Xpath
的生成方法主要包括以下几种

[0004](1)基于页面结构通过人工分析

编写的
XPath
表达式

[0005]该方法需要对r/>XPath...

【技术保护点】

【技术特征摘要】
1.
一种
XPath
生成方法,其特征在于,所述方法包括以下步骤:获取指定区域的
HTML
文件;对所述
HTML
文件进行清洗;基于清洗后的
HTML
文件生成
HTML
节点队列;基于所述
HTML
节点队列生成节点矩阵;基于所述节点矩阵生成
Xpath
表达式;基于所述节点矩阵生成
XPath
表达式包括以下步骤:获取所述节点矩阵中各个节点的节点身份
ID
和父节点身份
ID
;倒序遍历所述节点矩阵,对于所述节点矩阵中的每个节点,根据所述节点的节点身份
ID
和父节点身份
ID
构建树结构;遍历所述树结构,生成
XPath
表达式
。2.
根据权利要求1所述的
XPath
生成方法,其特征在于:对所述
HTML
文件进行清洗包括以下步骤:去除所述
HTML
文件中的转义符号;去除所述
HTML
文件中的
HTML
实体编码
。3.
根据权利要求1所述的
XPath
生成方法,其特征在于:基于清洗后的
HTML
文件生成
HTML
节点队列包括以下步骤:将所述清洗后的
HTML
文件转换为
HTML
文档对象;采用递归方式逐一获取所述
HTML
文档对象的各个节点的节点信息,所述节点信息包括节点名称

节点属性

节点深度和节点身份
ID
;基于所述节点信息将所述各个节点构建为所述
HTML
节点队列
。4.
根据权利要求1所述的
XPath
生成方法,其特征在于:基于所述
HTML
节点队列生成节点矩阵包括以下步骤:获取所述
HTML
节点队列中各个节点的节点深度;根据所述节点深度将所述各个节点构建为节点矩阵...

【专利技术属性】
技术研发人员:闫梦帆
申请(专利权)人:上海蜜度科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1