页面内容提取方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:33874564 阅读:35 留言:0更新日期:2022-06-22 17:02
本发明专利技术公开了一种页面内容提取方法、装置、设备和计算机可读存储介质。该方法包括:启动目标应用程序;其中,所述目标应用程序用于展示页面;读取预先设置的多个节点操作信息;其中,每个所述节点操作信息用于指示在页面中的一个目标元素节点位置执行预设操作类型的节点操作;按照多个所述节点操作信息的排列顺序,顺序执行多个所述节点操作信息指示的节点操作;其中,在所述节点操作信息指示的操作类型为提取类型时,在所述节点操作信息指示的目标元素节点位置提取元素内容。本发明专利技术无需破解应用程序的API,也不会提取到页面中未展示的内容。内容。内容。

【技术实现步骤摘要】
页面内容提取方法、装置、设备和计算机可读存储介质


[0001]本专利技术涉及互联网
,尤其涉及一种页面内容提取方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]随着科技的不断进步,智能终端逐渐普及,并且已经成为用户生活中不可或缺的工具。智能终端可以安装多种多样的APP(Application,应用程序),应用程序可以用于呈现页面内容。应用程序展示的页面内容具有较大的技术价值。例如:页面内容体现用户的个人偏好,提取页面内容并进行分析,可以确定用户个人偏好数据。
[0003]目前,提取页面内容需要获取页面内容对应的HTML(HyperText Markup Language,超文本标记语音)文本,将HTML文本解析为DOM(Document Object Model,文档对象模型)树结构,并在DOM树结构中定位所需的元素节点,并从该元素节点提取页面内容。
[0004]但是,第三方APP使用私有网页显示组件,使得操作系统不支持从第三方APP获取HTML文本,无法实现页面内容的提取。虽然通过破解第三方APP的API可以本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种页面内容提取方法,其特征在于,包括:启动目标应用程序;其中,所述目标应用程序用于展示页面;读取预先设置的多个节点操作信息;其中,每个所述节点操作信息用于指示在页面中的一个目标元素节点位置执行预设操作类型的节点操作;按照多个所述节点操作信息的排列顺序,顺序执行多个所述节点操作信息指示的节点操作;其中,在所述节点操作信息指示的操作类型为提取类型时,在所述节点操作信息指示的目标元素节点位置提取元素内容。2.根据权利要求1所述的方法,其特征在于,在所述读取预先设置的多个节点操作信息之前,还包括:通过预设的布局分析工具,抓取所述目标应用程序的页面,并识别所述页面中的元素节点;在所述布局分析工具识别出的元素节点中,确定多个目标元素节点;根据每个所述目标元素节点的位置,为每个所述目标元素节点构建节点操作信息,并且按照多个所述目标元素节点在页面中的展示顺序,对多个所述节点操作信息进行排序。3.根据权利要求2所述的方法,其特征在于,在所述为每个所述目标元素节点构建节点操作信息之后,在所述读取预先设置的多个节点操作信息之前,还包括:按照多个所述节点操作信息的排列顺序,将多个所述目标元素节点分别对应的节点操作信息存储到配置文件中;所述读取预先设置的多个节点操作信息,包括:通过预设的自动化工具,读取所述配置文件中顺序排列的多个所述节点操作信息。4.根据权利要求3所述的方法,其特征在于,所述按照多个所述节点操作信息的排列顺序,顺序执行多个所述节点操作信息指示的节点操作,包括:通过所述自动化工具,执行所述配置文件中顺序排列的多个所述节点操作信息分别指示的节点操作。5.一种页面内容提取装置,其特征在于,包括:启动模块,用于启动目标应用程序;其中,所述目标应用程序用于展示页面;读取模块,用于读取预先设置的多个节点操作信息;其中,每个所述节点操作信息用于指示在页面中的一个目标元素节点位置执行预设操作类型的节点...

【专利技术属性】
技术研发人员:王安迪
申请(专利权)人:国信君和北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1