隐藏变量抽取方法和设备以及信息提取方法和设备技术

技术编号:11736077 阅读:100 留言:0更新日期:2015-07-15 11:19
本发明专利技术公开了一种隐藏变量抽取方法和设备以及信息提取方法和设备。该隐藏变量抽取方法包括:获得起始URL及其测试例,测试例包括:用户输入及其在起始URL对应的起始页面的DOM树中的位置、以及通过在起始页面中输入用户输入而得到的最终页面上的期望值;获取起始页面、最终页面、以及两者之间的中间页面中的所有JS代码;按照预定的准则,解析所获取的JS代码,以确定所有变量的信息流,每个变量的信息流包括生成变量的值所需的变量和JS代码;根据用户输入及其在DOM树中的位置、以及最终页面上的期望值,确定用于生成期望值所需的变量;根据用于生成期望值所需的变量,从所有变量的信息流中抽取出生成期望值所需的信息流。

【技术实现步骤摘要】

本专利技术一般地涉及信息处理领域。具体而言,本专利技术涉及一种寻找在Java script(Java脚本,下文中简称为JS)代码中隐藏的变量的方法和设备以及一种信息提取方法和设备。
技术介绍
在web应用中,JS得到了广泛的应用。这提高了抽取web中的信息的难度。传统的信息抽取技术直接从原始网页(即下载的网页,如HTML(Hyper Text Mark-up Language,超文本标记语言)网页)的DOM (Document Object Model,文档对象模型)树中抽取变量的值。然而,伴随着JS的使用,所需要的值(下文中简称为期望值)以及为了生成期望值所需的中间值可能由JS代码动态产生并插入DOM树中,并不出现在原始网页的DOM树中。也就是说,期望值以及为了生成期望值所需的中间值可能由于JS代码的使用而隐藏起来,导致无法直接提取相关变量的值从而抽取期望值。因此,期望一种能够寻找在JS代码中隐藏的变量的方法和设备、以及利用上述方法和设备来提取信息的方法和设备。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/CN104778070.html" title="隐藏变量抽取方法和设备以及信息提取方法和设备原文来自X技术">隐藏变量抽取方法和设备以及信息提取方法和设备</a>

【技术保护点】
一种寻找在JAVA脚本代码中隐藏的变量的方法,包括:获得起始统一资源定位符URL及其测试例,所述测试例包括:用户输入及其在所述起始URL对应的起始页面的文档对象模型DOM树中的位置、以及通过在所述起始页面中输入所述用户输入而得到的最终页面上的期望值;获取所述起始页面、所述最终页面、以及两者之间的中间页面中的所有JAVA脚本代码;按照预定的准则,解析所获取的JAVA脚本代码,以确定所有变量的信息流,每个变量的信息流包括生成所述变量的值所需的变量和JAVA脚本代码;根据所述用户输入及其在所述DOM树中的位置、以及所述最终页面上的期望值,确定用于生成所述期望值所需的变量;根据所述用于生成所述期望值所...

【技术特征摘要】

【专利技术属性】
技术研发人员:邹纲皮冰锋钟朝亮张军孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1