【技术实现步骤摘要】
本专利技术一般地涉及信息处理领域。具体而言,本专利技术涉及一种寻找在Java script(Java脚本,下文中简称为JS)代码中隐藏的变量的方法和设备以及一种信息提取方法和设备。
技术介绍
在web应用中,JS得到了广泛的应用。这提高了抽取web中的信息的难度。传统的信息抽取技术直接从原始网页(即下载的网页,如HTML(Hyper Text Mark-up Language,超文本标记语言)网页)的DOM (Document Object Model,文档对象模型)树中抽取变量的值。然而,伴随着JS的使用,所需要的值(下文中简称为期望值)以及为了生成期望值所需的中间值可能由JS代码动态产生并插入DOM树中,并不出现在原始网页的DOM树中。也就是说,期望值以及为了生成期望值所需的中间值可能由于JS代码的使用而隐藏起来,导致无法直接提取相关变量的值从而抽取期望值。因此,期望一种能够寻找在JS代码中隐藏的变量的方法和设备、以及利用上述方法和设备来提取信息的方法和设备。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基 ...
【技术保护点】
一种寻找在JAVA脚本代码中隐藏的变量的方法,包括:获得起始统一资源定位符URL及其测试例,所述测试例包括:用户输入及其在所述起始URL对应的起始页面的文档对象模型DOM树中的位置、以及通过在所述起始页面中输入所述用户输入而得到的最终页面上的期望值;获取所述起始页面、所述最终页面、以及两者之间的中间页面中的所有JAVA脚本代码;按照预定的准则,解析所获取的JAVA脚本代码,以确定所有变量的信息流,每个变量的信息流包括生成所述变量的值所需的变量和JAVA脚本代码;根据所述用户输入及其在所述DOM树中的位置、以及所述最终页面上的期望值,确定用于生成所述期望值所需的变量;根据所述 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:邹纲,皮冰锋,钟朝亮,张军,孙俊,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。