一种html页面的信息采集方法技术

技术编号:15500076 阅读:76 留言:0更新日期:2017-06-03 22:05
本发明专利技术公开了一种html页面的信息采集方法,包括以下步骤:S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;S3.将加密处理过的信息,传输到服务器端。本方法无需在网站服务端做出任何更改,只需在客户机上安装插件,即可获取表单信息,并发送到服务器进行统计;信息提取成本低,可大大提高信息录入的速度和准确性。

An information collection method for HTML pages

The invention discloses an information acquisition method of HTML page, which comprises the following steps: S1. using BHO or npapi plug-in plug-in listening listening mode, listening to \the submission form, and obtain the information form elements in the event processing; information element S2.BHO plugin or npapi plugin will gain access to the encrypted encryption processing; S3. the information transmission to the server. This method does not need to make any changes in the web server, only need to install the plug-in on the client, you can access the information form, and send to the server for statistical information extraction; low cost, can greatly improve the speed and accuracy of information input.

【技术实现步骤摘要】
一种html页面的信息采集方法
本专利技术属于信息与数据处理领域,特别地涉及一种html页面的信息采集方法。
技术介绍
随着信息化程度不断加深,企业对情报信息化集成的渴求也日益强烈;互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息,成为重要的情报信息源头。目前,html页面的信息采集的相关产品为数不多,且产品对用户本身的基础信息设施要求高,实施周期长,系统建设和维护成本高,主要客户是超大型企业和政府,普通企业无力承受。目前在客户机、服务端(C/S)模型下,服务端可以直接获取客户机上提交的表单。但对于第三方应用开发,由于服务端是不可再更改的,这时就无法直接进行html表单统计。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种无需更改服务端就能实现html页面信息采集的方法。为实现上述目的,本专利技术的技术方案为:一种html页面的信息采集方法,包括以下步骤:S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;S3.将加密处理过的信息,传输到服务器端。进一步的,在S1中,对于IE内核的浏览器采用BHO插件监听方式;对于非IE内核的浏览器采用npapi插件监听方式。进一步的,BHO插件监听方式包括以下步骤:S111.BHO插件监听浏览器的html文档加载完毕事件;S112.在html文档加载完毕事件中,获取引发鼠标点击事件的对应元素;S113.通过该元素的com接口,获取元素信息;S114.将获取到的元素信息保存在BHO插件中,准备发往服务器。优选地,S112中,若引发鼠标点击事件的是表单提交按钮,对应多个元素,则选取当前html文档需要的对应元素。进一步的,npapi插件监听方式包括以下步骤:S121.浏览器扩展引用npapi插件,启动npapi插件中一个类的实例,注入执行javascript脚本;S122.在执行javascript脚本过程中,监听表单提交按钮的点击事件;S123.在javascript脚本的点击事件处理函数中,获取引发鼠标点击事件的对应元素信息;S124.javascript脚本将元素信息传给npapi插件,并准备发往服务器。进一步的,在S2中,所述的加密处理为:BHO插件或npapi插件将信息进行格式化,对其中的敏感字段进行加密,并对格式化后的信息报文进行签名,服务器端对签名进行验证。优选地,信息按照json格式进行格式化。优选地,对敏感字段的加密方式为RSA公钥,服务器端使用私钥解密;对信息报文使用RSA私钥签名,服务器端使用RSA公钥验证签名。优选地,在S3中,传输协议使用http协议。本专利技术的有益效果是:(1)本方法无需在网站服务端做出任何更改,只需在客户机上安装插件,即可获取表单信息,并发送到服务器进行统计;信息提取成本低,可大大提高信息录入的速度和准确性。(2)本方法具有网站无关性,对于任意需要采集信息的html页面,都可以使用本方法直接采集信息。附图说明图1为本专利技术实施例中的html信息采集流程图;图2为本专利技术实施例中的BHO插件监听方式流程图;图3为本专利技术实施例中的npapi插件监听方式流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。相反,本专利技术涵盖任何由权利要求定义的在本专利技术的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本专利技术有更好的了解,在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。本专利技术实施例的html信息录入方法流程如图1所示。一种html页面的信息采集方法,包括以下步骤:S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;S3.将加密处理过的信息,传输到服务器端。在S1中,对于IE内核的浏览器采用BHO插件监听方式;对于非IE内核的浏览器采用npapi插件监听方式。其中,BHO插件是针对IE浏览器的插件,BHO插件是一种com组件,实现了IObjectWithSite接口。并需要根据浏览器是32位还是64位,到注册表\\HKLM\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\BrowserHelperObjects注册BHO插件的guid。BHO插件监听方式包括以下步骤:S111.BHO插件监听浏览器的html文档加载完毕事件;实际上上是某个提交按钮的点击事件,事件ID:DISPID_HTMLDOCUMENTEVENTS2_ONCLICK。S112.在html文档加载完毕事件中,获取引发鼠标点击事件的对应元素;若引发鼠标点击事件的是表单提交按钮,对应多个元素,则选取当前html文档需要的对应元素。S113.通过该元素的com接口,获取元素信息;使用IHTMLDocument2的get_all函数,即可获取所有的元素接口IHTMLElement,使用该接口的getAttribute方法,即可获取元素内容,即元素信息。S114.将获取到的元素信息保存在BHO插件中,准备发往服务器。其中,npapi插件即网景插件应用程序编程接口,是遵循网景通信公司(NetscapeCommunicationsCorporation)所制定规范的一组单纯的CPlugin应用程序接口,主要针对非IE浏览器。2004年底时,各家浏览器公司(IE,Opera,Mozilla等)都同意支援NPRuntime延伸API(应用程序编程接口)以支援Scriptability,所以目前需要以NPRuntimeAPI为基础,才能使Plugin跨越各种浏览器。将包含npapi插件的扩展安装到浏览器上,当浏览器启动后,会在默认的plugins文件夹中加载npapi插件,并读取插件的MimeType属性,保存到浏览器内部。插件初始化时,浏览器通过NP_Initialize接口将自己的接口传递给npapi插件,npapi插件通过NP_GetEntryPoints接口将自身接口传递给浏览器,从而达到双方互调的目的。npapi插件监听方式包括以下步骤:S121.浏览器扩展通过在backgroundhtml中引用npapi插件,启动npapi插件中一个类的实例,当目标网站与浏览器扩展中的matches定义的相匹配时,注入执行javascript脚本;S122.在执行javascript脚本过程中,使用addListener函数监听表单提交按钮的点击事件;S123.在javascript脚本的点击事件处理函数中,获取引发鼠标点击事件的对应元素信息;S124.javascript脚本将元素信息传给npapi插件,并准备发往服务器。在S2中,所述的加密处理为:BHO插件或npapi插件将获得的信息按照json格式进行格式化,对其中的敏感字段使用RAS公钥加密,该公钥为系统初始化时服本文档来自技高网...
一种html页面的信息采集方法

【技术保护点】
一种html页面的信息采集方法,其特征在于,包括以下步骤:S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;S3.将加密处理过的信息,传输到服务器端。

【技术特征摘要】
1.一种html页面的信息采集方法,其特征在于,包括以下步骤:S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;S3.将加密处理过的信息,传输到服务器端。2.如权利要求1所述的html页面的信息采集方法,其特征在于,在S1中,对于IE内核的浏览器采用BHO插件监听方式。3.如权利要求1所述的html页面的信息采集方法,其特征在于,在S1中,对于非IE内核的浏览器采用npapi插件监听方式。4.如权利要求2所述的html页面的信息采集方法,其特征在于,BHO插件监听方式包括以下步骤:S111.BHO插件监听浏览器的html文档加载完毕事件;S112.在html文档加载完毕事件中,获取引发鼠标点击事件的对应元素;S113.通过该元素的com接口,获取元素信息;S114.将获取到的元素信息保存在BHO插件中,准备发往服务器。5.如权利要求4所述的html页面的信息采集方法,其特征在于,S112中,若引发鼠标点击事件的是表单提交按钮,对应多个元素,则选取当前html文档需要的对应元素。6.如权利要求3所...

【专利技术属性】
技术研发人员:杨伟丽
申请(专利权)人:杭州云灵科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1