表单识别方法和装置制造方法及图纸

技术编号:8563067 阅读:166 留言:0更新日期:2013-04-11 04:45
本发明专利技术公开了一种表单识别方法和装置。其中,表单识别方法包括:接收访问指令;加载与访问指令相对应的网页;对加载的网页的网页代码进行扫描;判断扫描到的网页代码中是否包括属性为第一预设属性的元素;判断扫描到的网页代码中是否包括属性为第二预设属性的元素;若判断出扫描到的网页代码中包括属性为第一预设属性的元素,并且还包括属性为第二预设属性的元素,则确定加载的网页为表单网页。通过本发明专利技术,解决了现有技术中表单识别率较低的问题,进而达到了提高表单识别率的效果。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,具体而言,涉及一种表单识别方法和装置
技术介绍
双核浏览器,即有两个内核的浏览器,包括Trident内核与Webkit内核。Trident内核为网页浏览器(Internet Explorer,简称IE)所使用,IE浏览器在国内普及率非常高,很多网站只考虑兼容IE,而不符合万维网联盟(World Wide Web Consortium,简称W3C)标准,例如网银,在线支付类网站。Webkit内核对W3C标准支持的很完善,同时具有高速的特点。Trident内核的兼容性加Webkit内核的高速,双核浏览器满足了不同的用户需求。现有技术中,Trident内核与Webkit内核的双核表单识别采用了针对超文本标记语言(Hypertext Markup Language,简称HTML)网页中form表单进行识别,具体识别方式是当用户在页面中填入表单信息,点击提交按钮,执行提交事件后,通过执行提交事件的结果来判断表单是否提交成功。如果表单提交成功,则将表单数据存储在数据库中,数据库中会存储表单中的多个字段,视为一个成功的表单信息,通过上述描述可以看出,现有技术中在对表单进行识别时需要对提交成功后的表单中的多个字段进行判断,在多个字段均满足条件的情况下才能达到对表单的识别,此种需要对表单中多个字段进行识别的方式不仅会造成表单识别率降低,在后续用户对表单进行填写时,仍然需要对数据库中的多个字段分别进行匹配才能判断出用户正在填写的表单是否为当前网页表单,只有在判断出为当前表单时才可正常填写,造成不方便用户操作,用户体验度降低。针对相关技术中表单识别率较低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种表单识别方法和装置,以解决现有技术中表单识别率较低的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种表单识别方法,包括接收访问指令;加载与访问指令相对应的网页;对加载的网页的网页代码进行扫描;判断扫描到的网页代码中是否包括属性为第一预设属性的元素,其中,第一预设属性对应的元素为密码元素;判断扫描到的网页代码中是否包括属性为第二预设属性的元素,其中,第二预设属性对应的元素为用户名元素;以及若判断出扫描到的网页代码中包括属性为第一预设属性的元素,并且还包括属性为第二预设属性的元素,则确定加载的网页为表单网页。进一步地,对加载的网页的网页代码进行扫描包括获取产生访问指令的内核类型;若获取到的内核类型为Trident内核,则注入预设脚本代码至网页代码中以对网页代码进行扫描;以及若获取到的内核类型为Webkit内核,则对网页代码中的DOM树中的input控件进行扫描。进一步地,在确定加载的网页为表单网页之后,表单识别方法还包括判断是否接收到触发指令,其中,触发指令用于提交表单网页;以及若判断出接收到触发指令,则确定表单网页为有效表单。进一步地,在产生访问指令的内核类型为Trident内核时,判断是否接收到触发指令包括获取网页代码中属性为第三预设属性的元素,得到第一元素,其中,第三预设属性对应的元素为提交事件;复制第一元素,得到第二元素;以第二元素覆盖第一元素;以及判断第二元素是否被执行,若判断出第二元素被执行,则确定接收到触发指令。进一步地,在产生访问指令的内核类型为Webkit内核时,判断是否接收到触发指令包括获取网页代码中属性为第三预设属性的元素,得到第一元素,其中,第三预设属性对应的元素为提交事件;以及判断第一元素是否被执行,若判断出第一元素被执行,则确定接收到触发指令。进一步地,在确定加载的网页为表单网页之后,并且在判断是否接收到触发指令之前,表单识别方法还包括获取属性为第一预设属性的元素,得到密码元素;获取属性为第二预设属性的元素,得到用户名元素;查询预设数据库以判断密码数据和用户名数据是否均已保存在预设数据库中,其中,密码数据为密码元素对应的数据,用户名数据为用户名元素对应的数据;以及若判断出密码数据和用户名数据均已保存在预设数据库中,则添加密码数据至加载的网页的密码元素中,以及添加用户名数据至加载的网页的用户名元素中。进一步地,在确定加载的网页为表单网页之后,并且在判断是否接收到触发指令之前,表单识别方法还包括获取属性为第一预设属性的元素,得到密码元素;获取属性为第二预设属性的元素,得到用户名元素;查询预设数据库以判断密码数据和用户名数据是否均已保存在预设数据库中,其中,密码数据为密码元素对应的数据,用户名数据为用户名元素对应的数据;若判断出用户名数据已保存在预设数据库中,并且密码数据未保存在预设数据库中,则添加用户名数据至加载的网页的用户名元素中,并且接收用户输入的密码数据;以及若判断出用户名数据和密码数据均未保存在预设数据库中,则接收用户输入的密码数据和用户名数据。进一步地,在判断出接收到触发指令之后,表单识别方法还包括显示预设弹窗,其中,预设弹窗上设置有提示内容,提示内容用于提示用户选择是否保存密码数据和用户名数据,或提示用户选择是否保存密码数据;接收来自用户的选择指令;以及在选择指令表示选择保存密码数据和用户名数据时,保存密码数据和用户名数据至预设数据库,或保存密码数据至预设数据库。为了实现上述目的,根据本专利技术的另一方面,提供了一种表单识别装置,该表单识别装置用于执行本专利技术上述内容所提供的任一种表单识别方法。为了实现上述目的,根据本专利技术的另一方面,提供了一种表单识别装置,包括接收单元,用于接收访问指令;加载单元,用于加载与访问指令相对应的网页;扫描单元,用于对加载的网页的网页代码进行扫描;第一判断单元,用于判断扫描到的网页代码中是否包括属性为第一预设属性的元素,其中,第一预设属性对应的元素为密码元素;第二判断单元,用于判断扫描到的网页代码中是否包括属性为第二预设属性的元素,其中,第二预设属性对应的元素为用户名元素;以及确定单元,用于若判断出扫描到的网页代码中包括属性为第一预设属性的元素,并且还包括属性为第二预设属性的元素,则确定加载的网页为表单网页。进一步地,扫描单元包括第一获取子单元,用于获取产生访问指令的内核类型;第一扫描子单元,用于在获取到的内核类型为Trident内核时,注入预设脚本代码至网页代码中以对网页代码进行扫描;以及第二扫描子单元,用于在获取到的内核类型为Webkit内核时,对网页代码中的DOM树中的input控件进行扫描。通过本专利技术,采用接收访问指令;加载与访问指令相对应的网页;对加载的网页的网页代码进行扫描;判断扫描到的网页代码中是否包括属性为第一预设属性的元素,其中,第一预设属性对应的元素为密码元素;判断扫描到的网页代码中是否包括属性为第二预设属性的元素,其中,第二预设属性对应的元素为用户名元素;以及若判断出扫描到的网页代码中包括属性为第一预设属性的元素,并且还包括属性为第二预设属性的元素,则确定加载的网页为表单网页。通过对用户访问所加载的网页的网页代码进行扫描,实现对网页代码的监测,进而实现对网页代码中各个元素属性的监测,以快速检测出加载的网页是否包含满足预设属性的元素(即,实现快速检测出密码元素和用户名元素),此种只需通过对网页中的用户名字段和密码字段进行监测的方法,只需对加载的网页的网页代码进行扫描即可实现对本文档来自技高网
...

【技术保护点】
一种表单识别方法,其特征在于,包括:接收访问指令;加载与所述访问指令相对应的网页;对加载的网页的网页代码进行扫描;判断扫描到的网页代码中是否包括属性为第一预设属性的元素,其中,所述第一预设属性对应的元素为密码元素;判断扫描到的网页代码中是否包括属性为第二预设属性的元素,其中,所述第二预设属性对应的元素为用户名元素;以及若判断出扫描到的网页代码中包括属性为所述第一预设属性的元素,并且还包括属性为所述第二预设属性的元素,则确定加载的网页为表单网页。

【技术特征摘要】
1.一种表单识别方法,其特征在于,包括 接收访问指令; 加载与所述访问指令相对应的网页; 对加载的网页的网页代码进行扫描; 判断扫描到的网页代码中是否包括属性为第一预设属性的元素,其中,所述第一预设属性对应的元素为密码元素; 判断扫描到的网页代码中是否包括属性为第二预设属性的元素,其中,所述第二预设属性对应的元素为用户名元素;以及 若判断出扫描到的网页代码中包括属性为所述第一预设属性的元素,并且还包括属性为所述第二预设属性的元素,则确定加载的网页为表单网页。2.根据权利要求1所述的表单识别方法,其特征在于,对加载的网页的网页代码进行扫描包括 获取产生所述访问指令的内核类型; 若获取到的内核类型为Trident内核,则注入预设脚本代码至所述网页代码中以对所述网页代码进行扫描;以及 若获取到的内核类型为Webkit内核,则对所述网页代码中的DOM树中的input控件进行扫描。3.根据权利要求1所述的表单识别方法,其特征在于,在确定加载的网页为表单网页之后,所述表单识别方法还包括 判断是否接收到触发指令,其中,所述触发指令用于提交所述表单网页;以及 若判断出接收到所述触发指令,则确定所述表单网页为有效表单。4.根据权利要求3所述的表单识别方法,其特征在于,在产生所述访问指令的内核类型为Trident内核时,判断是否接收到触发指令包括 获取所述网页代码中属性为第三预设属性的元素,得到第一元素,其中,所述第三预设属性对应的元素为提交事件; 复制所述第一元素,得到第二元素; 以所述第二元素覆盖所述第一元素;以及 判断所述第二元素是否被执行,若判断出所述第二元素被执行,则确定接收到所述触发指令。5.根据权利要求3所述的表单识别方法,其特征在于,在产生所述访问指令的内核类型为Webkit内核时,判断是否接收到触发指令包括 获取所述网页代码中属性为第三预设属性的元素,得到第一元素,其中,所述第三预设属性对应的元素为提交事件;以及 判断所述第一元素是否被执行,若判断出所述第一元素被执行,则确定接收到所述触发指令。6.根据权利要求3所述的表单识别方法,其特征在于,在确定加载的网页为表单网页之后,并且在判断是否接收到触发指令之前,所述表单识别方法还包括 获取属性为所述第一预设属性的元素,得到密码元素; 获取属性为所述第二预设属性的元素,得到用户名元素;查询预设数据库以判断密码数据和用户名数据是否均已保存在所述预设数据库中,其中,所述密码数据为所述密码元素对应的数据,所述用户名数据为所述用户名元素对应的数据;以及 若判断出所述密码数据和所述用户名数...

【专利技术属性】
技术研发人员:蔡磊张骏万振傅盛徐鸣王昆
申请(专利权)人:北京金山安全软件有限公司北京金山网络科技有限公司贝壳网际北京安全技术有限公司可牛网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1