当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于内容关联的Web追踪自动检测方法技术

技术编号:18238079 阅读:30 留言:0更新日期:2018-06-17 01:28
本发明专利技术公开了一种基于内容关联的Web追踪自动检测方法,涉及Web用户隐私保护领域,主要解决部分Web站点在用户不知情的情况下收集、泄漏用户敏感信息的问题。本发明专利技术以浏览器扩展的形式收集用户对Web页面的操作行为以及页面元素信息,通过文本分析和图像识别等技术分析比较前后访问的页面内容与用户操作的关联性,从而判断该Web站点是否在收集用户信息。由于日益发展的Web追踪技术能够避开传统的检测方法,因此本发明专利技术从Web追踪效果入手,不仅能够有效检测用户隐私泄漏问题,还能帮助研究人员发现新型的追踪手段。 1

A Web tracing automatic detection method based on content correlation

The invention discloses an automatic detection method of Web tracking based on Content Association, which involves the privacy protection field of Web users, and mainly solves the problem that some Web sites collect and leak sensitive information of the users without the information of the users. In the form of browser extension, the invention collects user's operation behavior and page element information on Web pages. Through text analysis and image recognition technology, it analyzes the correlation between the content of the pages visited and the user's operation, so as to determine whether the Web site is collecting user information. Since the growing Web tracking technology can avoid the traditional detection methods, this invention can not only detect the user privacy leakage problem effectively, but also help the researchers to find a new tracking method from the Web tracking effect. One

【技术实现步骤摘要】
一种基于内容关联的Web追踪自动检测方法
本专利技术涉及Web用户隐私保护方法,具体涉及一种基于页面内容关联性的Web追踪自动检测方法。
技术介绍
随着Web技术及业务的快速普及,越来越多的用户已经离不开Web。与此同时,Web站点与广告服务商希望通过设备识别进行有效的内容推荐以及更加精确的广告投放,但是部分广告商相互“合作”,贩卖用户隐私信息,从而实现跨域用户关联,进而分析用户的行为习惯和喜好,这在很大程度上违背了用户的隐私保护意愿。目前,基于Web的设备识别手段主要包括Cookie、浏览器指纹。其中Cookie是由Web服务器保存在用户浏览器上的文本信息,它可以包含用户和设备相关信息,每当用户访问Web站点时,服务器都可以访问Cookie信息从而获取用户的浏览记录和行为;而浏览器指纹是由UserAgent、字体、插件等多种浏览器、操作系统和设备硬件相关属性构成,且不依赖于具体的某个特征,因此具有较好的健壮性。针对Web追踪带来的隐私泄露威胁,已有学者提出相关检测和防御方法。其中对于Cookie,用户可以通过浏览器直接禁用或者定期删除来规避;但浏览器指纹识别技术完全在用户不知情下收集用户信息,目前只能通过监视敏感JavaScriptAPI的调用情况来完成检测,但这种方案是基于对攻击手段有全面了解的前提,若Web站点使用了未被发现的新属性,就能避开这种方案。
技术实现思路
专利技术目的:针对现有技术中存在的不足,本专利技术充分利用Web站点的智能推荐和用户操作的相关性,提出一种基于内容关联的Web追踪自动检测方法,能够从效果入手检测用户是否被追踪。技术方案:本专利技术所述的一种基于内容关联的Web追踪自动检测方法,依次包含以下步骤:1)页面元素与用户操作信息的收集:当用户访问Web站点时,通过浏览器扩展获取页面元素信息(包含所有链接对应的文本类描述信息、图片链接URL)和用户操作相关信息(包含输入的搜索内容、点击链接对应的文本类描述信息、点击图片对应的链接URL),并写入文件及数据库。2)页面内容关联性的分析:页面内容关联包括文本关联与图片关联,其中文本关联:通过分别提取页面元素信息与用户操作信息中的文本类描述信息中的关键词,利用文本匹配技术分析两者关联度;图片关联:通过分别下载页面元素信息与用户操作中的图片,并利用图像识别技术分析两者关联度。3)自动化流程的实现:利用浏览器自动化测试工具启动并配置浏览器,模拟用户操作并利用脚本实现自动化流程,实现Web追踪自动化检测。有益效果:与现有技术相比,本专利技术具有以下优点:1、本专利技术从Web追踪效果入手,通过分析用户前后两次访问的Web站点的内容与用户操作的关联性判断Web站点是否使用追踪技术收集用户信息。即使Web追踪技术不断更新,只要Web站点利用其推荐与用户相关的广告,就能被本专利技术检测出来。避免了现有技术需不断更新Web追踪技术先验知识的问题,结合人工代码分析还有助于发现新型的Web追踪技术。2、本专利技术利用浏览器自动化测试工具以及自动化脚本将整个流程(包括启动并配置浏览器、访问Web站点、模拟用户操作、收集页面与用户操作信息)自动化,实现了Web追踪自动化检测,无需人工参与,因此有助于进行大规模Web追踪检测实验并分析真实生活中Web追踪技术的应用情况。附图说明图1是本专利技术的方法流程图。具体实施方式下面结合附图对本专利技术的技术方案作进一步说明。如图1所示,基于内容关联的Web追踪自动检测流程主要分为3个步骤,分别是页面元素信息与用户操作信息的收集、页面内容关联性的分析和自动化流程的实现,根据调查发现,当用户访问Web站点时,浏览器扩展能够记录页面元素与用户操作信息,本专利技术通过比较这些信息分析页面内容与用户操作的关联性来判断Web站点是否在追踪用户,这不仅避免了现有方法基于追踪技术先验知识的问题,而且还有助于发现新型的Web追踪技术。具体实现如下:步骤1、页面元素信息与用户操作信息的收集11)页面元素信息的获取这里的页面元素信息包含所有链接对应的文本类描述信息、图片链接URL,页面信息元素的获取是指获取页面HTML源码,可以通过JavaScriptAPI来获取:document.getElementsByTagName('html')[0].innerHTML。由于部分Web站点使用动态加载技术,因此用户刚打开Web页面时并不能获取完整的HTML源码。本专利技术利用JavaScript(window.scrollTo)模拟滚轮操作,从而使得页面得到完全加载。12)用户操作信息的获取用户操作信息包括用户输入的搜索内容、点击链接的文本类描述信息以及点击图片的文本类描述信息和链接URL。其中用户输入的搜索内容是通过添加监视器动态检查input标签的实时变化而获取,具体方法如下:点击链接以及图片的文本类描述信息以及图片的URL的获取是通过监控用户点击行为并获取点击对象的链接以及上下文文本类描述信息而得到。由于点击对象通常对应<img>以及<a>标签,因此本专利技术只获取<img>标签下的有用属性(src、alt、title)以及<a>标签下的文本信息(通过innerText获取),具体方法如下:步骤2、页面内容关联性分析21)基于页面元素信息与用户操作信息计算页面内容关联性。页面内容关联性分析包括两部分:文本关联与图片关联。其中文本关联性以文本匹配值来表示,其计算方法为:利用文本分析工具对步骤1中得到的用户操作信息进行关键词提取和分词,然后匹配每一个关键词在页面元素信息中的出现次数并求其和即为文本匹配值。其中,提取关键词时,本专利技术只关注名词、动词、形容词等具有实质意义的词,而忽略介词、数词、量词等不重要的信息,分词是为了对提取出来的中文长词进行再次切分,例如将“牛仔裤”再次切分为“牛仔”和“裤”,提高匹配的精确度。具体做法如下:图片关联性以图片匹配值来表示,其计算方法为:利用图像识别算法、机器学习算法等技术识别用户点击的图片以及页面上所有图片,得到两个图片类别的集合S1和S2,然后匹配S1中每个元素在S2中出现的次数并求其和即为图片匹配值。最终的内容关联性为文本匹配值MatchTextUS与图像匹配值MatchImageUS之和:MatchUS=MatchTextUS+MatchImageUS22)基于用户前后两次访问Web站点的关联性差值判断Web站点是否在追踪用户。具体步骤为用户访问Web站点A时,记录站点A的页面元素信息S1和用户操作信息U,用户第二次访问Web站点A,再次记录其页面元素信息S2,分别计算两次访问中页面内容关联性,当前后两次访问的Web站点页面信息与用户操作行为的关联性大于某个阈值时,认为该Web站点能够为用户推荐特定广告,因此该Web站点在追踪用户,即:其中为第二次访问的页面信息与用户操作的关联性,为第一次访问的页面信息与用户操作的关联性,threshhold为指定阈值,threshhold在本专利技术中取5。步骤3、自动化流程的实现本专利技术利用浏览器自动化测试工具启动浏览器、安装浏览器扩展、模拟用户操作,配合多进程自动化脚本实现自动化流程。如图1所示本文档来自技高网...
一种基于内容关联的Web追踪自动检测方法

【技术保护点】
1.一种基于内容关联的Web追踪自动检测方法,其特征在于,包括以下步骤:

【技术特征摘要】
1.一种基于内容关联的Web追踪自动检测方法,其特征在于,包括以下步骤:(1)以浏览器扩展的形式收集Web页面元素和用户操作信息;(2)基于Web页面元素和用户操作信息分析页面内容关联性,并判断Web站点是否在追踪用户;(3)利用浏览器自动化测试工具实现Web追踪自动化检测。2.根据权利要求1所述的基于内容关联的Web追踪自动检测方法,其特征在于,所述步骤(1)中页面元素包括页面中所有的文本类描述信息和图片链接;用户操作信息包括用户输入的搜索内容、点击链接的文本类描述信息以及点击图片的文本类描述信息和链接URL。3.根据权利要求2所述的基于内容关联的Web追踪自动检测方法,其特征在于,所述步骤(2)中页面内容关联包括文本关联与图片关联,其中,文本关联性以文本匹配值来表示,其计算方法为:利用文本分析工具对步骤(1)中得到的用户操作信息进行关键词提取和分词,然后匹配每一个关键词在页面元素信息中的出现次数并求其和即为文本匹配值MatchTextUS;图片关联性以图...

【专利技术属性】
技术研发人员:杨明周佳欢罗军舟吴文甲凌振
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1