一种基于内容关联的Web追踪自动检测方法技术

技术编号：18238079 阅读：30 留言：0更新日期：2018-06-17 01:28

本发明专利技术公开了一种基于内容关联的Web追踪自动检测方法，涉及Web用户隐私保护领域，主要解决部分Web站点在用户不知情的情况下收集、泄漏用户敏感信息的问题。本发明专利技术以浏览器扩展的形式收集用户对Web页面的操作行为以及页面元素信息，通过文本分析和图像识别等技术分析比较前后访问的页面内容与用户操作的关联性，从而判断该Web站点是否在收集用户信息。由于日益发展的Web追踪技术能够避开传统的检测方法，因此本发明专利技术从Web追踪效果入手，不仅能够有效检测用户隐私泄漏问题，还能帮助研究人员发现新型的追踪手段。 1

A Web tracing automatic detection method based on content correlation

The invention discloses an automatic detection method of Web tracking based on Content Association, which involves the privacy protection field of Web users, and mainly solves the problem that some Web sites collect and leak sensitive information of the users without the information of the users. In the form of browser extension, the invention collects user's operation behavior and page element information on Web pages. Through text analysis and image recognition technology, it analyzes the correlation between the content of the pages visited and the user's operation, so as to determine whether the Web site is collecting user information. Since the growing Web tracking technology can avoid the traditional detection methods, this invention can not only detect the user privacy leakage problem effectively, but also help the researchers to find a new tracking method from the Web tracking effect. One

全部详细技术资料下载

【技术实现步骤摘要】
一种基于内容关联的Web追踪自动检测方法
本专利技术涉及Web用户隐私保护方法，具体涉及一种基于页面内容关联性的Web追踪自动检测方法。
技术介绍
随着Web技术及业务的快速普及，越来越多的用户已经离不开Web。与此同时，Web站点与广告服务商希望通过设备识别进行有效的内容推荐以及更加精确的广告投放，但是部分广告商相互“合作”，贩卖用户隐私信息，从而实现跨域用户关联，进而分析用户的行为习惯和喜好，这在很大程度上违背了用户的隐私保护意愿。目前，基于Web的设备识别手段主要包括Cookie、浏览器指纹。其中Cookie是由Web服务器保存在用户浏览器上的文本信息，它可以包含用户和设备相关信息，每当用户访问Web站点时，服务器都可以访问Cookie信息从而获取用户的浏览记录和行为；而浏览器指纹是由UserAgent、字体、插件等多种浏览器、操作系统和设备硬件相关属性构成，且不依赖于具体的某个特征，因此具有较好的健壮性。针对Web追踪带来的隐私泄露威胁，已有学者提出相关检测和防御方法。其中对于Cookie，用户可以通过浏览器直接禁用或者定期删除来规避；但浏览器指纹识别技术完全在用户不知情下收集用户信息，目前只能通过监视敏感JavaScriptAPI的调用情况来完成检测，但这种方案是基于对攻击手段有全面了解的前提，若Web站点使用了未被发现的新属性，就能避开这种方案。
技术实现思路
专利技术目的：针对现有技术中存在的不足，本专利技术充分利用Web站点的智能推荐和用户操作的相关性，提出一种基于内容关联的Web追踪自动检测方法，能够从效果入手检测用户是否被追踪。技术方案：本...

【技术保护点】
1.一种基于内容关联的Web追踪自动检测方法，其特征在于，包括以下步骤：

【技术特征摘要】
1.一种基于内容关联的Web追踪自动检测方法，其特征在于，包括以下步骤：(1)以浏览器扩展的形式收集Web页面元素和用户操作信息；(2)基于Web页面元素和用户操作信息分析页面内容关联性，并判断Web站点是否在追踪用户；(3)利用浏览器自动化测试工具实现Web追踪自动化检测。2.根据权利要求1所述的基于内容关联的Web追踪自动检测方法，其特征在于，所述步骤(1)中页面元素包括页面中所有的文本类描述信息和图片链接；用户操作信息包括用户输入的搜索内容、点击链接的文本类描述信息以及点击图片的文本类描述信息和链接URL。3.根据权利要求2所述的基于内容关联的Web追踪自动检测方法，其特征在于，所述步骤(2)中页面内容关联包括文本关联与图片关联，其中，文本关联性以文本匹配值来表示，其计算方法为：利用文本分析工具对步骤(1)中得到的用户操作信息进行关键词提取和分词，然后匹配每一个关键词在页面元素信息中的出现次数并求其和即为文本匹配值MatchTextUS；图片关联性以图...

【专利技术属性】
技术研发人员：杨明，周佳欢，罗军舟，吴文甲，凌振，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人