当前位置: 首页 > 专利查询>王云森专利>正文

数据处理方法和装置制造方法及图纸

技术编号:29401488 阅读:10 留言:0更新日期:2021-07-23 22:39
本发明专利技术公开了一种数据处理方法和装置,包括:1)获得含有第一目标页面,获得至少一个用于展示推荐信息的推荐组件的信息,并获得推荐组件中推荐数值的离散度;2)如果第一类标记属性的比例高于期待值R时,至少载入一个不含第一标记属性的第二页面;3)在第三目标页面重新计算推荐数值的离散度,如果其高于期待值R,执行步骤2),否则退出;所述第一目标页面和第三目标页面含有个性化的推荐信息;所述推荐数值的离散度为获得推荐组件的可视部分的内容,并对其进行解析,得到文本标签的信息,并对文本标签进行统计,确定文本标签的离散度。该方法可以用于避免基于浏览信息形成的隐私泄露。

【技术实现步骤摘要】
数据处理方法和装置
本专利技术属于敏感信息保护领域,具体涉及个人定向数据推送的混淆和避免定向推送。
技术介绍
目前,针对客户的偏好的收集已经成为商业网站推送信息的一个依据和常见的手段,客户在页面的每个操作都可能被记录并被分析,在后台被形成访问记录,并基于访问记录对用户进行分析,从而形成用户画像,并依据用户的画像进行信息的推送。在大数据时代,相关用户画像在形成后可用于对用户的信息筛选。然而这种信息的推送方式尽管是受到商家欢迎的,但因侵犯隐私并不受到用户的欢迎,且用户处于不对等的地位。因信息的推送往往构建于多种因素,这导致即使在未登录的情况下或者处于特定会话、持有特定令牌、Cookies的情况下,仍然基于部分信息可以推测出用户的大致画像,从而使得推送特定的信息成为可能,从而使得用户的倾向性或者隐私被暴漏,这对于用户时明显不利的,而部分服务提供方不提供或者提供了过于繁琐的指引步骤用于防止用户取消跟踪,且不遵循DoNotTrack不要跟踪(DNT)的约定,或者主动通过刺探用户信息的方式超范围获取信息(如访问用户存储的浏览记录),因此需要提供技术手段防止此类泄露风险。
技术实现思路
针对现有技术中用户信息存在泄露的风险,本专利技术提供了一种数据处理方法,通过提供偏离画像的信息,从而避免或者延迟真实用户信息的泄露。本专利技术提供的数据处理方法包括:1)获得第一目标页面,其中包括至少一个用于展示推荐信息的推荐组件的信息,获得推荐组件中推荐数值的离散度或分布;2)如果推荐数值中第一标记属性的比例高于期待值R,至少载入一个不含第一标记属性的第二页面;3)在第三目标页面重新计算推荐数值的离散度,如果第一类标记属性的比例高于期待值R,执行步骤2),否则退出;所述第一目标页面和第三目标页面含有个性化的推荐信息,且推荐信息被映射至包含第一标记属性的标签集中,其中第一标记属性属于期待减少的比例;所述推荐数值的离散度为获得推荐组件的可视部分的内容,并对其进行解析,得到文本标签的信息,并对文本标签进行统计,确定文本标签的离散度。在本专利技术的一个实施例内,所述文本标签的信息包括文本标签的内容和位置,所述文本标签的位置为在页面内相对位置或者绝对位置。在本专利技术的一个另外一个实施例内,依据规则确定文本标签的标记属性,根据标记属性计算页面中推荐数值的离散度。所述文本标签映射至至少两类标记属性,且至少存在第一标记属性和第二标记属性,其中第一标记属性属于用户期待在信息推荐中减少出现,第二标记属性属于用户期待在信息推荐中出现的优先级高于第一标记属性。在本专利技术的一个实施例内,所述第一页面为通过第一配置文件获得、枚器窗口或者为选定的活跃的窗口获得;在使用第一配置文件加载页面时,所述第一配置文件至少包括浏览器类型、进程模块名称、地址中的一种或多种;在第一配置文件包括浏览器类型时,程序可以通过查找进程的方式获得当前浏览器的进程ID,并进一步获得浏览器的句柄,根据浏览器的句柄获得窗口的信息;也可以通过查找进程模块的方式获得当前浏览器的进程ID,并进一步获得浏览器的句柄,根据浏览器的句柄获得窗口的信息;也可以通过查找进程模块地址的方式获得当前浏览器的进程ID,并进一步获得浏览器的句柄,根据浏览器的句柄获得窗口的信息。在通过枚举窗口获得信息时,至少通过获得窗口信息、进程信息的方式将其与信息组件匹配,以桌面浏览器为例,可以设置一个常见浏览器的集合,通过枚举窗口信息的并和浏览器模块匹配的方式获得运行的窗口进程。在本专利技术的一个实施例中,在使用选定的活跃的窗口获得目标页面时,通过设置一个悬浮球或者提供一个当前窗口列表的形式,或通过手工选择的方式获得目标页面。本专利技术中可视化内容获得为通过远程控制获得、截图功能获得或者通过页面解析获得;在通过远程控制获得时,则至少可以使用类似selenium、scrapy等框架获得,常见或者主流浏览器提供了远程调试的支持,然而部分浏览器尽管提供了远程调试支持,但是不具备渲染的特性。以非浏览器的其他部分截屏,例如移动设备的截屏,可以参考现有技术的方式进行,例如使用ScreenShotActivity或者其他开源项目。桌面客户端的截屏可以使用非浏览器的形式实现,例如多个浏览器或者社区提供了java、c#等版本的套件,甚至可以嵌入传统浏览器的方式来实现。如选用页面解析,则可以选择前述的多种客户端或者框架实现,例如使用常规的页面访问获得网页源代码,或者通过调试框架获得页面的源代码,或者通过自定义的浏览器获得源代码,而对于非浏览器的移动端应用,受限于隐私以及安全考虑的技术实现,通过页面解析获得其他浏览器或者app的源代码是不现实的,因而建议采用截图的方式进行而并非是直接进行解析,但是在自定义的信息展示装置内,直接获得页面的源代码实际上是和桌面一致的。页面推荐内容的获得为通过预定义规则或者关键字实现的。以预定义的规则进行的推荐内容获得为预设网站与推荐规则的匹配节点,并对相应的节点进行截图。以某网站的信息推荐页面为例,其推荐内容对应的XPath为“/html/body/div[1]/div/main/div/div[2]/div[2]/div/div/div[3]/div[2]”,对于稳定的商业网站而言,该位置在一个版本周期内一般为固定的,而对于布局经常改版的信息平台而言,此XPath对应的规则需要更新后方可以使用;在XPath失效的情况下,可以进一步设置关键字规则,如查找对应的div的class属性或者div节点对应的文本值textcontent,来确定相应的节点;部分页面使用了字体混淆技术,在此情况下,仅可以通过字体映射还原或者光学字符识别的方式获得实际的文本。在推荐内容可以采取前两种方式(XPath以及关键字)的方式获得时,可以通过读取WebElement相应属性来获得最小图像获取区域或者文本节点的内容,否则应当进行全文解析获得所有关键字或者通过截屏确定相应节点的分布。对于通过DOM树或者源代码解析的内容,可以通过选择相应节点,并提取文本的方式获得所有的标签,对于标签可以采取字典的方式确定相应的标签归属,特别的,部分网站使用不同的样式表对于期待关注的主题进行区分,在进行文本提取时可以通过补入适当的空格,然后对字符串进行拆分,这样更有助于定位标签归属;对于长的字符串,可以选择贪婪模式,选择2、3、4或5的滑动窗口对其进行分词,此种分类方式在部分商业网站,例如购物性网站往往具备更高的效率,因部分错误的字词往往会造成按照字典或者分词工具无法确认的缺陷(如志强CPU中志强为至强的错字),而按照此方式在部分字词错误的情况下,依据正确的字词仍然可以具有一定的命中率;长的字符串也可以选择自然语言处理的方式进行分词,如HanLP、jieba等工具,或者通过各服务平台提供的自然语言处理api的方式进行。对于通过OCR获得的信息,通过前述的方式进行主题的区分,并得到页面对应的节点所对应的标记。例如,OCR本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:/n1)获得第一目标页面,其中包括至少一个用于展示推荐信息的推荐组件的信息,获得推荐组件中推荐数值的离散度;/n2)如果推荐数值中第一标记属性的比例高于期待值R,至少载入一个不含第一标记属性的第二页面;/n3)在第三目标页面重新计算推荐数值的离散度,如果第一类标记属性的比例高于期待值R,执行步骤2),否则退出;/n所述第一目标页面和第三目标页面含有个性化的推荐信息,且推荐信息被映射至包含第一标记属性的标签集中,其中第一标记属性为期待减少的标记属性;/n所述推荐数值的离散度为获得推荐组件的可视部分的内容,并对其进行解析,得到文本标签的信息,并对文本标签进行统计,确定文本标签的离散度。/n

【技术特征摘要】
1.一种数据处理方法,包括:
1)获得第一目标页面,其中包括至少一个用于展示推荐信息的推荐组件的信息,获得推荐组件中推荐数值的离散度;
2)如果推荐数值中第一标记属性的比例高于期待值R,至少载入一个不含第一标记属性的第二页面;
3)在第三目标页面重新计算推荐数值的离散度,如果第一类标记属性的比例高于期待值R,执行步骤2),否则退出;
所述第一目标页面和第三目标页面含有个性化的推荐信息,且推荐信息被映射至包含第一标记属性的标签集中,其中第一标记属性为期待减少的标记属性;
所述推荐数值的离散度为获得推荐组件的可视部分的内容,并对其进行解析,得到文本标签的信息,并对文本标签进行统计,确定文本标签的离散度。


2.根据权利要求1所述的方法,其特征在于,所述文本标签的信息包括文本标签的内容和位置,所述文本标签的位置为在页面内相对位置或者绝对位置。


3.根据权利要求1所述的方法,其特征在于,依据规则确定文本标签的标记属性,根据标记属性计算页面中推荐...

【专利技术属性】
技术研发人员:王云森苏家进谷丽芳吴小平
申请(专利权)人:王云森
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1