文档内容的预测性过滤制造技术

技术编号:18737543 阅读:27 留言:0更新日期:2018-08-22 05:51
提供了一种用于滤除文档的内容的过滤器系统。过滤器客户端从用户接收对用户想要在显示文档时被隐藏的第一文档的内容的选择。过滤器客户端向过滤器服务器发送包括从所选内容导出的内容信息的过滤器信息。过滤器客户端然后从过滤器服务器接收根据发送自客户端系统和其他用户的其他客户端系统的过滤器信息生成的过滤器。过滤器客户端然后隐藏第二文档中与过滤器匹配的内容,并然后显示该第二文档。

【技术实现步骤摘要】
【国外来华专利技术】文档内容的预测性过滤
技术介绍
许多网页提供涵盖各种主题或话题的内容。例如,新闻网站的网页可包括与联合国相关的文章、与总统候选人相关的文章、与天气事件相关的文章(例如龙卷风)、指向与公司相关的文章的链接、交通事故的图像等等。网页的内容可包括文章的文本、文章的文本和图像、独立图像、标题的文本、广告的文本和图像、博客的文本和图像、照片存储网站的图像和图像元数据、视频内容、动画内容、指向其他网页的超链接等等。查看网页的用户经常对查看与某些主题相关的内容不感兴趣。例如,X大学橄榄球队的球迷可能不想查看与竞争对手Y大学橄榄球队相关的文章。作为另一示例,父母可能不想他们的年幼孩子查看与暴力犯罪相关的文章或图像。某些网站允许用户通过选择用户感兴趣的主题来自定义网页。例如,新闻网站可允许用户选择本地新闻、国家新闻、国际新闻、商业、天气、体育、健康、科学、技术等的主题。选择本地新闻和体育的用户将被提供仅包含与这些主题相关的内容的网页。然而,此类网页仍可能呈现用户可能不想查看的内容,诸如关于Y大学橄榄球队或关于最近的暴力犯罪的文章。一些浏览器扩展允许用户基于用户提供的关键字从网页中排除内容。例如,如果球迷指定关键字“Y大学”,则浏览器扩展可移除提及Y大学的全部文章。因此,如果球迷对Y大学进行的科学研究感兴趣,与提及Y大学的研究有关的任何文章都可能会从浏览器显示的网页中被移除。同样,如果关于Y大学橄榄球队的一篇文章以其吉祥物“Turkey(火鸡)”的名字来提及球队而不包括Y大学的名字,那么浏览器扩展将不会移除该篇文章,而将呈现给球迷一篇关于竞争对手的橄榄球队的文章。
技术实现思路
在一些示例中,提供了一种用于滤除文档的内容的过滤器系统。过滤器客户端从用户接收对用户想要在显示文档时被隐藏的第一文档的内容的选择。过滤器客户端向过滤器服务器发送包括从所选内容导出的内容信息的过滤器信息。过滤器客户端然后从过滤器服务器接收根据发送自客户端系统和其他用户的其他客户端系统的过滤器信息生成的过滤器。过滤器客户端然后隐藏第二文档的与过滤器相匹配的内容,并然后显示该第二文档。提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。附图简述图1例示了具有可被选择以滤除的内容的网页。图2例示了其中在内容选择模式下内容已被选择的网页。图3例示了具有经滤除内容的网页。图4例示了具有不应被滤除的内容的网页。图5例示了其中不应被滤除的内容已被滤除的网页。图6例示了具有已被揭示的内容的网页。图7例示了具有已被选择不应被滤除的内容的网页。图8是例示一些示例中的过滤器系统的框图。图9例示了在一些示例中存储在每个用户的用户过滤器存储中的信息。图10例示了具有相同的过滤器名称的不同过滤器。图11是例示在一些示例中过滤器客户端的接收过滤器请求组件的处理的流程图。图12是例示在一些示例中过滤器客户端的接收例外请求组件的处理的流程图。图13是例示在一些示例中过滤器客户端的过滤文档组件的处理的流程图。图14是例示在一些示例中过滤器客户端的应用过滤器组件的处理的流程图。图15是例示在一些示例中过滤器服务器的接收新过滤器组件的处理的流程图。图16是例示在一些示例中过滤器服务器的接收例外组件的处理的流程图。图17是例示在一些示例中过滤器服务器的生成过滤器组件的处理的流程图。图18是例示在一些示例中过滤器服务器的生成例外组件的处理的流程图。图19是例示在一些示例中过滤器服务器的分发组件的处理的流程图。详细描述提供了用于过滤网页的内容的方法和系统。在一些示例中,过滤器系统包括过滤器客户端和过滤器服务器。过滤器客户端允许用户选择用户想要滤除的网页的内容。例如,X大学橄榄球队的球迷可从当前显示的网页中选择关于竞争对手Y大学橄榄球队的文章。过滤器系统滤除与所选文章相似的其他网页的内容。过滤器客户端可请求用户提供针对将从网页中被滤除的内容类型的描述或名称(被称为“过滤器名称”)。例如,球迷可提供Y大学的名称或该大学的吉祥物的名称“Turkey”。过滤器客户端向过滤器服务器发送包括过滤器名称(如果有的话)的过滤器信息和从所选内容导出的过滤器信息。例如,过滤器信息可包括内容信息和元数据信息。内容信息可包括所选内容的全部文本和图像,或可包括所选内容的所选特征的特征向量(诸如文本的关键字、关键字的频率等)。元数据信息可包括该网页的统一资源标识符(“URI”)、与内容相关联的作者姓名、文章的标题等等。在一些示例中,一旦从用户接收到过滤器信息,过滤器服务器就生成被设计成标识与用户所选的内容相似的网页的内容的过滤器。例如,过滤器服务器可基于由将其过滤器命名为“Y大学”的用户提供的所有过滤器信息来生成具有过滤器名称“Y大学”的过滤器。作为另一示例,过滤器服务器可基于具有相同或相似的过滤器信息(例如,基于相似度分数)的过滤器信息生成过滤器,而不管各种用户赋予各过滤器的名称如何。在此类情况下,在生成过滤器时过滤器的名称可能被忽略或被视为元数据信息,但每个用户所提供的过滤器名称将被用于向此用户标识该过滤器。过滤器可被表示为从基于用户所选择的内容的过滤器信息中导出的关键字的特征向量和元数据信息。例如,特征向量可包括内容特征和元数据特征。元数据特征可包括URI特征,该URI特征表示在其上找到诸如体育、科学、健康等等所选内容的网站或网站部分的类型。内容特征可包括诸如关键字“Y大学”和关键字“Turkey”之类的关键字特征。每个特征还可具有指示该特征对过滤器的重要性的相关联的特征权重。例如,在用户为“Turkey”过滤器选择的全部内容都包括该吉祥物名称,但并非全部内容都包括“Y大学”的情况下,关键字特征“Turkey”(Y大学的吉祥物)可具有比关键字特征“Y大学”更高的权重。过滤器服务器然后将过滤器分发给其过滤器信息被用于生成该过滤器的用户的过滤器客户端。在一些示例中,当过滤器客户端接收过滤器时,该过滤器客户端存储该过滤器以在过滤匹配该过滤器的网页的内容时使用。当用户检索网页时,过滤器客户端将过滤器应用于网页的内容。例如,客户端可使用网页的文档对象模型(“DOM”)分层结构来标识个体内容(例如,文章、图像、和博客帖子)。针对每个经标识的内容,过滤器客户端可创建一个特征向量。例如,文章的特征向量可包括网页的类型、文章的关键字、文章的作者等等。作为另一示例,图像的特征向量可包括图像的URI、图像的直方图、来自图像的标题的关键字等等。例如,过滤器客户端可通过将余弦相似度函数应用于过滤器特征向量和内容特征向量来生成相似度分数。如果过滤器包括特征的权重,则相似度分数可以基于这些权重。如果相似度分数(例如,在0至1之间)超过相似度阈值(例如,0.9),则过滤器客户端将该内容标记为在显示网页时将被滤除的内容。在一些示例中,过滤器客户端通过以某一方式隐藏内容来滤除该内容。例如,过滤器客户端可通过在网页的DOM分层结构中用空白内容替换该内容来隐藏该内容。作为另一示例,过滤器客户端可从DOM分层结构中完全移除内容并重新组织该分层结构,使得用户不会知悉该内容已被移除。作为又一示例,过滤器客户端可将该内容留在DOM分层结构中但以某一方式本文档来自技高网...

【技术保护点】
1.一种由设备执行的用于在显示网页之前过滤所述网页的内容的方法,所述方法包括:经由第一设备从第一用户接收对与所显示的第一网页相关联的内容的至少一部分的选择;向过滤器服务器发送包括从所选内容导出的内容信息的第一过滤器信息;从所述过滤器服务器接收过滤器,所述过滤器是至少基于与所述第一过滤器信息相似的第二过滤器信息来生成的,所述第二过滤器信息与分别从与多个第二用户相关联的多个第二设备接收的过滤器信息相对应;接收第二网页;将接收到的过滤器应用于与所述第二网页相关联的内容;以及使得所述第二网页的经过滤版本被显示,所述第二网页的所述经过滤版本隐藏了与所述第二网页相关联的所述内容的、与所述过滤器相匹配的那些部分。

【技术特征摘要】
【国外来华专利技术】2016.01.27 US 15/008,2171.一种由设备执行的用于在显示网页之前过滤所述网页的内容的方法,所述方法包括:经由第一设备从第一用户接收对与所显示的第一网页相关联的内容的至少一部分的选择;向过滤器服务器发送包括从所选内容导出的内容信息的第一过滤器信息;从所述过滤器服务器接收过滤器,所述过滤器是至少基于与所述第一过滤器信息相似的第二过滤器信息来生成的,所述第二过滤器信息与分别从与多个第二用户相关联的多个第二设备接收的过滤器信息相对应;接收第二网页;将接收到的过滤器应用于与所述第二网页相关联的内容;以及使得所述第二网页的经过滤版本被显示,所述第二网页的所述经过滤版本隐藏了与所述第二网页相关联的所述内容的、与所述过滤器相匹配的那些部分。2.如权利要求1所述的方法,其特征在于,进一步包括在接收对所述第一网页的所述内容的所述选择之后,以所选内容被隐藏的方式来显示所述第一网页。3.如权利要求1所述的方法,其特征在于,进一步包括从所述第一用户接收过滤器名称,并且其中所述过滤器名称先前由所述第一用户为先前选择的内容提供,使得所述过滤器服务器可使用所述过滤器名称作为所选内容应当与具有所述过滤器名称的过滤器相匹配的指示。4.如权利要求1所述的方法,其特征在于,所述过滤器信息包括与所述内容相关的元数据信息。5.如权利要求4所述的方法,其特征在于,所述元数据信息包括所述网页的资源标识符、所述内容的统一资源标识符、与所述内容相关联的日期、以及所述内容的作者的标识符中的一者或多者。6.如权利要求1所述的方法,其特征在于,所述内容信息包括从所述内容导出的特征。7.如权利要求6所述的方法,其特征在于,所述特征包括从所述内容导出的关键字。8.如权利要求6所述的方法,其特征在于,所述特征包括所述内容的图像的特征。9.如权利要求1所述的方法,其特征在于,进一步包括:从所述第一用户接收对与所述过滤器相匹配的网页内容的选择;以及向所述过滤器服务器发送从与所述过滤器相匹配的所述所选内容导出的例外信息。10.如权利要求1所述的方法,其特征在于,进一步包括:从所述第一用户接收对与所述过滤器相匹配的网页内容的选择;存储从与所述过滤器相匹配的所选...

【专利技术属性】
技术研发人员:A·福雷斯蒂
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1