web文档修订的异常检测制造技术

技术编号:20290226 阅读:31 留言:0更新日期:2019-02-10 20:35
本公开的各个方面包括一种包括存储至少一个程序的计算机可读存储介质的系统和计算机实现的方法,用于检测对web文档的修订的异常。根据一些实施例,一种方法包括在基于网络的内容发布平台上发布包括使用从用户的计算设备接收的数据生成的多个不同元素的web文档。该方法还包括访问基于用户对发布的web文档做出的修改而生成的更新的web文档。该方法还包括基于更新的web文档与发布的web文档的比较生成一个或多个异常分数,以及基于异常分数与阈值异常分数的比较结果来确定是否允许发布更新的web文档。

【技术实现步骤摘要】
【国外来华专利技术】web文档修订的异常检测相关申请的交叉引用本国际申请要求于2016年6月21日提交的、题为“ANOMALYDETECTIONFORWEBDOCUMENTREVISION”、序列号为15/188,532的美国专利申请的优先权,其全部内容通过引用整体并入本文。
本公开一般地涉及配置到促进数字内容管理的专用机器
的机器,包括这种专用机器的计算机化变型以及对这些变型的改进,而且涉及使这种专用机器比促进数字内容管理的其他专用机器有所改进的技术。具体地,本公开提出了用于检测对已发布数字内容的异常修订的系统和方法。
技术介绍
许多在线内容发布平台允许用户在线生成并发布web文档(例如,web页面)形式的内容,其可以由其他用户使用web浏览器或应用来浏览。通常在发布时或之前为每个发布的web文档分配统一资源标识符(URI)。通常,这些在线内容发布平台允许用户甚至在发布内容后修订内容。虽然可以更新web文档的某些内容,但URI通常保持不变。在一些情况下,允许对web文档进行修订同时保持相同的URI,对于在线内容发布平台来说可能是有问题的。在一个示例中,内容发布平台是一种在线市场,其允许用户以产品列表项的形式创建内容,以将他们供销售的产品提供给其他用户。在线市场的用户可以最初为高需求的第一产品创建产品列表项,然后在线市场可以为该产品列表项分配URI。然后,用户可以完全修订产品列表项以覆盖具有较低需求和期望的第二产品,而分配给该产品列表项的URI将保持相同,尽管URI仍然可以与高需求的第一产品的库存和历史销售相关联。通过这种方式,用户可以利用在线市场的修订能力来操纵非期望产品的搜索排名,隐藏较低的需求,操纵历史销售数字,或以其他方式操纵消费者对产品的需求。虽然这可能证实了对个别用户有益,但这导致在线市场的导航质量、信息准确性以及总体性能和声誉的整体下降。附图说明各个所附附图仅示出了本公开的示例实施例,并且不可以被认为限制其范围。图1是示出了根据示例实施例的具有被配置用于在网络上交换数据的客户端-服务器架构的内容发布平台的网络图。图2是示出了根据示例实施例的作为内容发布平台的一部分提供的异常检测系统的各种功能组件的框图。图3是示出了根据示例实施例的发布系统和内容发布平台之间的示例交换的交互图。图4A是示出根据示例实施例的发布的web文档的界面图。图4B是示出根据示例实施例的发布的web文档的更新版本的界面图。图5至8是示出根据示例实施例的异常检测系统在为内容发布平台提供异常检测服务时的示例操作的流程图。图9是示出根据示例实施例的内容发布系统在提供用户生成内容发布服务时的示例操作的流程图。图10是具有计算机系统的示例形式的机器的示图表示,在所述计算机系统中,可以执行一组指令以使所述机器执行本文讨论的方法中的任何一个或多个方法。具体实施方式现在将具体参照用于执行本专利技术主题的具体示例实施例。在附图中示出了这些具体实施例的示例。将会理解,这些示例不旨在将权利要求的范围限制为所示实施例。相反,它们旨在涵盖本公开的范围内可能包括的备选方案、修改和等同物。在以下描述中,阐述了具体细节,以提供对本主题的透彻理解。在没有这些具体细节中的一部分或全部的情况下,实施例也可以被实现。本公开的各方面涉及用于检测web文档修订中的异常的系统和方法。如本文中所使用的,“异常”包括变更web文档超出预期的改变阈值的对web文档的修改。在示例实施例中,web文档是web页面,例如,产品的在线市场列表项。本公开的专利技术主题适用于允许用户修订发布内容的任何在线内容发布平台。在一个示例中,在线内容发布平台是在线市场。示例实施例涉及包括多个不同元素(诸如图像、文本和数值)的web文档。在列表项的示例web文档中,不同元素可以包括产品的图像、产品的文本描述和价格。在这些示例实施例中,方法可以包括访问发布的web文档的更新版本(例如,用户修订版本)。该方法还包括将发布的(例如,未改变的)web文档的各个部分与更新的文档的相应部分进行比较,以生成各种异常分数。例如,可以将包括在发布的web文档中的发布图像与包括在更新的web文档中的更新图像进行比较,以生成图像相似性分数;可以将包括在发布的web文档中的发布文本与包括在更新的web文档中的更新文本进行比较,以生成文本匹配分数;以及可以将包括在更新的web文档中的更新的数值与发布的数值(或先前发布的相关联数值的平均值)进行比较,以生成数值偏差分数。该方法还可以包括基于异常分数与阈值异常分数的比较来确定是否发布更新的web文档。在一些实施例中,如果任何一个异常分数高于阈值分数,则该系统可以阻止发布更新的web文档。在其他实施例中,如果异常分数的组合高于阈值分数,则该系统可以阻止发布更新的web文档。本公开的其他方面包括使用机器学习技术,以基于对检测到异常的修订列表项进行的人工检查来修订阈值分数。参考图1,示出了高级的基于客户端-服务器的架构100的示例实施例。虽然图1示出了基于客户端-服务器的架构100,但是本专利技术的主题当然不限于这种架构,并且同样很好地适用于例如事件驱动的、分布式的或对等的架构系统。此外,为了避免用不必要的细节来模糊本专利技术的主题,图1中省略了与传达本专利技术主题的理解无关的各种功能组件。此外,应当理解,尽管图1中所示的各种功能组件以单数意义来讨论,但是可以采用各种功能组件中的任一种的多个实例。具有基于网络的市场的示例形式的内容发布平台102经由网络104(例如,互联网或广域网(WAN))向一个或多个客户端设备110提供服务器侧功能。例如,图1示出了web客户端112(例如,浏览器)、客户端应用114和在客户端设备110上执行的编程客户端116。网络104的一个或多个部分可以是adhoc网络、内联网、外联网、虚拟专用网(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网的一部分、公共电话交换网(PSTN)的一部分、蜂窝电话网、无线网络、WiFi网络、WiMax网络、另一类型的网络或两个或更多个这样的网络的组合。客户端设备110可以包括但不限于:移动电话、台式计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、笔记本计算机、多处理器系统、基于微处理器或可编程的消费电子产品、游戏机、机顶盒或用户可以用来访问内容发布平台102的任何其他通信设备。在一些实施例中,客户端设备110可以包括显示模块(未示出)以显示信息(例如,以用户界面的形式)。在另一些实施例中,客户端设备110可以包括触摸屏、加速度计、陀螺仪、相机、麦克风、全球定位系统(GPS)设备等中的一个或多个。在一个实施例中,内容发布平台102是基于网络的市场,其发布包括在基于网络的市场上可用的产品的列表项的公告(例如,web文档)。一个或多个用户106可以是人、机器或与客户端设备110交互的其他装置。在示例实施例中,用户106不是基于客户端-服务器的架构100的一部分,但可以经由客户端设备110或另一装置与基于客户端-服务器的架构100进行交互。例如,用户106可以向客户端设备110提供输入(例如,触摸屏输入或字母数字输入),并且经由网络104本文档来自技高网...

【技术保护点】
1.一种系统,包括:一个或多个处理器;存储指令的计算机可读介质,所述指令在由所述一个或多个处理器执行时使所述系统执行包括以下各项的操作:访问发布的web文档,所述发布的web文档包括使用从用户的计算设备接收的数据生成的多个不同元素;访问更新的web文档,所述更新的web文档基于用户使用在用户的计算设备上呈现的界面对所述发布的web文档做出的一个或多个修改,所述更新的web文档包括至少一个用户生成的对所述发布的web文档的所述多个不同元素中的元素的修改;基于所述更新的web文档与所述发布的web文档的比较生成一个或多个异常分数,所述一个或多个异常分数提供所述更新的web文档与所述发布的web文档的偏差的度量;以及基于所述异常分数与阈值异常分数的比较结果来确定是否允许发布所述更新的web文档。

【技术特征摘要】
【国外来华专利技术】2016.06.21 US 15/188,5321.一种系统,包括:一个或多个处理器;存储指令的计算机可读介质,所述指令在由所述一个或多个处理器执行时使所述系统执行包括以下各项的操作:访问发布的web文档,所述发布的web文档包括使用从用户的计算设备接收的数据生成的多个不同元素;访问更新的web文档,所述更新的web文档基于用户使用在用户的计算设备上呈现的界面对所述发布的web文档做出的一个或多个修改,所述更新的web文档包括至少一个用户生成的对所述发布的web文档的所述多个不同元素中的元素的修改;基于所述更新的web文档与所述发布的web文档的比较生成一个或多个异常分数,所述一个或多个异常分数提供所述更新的web文档与所述发布的web文档的偏差的度量;以及基于所述异常分数与阈值异常分数的比较结果来确定是否允许发布所述更新的web文档。2.根据权利要求1所述的系统,其中,所述发布的web文档的所述多个不同元素包括文本、图像和数值。3.根据权利要求1所述的系统,其中,生成所述一个或多个异常分数包括:执行所述更新的web文档中包括的更新文本与所述发布的web文档中包括的发布文本的比较;以及基于所述比较生成文本匹配分数,所述文本匹配分数提供所述更新文本与所述发布文本之间的相似性的度量,其中所述一个或多个异常分数包括所述文本匹配分数。4.根据权利要求3所述的系统,其中,执行所述比较包括使用余弦相似性算法来确定所述更新文本与所述发布文本之间的相似性。5.根据权利要求1所述的系统,其中,生成所述一个或多个异常分数包括:执行所述发布的web文档中包括的发布图像与所述更新的web文档中包括的更新图像的比较;以及基于所述比较生成图像相似性分数,所述图像相似性分数提供所述发布图像和所述更新图像之间的相似性的度量,其中所述一个或多个异常分数包括所述图像相似性分数。6.根据权利要求5所述的系统,其中,执行所述比较包括:基于所述发布图像提取第一组特征描述符;将第一组特征描述符存储在对应于所述发布图像的第一矩阵中;基于所述更新图像提取第二组特征描述符;将第二组特征描述符存储在对应于所述更新图像的第二矩阵中;以及比较所述第一矩阵和所述第二矩阵;其中生成所述图像相似性分数基于所述第一矩阵与所述第二矩阵的比较。7.根据权利要求1所述的系统,其中,生成所述一个或多个异常分数包括基于所述更新的web文档中包括的更新数值与和所述web文档相关联的数值的平均值之间的差异来生成数值偏差分数;以及所述一个或多个异常分数包括所述数值偏差分数。8.根据权利要求1所述的系统,其中,生成所述一个或多个异常分数包括:基于所述更新的web文档中包括的更新文本与所述发布的web文档中包括的发布文本的比较,生成文本匹配分数;基于所述更新的web文档中包括的更新图像与所述发布的web页面中包括的发布图像的比较,生成图像相似性分数;基于所述更新的web文档中包括的更新数值与和所述web文档相关联的数值的平均值之间的差异,生成数值偏差分数;以及将所述文本匹配分数、所述图像相似性分数和所述数值偏差分数聚合,以生成所述异常分数。9.根据权利要求1所述的系统,其中,基于所述异常分数与所述阈值异常分数的比较结果确定是否允许发布所述更新的web文档包括:响应于所述异常分数越过所述阈值异常分数,阻止发布所述更新的web文档。10.根据权利要求9所述的系统,还包括:将所述更新的web文档发送给管理员的设备,以便管理员进行人工审查;以及基于管理员的人工审查结果来改进所述一个或多个阈值异常分数。11.根据权利要求1所述的系统,还包括:从管理计算机系统接收作为人工审查结果的对所述更新的web文档的批准,其中,改进所述阈值异常分数包括基于作为人工审查结果的对所述更新的web文档的批准来增加所述阈值异常分数。12.根据权利要求9所述的系统,还包括:生成指示所述更新的web文档...

【专利技术属性】
技术研发人员:拉克希米·纳拉辛汉希曼休·贾殷
申请(专利权)人:电子湾有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1