用于收集与网络化环境中的欺诈性内容相关联的数据的系统和方法技术方案

技术编号:22334427 阅读:48 留言:0更新日期:2019-10-19 13:05
本发明专利技术的典型实施例涉及用于收集、解析和分析网络化内容中的项目标识符以识别欺诈性内容的系统、方法和非暂时性计算机可读介质。

【技术实现步骤摘要】
【国外来华专利技术】用于收集与网络化环境中的欺诈性内容相关联的数据的系统和方法相关申请本申请要求2016年12月30日提交的美国临时专利申请62/440,798的优先权,其通过引用而全文并入于此。
技术介绍
通过诸如因特网等的网络化环境可访问大量数字内容。该内容分散在多个数据通道和/或源上,并且每天可获得越来越多的内容。虽然该内容中的大部分是合法的,但其中一些内容是欺诈性的或伪造的。
技术实现思路
根据本专利技术的实施例,提供了一种用于收集、解析和分析网络化内容中的项目标识符以识别欺诈性内容的系统。所述系统包括通信连接至网络化环境中的数据源的计算系统。所述数据源包括被配置为托管内容的一个或多个远程服务器。所述系统还包括被设置在所述计算系统中的一个或多个本地服务器。所述一个或多个本地服务器被编程为基于至少一个第一项目标识符来对所述网络化环境中的一个或多个远程服务器所托管的内容进行搜索。所述一个或多个本地服务器还被编程为响应于对所述内容的搜索而接收搜索结果集,其中各搜索结果与所述内容中识别出的项目相关联。所述一个或多个本地服务器还被编程为收集来自所述数据源的所述搜索结果集。所述一个或多个本地服务器还被编程为从所述搜索结果集中的各搜索结果提取多个项目标识符。所述多个项目标识符针对各搜索结果至少包括GTIN和品牌名称。所述一个或多个本地服务器还被编程为针对所述搜索结果集中的各搜索结果基于所述品牌名称来分析所述GTIN是合法的还是欺诈性的。所述一个或多个本地服务器还被编程为基于所述分析来将所述搜索结果集中的各搜索结果标记为合法的或欺诈性的。根据本专利技术的实施例,提供了一种用于收集、解析和分析网络化内容中的项目标识符以识别欺诈性内容的方法。所述方法是使用通信连接至网络化环境中的数据源的计算系统而实现的,所述数据源包括被配置为托管内容的一个或多个远程服务器、以及被设置在所述计算系统中的一个或多个本地服务器。所述方法包括通过所述一个或多个本地服务器基于至少一个第一项目标识符来对所述网络化环境中的所述一个或多个远程服务器所托管的内容进行搜索。所述方法还包括通过所述一个或多个本地服务器响应于对所述内容的搜索而接收搜索结果集,其中各搜索结果与所述内容中识别出的项目相关联。所述方法还包括通过所述一个或多个本地服务器收集来自所述数据源的所述搜索结果集。所述方法还包括通过所述一个或多个本地服务器从所述搜索结果集中的各搜索结果提取多个项目标识符。所述多个项目标识符针对各搜索结果至少包括GTIN和品牌名称。所述方法还包括通过所述一个或多个本地服务器针对所述搜索结果集中的各搜索结果基于所述品牌名称来分析所述GTIN是合法的还是欺诈性的。所述方法还包括通过所述一个或多个本地服务器基于所述分析来将所述搜索结果集中的各搜索结果标记为合法的或欺诈性的。设想了实施例的任何组合和/排列。根据以下结合附图进行考虑的具体实施方式,其它目标和特征将变得明显。然而,应当理解,附图仅被设计为说明而不是对本专利技术的限制的定义。附图说明在附图中,在非限制性和非穷举性实施例的各个图中,相同的附图标记指代相同的部分。图1是根据本专利技术的实施例的用于收集、解析、分析和促进从与网络化环境中的各个数据通道相关联的不同数据源移除欺诈性内容的典型欺诈性内容检测引擎的框图。图2是根据本专利技术的实施例的典型计算装置的框图。图3是根据本专利技术的实施例的用于收集、解析、分析和促进移除因特网上的欺诈性内容的典型网络化环境。图4是示出根据本专利技术的用于使用欺诈性内容检测引擎来解析并分类网络内容中识别出的项目标识符关联项目的典型方法的流程图。图5是示出根据本专利技术的实施例的用于收集、解析、分析和促进移除网络化环境中的欺诈性内容的典型方法的流程图。具体实施方式本专利技术的典型实施例涉及用于收集、解析和分析与网络化环境上的数字内容中所识别的项目相关联的项目标识符以识别欺诈性内容并最终从网络化环境中移除欺诈性内容的系统、方法和非暂时性计算机可读介质。这些系统和方法包括欺诈性内容检测引擎,其中该欺诈性内容检测引擎包括收集引擎、提取引擎、标记引擎和分析引擎。欺诈性内容检测引擎可以通信连接至网络化环境中的数据源。数据源可以包括被配置为托管内容的一个或多个远程服务器。在一个非限制性应用中,欺诈性内容检测引擎可被配置为对网络化环境进行搜索,以识别并移除欺诈性内容,从而实现品牌保护的目的。在典型实施例中,收集引擎被配置为从网络化环境中的数据源收集内容。特别地,收集引擎基于搜索项和/或项目标识符来对数据源中的内容进行搜索。项目标识符可以包括全球贸易项目编号(GTIN)(包括通用产品代码(UPC代码)、国际标准图书编号(ISBN)和欧洲商品编号(EAN))、品牌名称和型号组合、以及因特网搜索网站、在线市场和/或在线拍卖网站为了使产品列表标准化而使用的其它标准化标识符。GTIN是用于识别贸易项目、产品或服务的全球唯一编号。数据源包括但不限于因特网、市场/拍卖网站(包括产品列表)。收集引擎使用数据源中的搜索项的直接搜索以及/或者利用现有的商业网站目录结构来搜索内容。例如,收集引擎可被配置为在一个或多个数据源上的多个产品列表中搜索特定GTIN或关键字字符串。收集引擎可以响应于对数据源的搜索而返回搜索结果的集合或列表。例如,收集引擎可以返回与特定GTIN或关键字字符串相关联的网页和/或产品的列表。提取引擎从收集引擎所返回的结果集中的各结果提取或解析项目标识符。提取引擎针对各结果创建数据库条目或记录,其中从结果所提取的各项目标识符与记录的字段相对应。在典型实施例中,各记录至少包括从内容解析出的提取到的GTIN和提取到的品牌名称。提取引擎还提取或解析各结果中所包括的任何附加项目标识符,并将该附加项目标识符作为字段存储在数据库中。各项目标识符具有所辨别出的项目标识符类别,这使得提取引擎能够对解析的项目标识符进行分类并将其插入正确的字段中。例如,提取引擎被配置为将所提取名称分类为品牌名称,并将该名称插入与品牌名称相对应的字段中。在一些情况下,提取引擎可能不能对结果中的一个或多个项目标识符进行识别、辨别和/或分类。作为非限制性示例,提取引擎可能无法识别结果中所列出的欧洲商品编号(EAN)或不能对其进行分类。在这种情况下,分析者可以检查结果并将EAN分类为EAN项目标识符。新分类的项目标识符与已知的项目标识符一起存储,以供在将来提取期间使用。对于各记录,标记引擎判断所提取GTIN对于所提取的品牌名称是否合法。在典型实施例中,标记引擎通过搜索GTIN中所包括的GS1(GlobalStandardOne,全球统一标识系统)公司前缀以及/或者在GS1全球电子厂商资讯注册表(GEPIR)中搜索GTIN以及/或者经由实体的应用编程接口(API)在实体的数据库中搜索GTIN以及/或者在品牌GTIN的独立数据库中搜索GTIN,来确定与所提取的GTIN相关的合法品牌名称。在一些实施例中,实体可以是拥有和/或具有对于与GTIN相关联的项目的兴趣的公司或企业。GS1公司前缀是所有注册UPC/EAN中所包括的用于识别品牌的数字编号。GEPIR是被配置为验证条形码/GTIN和/或公司名称和/或品牌的数据库。标记引擎对照所提取的品牌名称检查合法的品牌名称,并基于所提取的GTIN对于所提取的品本文档来自技高网...

【技术保护点】
1.一种用于收集、解析和分析网络化内容中的项目标识符以识别欺诈性内容的系统,所述系统包括:计算系统,其通信连接至网络化环境中的数据源,所述数据源包括被配置为托管内容的一个或多个远程服务器;一个或多个本地服务器,其被设置在所述计算系统中,所述一个或多个本地服务器被编程为:基于至少一个第一项目标识符来对所述网络化环境中的一个或多个远程服务器所托管的内容进行搜索;响应于对所述内容的搜索而接收搜索结果集,其中各搜索结果与所述内容中识别出的项目相关联;收集来自所述数据源的所述搜索结果集;从所述搜索结果集中的各搜索结果提取多个项目标识符,所述多个项目标识符针对各搜索结果至少包括全球贸易项目编号和品牌名称,全球贸易项目编号即GTIN;针对所述搜索结果集中的各搜索结果,基于所述品牌名称来分析所述GTIN是合法的还是欺诈性的;以及基于所述分析来将所述搜索结果集中的各搜索结果标记为合法的或欺诈性的。

【技术特征摘要】
【国外来华专利技术】2016.12.30 US 62/440,7981.一种用于收集、解析和分析网络化内容中的项目标识符以识别欺诈性内容的系统,所述系统包括:计算系统,其通信连接至网络化环境中的数据源,所述数据源包括被配置为托管内容的一个或多个远程服务器;一个或多个本地服务器,其被设置在所述计算系统中,所述一个或多个本地服务器被编程为:基于至少一个第一项目标识符来对所述网络化环境中的一个或多个远程服务器所托管的内容进行搜索;响应于对所述内容的搜索而接收搜索结果集,其中各搜索结果与所述内容中识别出的项目相关联;收集来自所述数据源的所述搜索结果集;从所述搜索结果集中的各搜索结果提取多个项目标识符,所述多个项目标识符针对各搜索结果至少包括全球贸易项目编号和品牌名称,全球贸易项目编号即GTIN;针对所述搜索结果集中的各搜索结果,基于所述品牌名称来分析所述GTIN是合法的还是欺诈性的;以及基于所述分析来将所述搜索结果集中的各搜索结果标记为合法的或欺诈性的。2.根据权利要求1所述的系统,其中,所述一个或多个本地服务器还被编程为通过以下至少之一、基于所述品牌名称来分析所述GTIN是合法的还是欺诈性的:对所述GTIN中所包括的GS1公司前缀进行搜索,GS1即全球统一标识系统;对GS1全球电子厂商资讯注册表进行搜索;经由实体的应用编程接口即API来对该实体的数据库进行搜索;或者对品牌GTIN的独立数据库进行搜索。3.根据权利要求1所述的系统,其中,所述一个或多个本地服务器还被编程为:针对所述搜索结果中的第一搜索结果,判断所述多个项目标识符中的相应项目标识符是否与同所述搜索结果中的该第一搜索结果内所包括的品牌名称相关联的一个或多个预定义项目标识符相对应;以及基于所述多个项目标识符中的所述相应项目标识符是否与所述一个或多个预定义项目标识符相对应来将所述搜索结果中的该第一搜索结果标记为合法的或欺诈性的。4.根据权利要求1所述的系统,其中,所述一个或多个本地服务器还被编程为:分析各搜索结果的所述多个项目标识符,以识别不正确的项目标识符;以及响应于识别出所述不正确的项目标识符而将所述搜索结果标记为欺诈性的。5.根据权利要求1所述的系统,其中,所述一个或多个本地服务器还被编程为通过对网站和应用的直接搜索、查询构造、以及对所述网站的目录结构的利用来从所述数据源收集产品列表。6.根据权利要求1所述的系统,其中,所述网络化环境中的一个或多个远程服务器是web服务器,以及所述一个或多个远程服务器所托管的内容是包括网页的网站。7.根据权利要求1所述的系统,其中,所述一个或多个本地服务器还被编程为发起对与被标记为欺诈性的一个或多个结果相关联的内容的移除。8.根据权利要求1所述的系统,其中,所述一个或多个本地服务器还被编程为:响应于从所述搜索结果集中的各搜索结果提取所述多个项目标识符而针对所述搜索结果集在数据库中创建多个记录,所述数据库中所创建的多个记录中的各记录与所述搜索结果集中的结果相对应;以及将从各结果提取的多个项目标识符存储在所述数据库中所创建的多个记录中的相应记录中。9.根据权利要求8所述的系统,所述系统还包括用户界面,所述用户界面被配置为显示所述多个记录和所述多个项目标识符。10.一种用于收集、解析和分析网络化内容中的项目标识符以识别欺诈性内容的方法,所述方法经由通信连接至网络化环境中的数据源的计算系统而实现,所述数据源包括被配置为托管内容的一个或多个远程服务器,以及一个或多个本地服务器被设置在所述计算系统中,所述方法包括:通过所述一个或多个本地服务器基于至少一个第一项目标识符来对所述网络化环境中的一个或多个远程服务器所托管的内容进行搜索;通过所述一个或多个本地服务器、响应于对所述内容的搜索而接收搜索结果集,其中各搜索结果与所述内容中识别出的项目相关联;通过所述一个或多个本地服务器收集来自所述数据源的所述搜索结果集;通过所述一个或多个本地服务器从所述搜索结果集中的各搜索结果提取多个项目标识符,所述多个项目标识符针对各搜索结果至少包括全球贸易项目编号和品牌名称,全球贸易项目编号即GTIN;通过所述一个或多个本地服务器、针对所述搜索结果集中的各搜索结果、基于所述品牌名称来分析所述GTIN是合法的还是欺诈性的;以及通过所述一个或多个本地服务器基于所述分析来将所述搜索结果集中的各搜索结果标记为合法的或欺诈性的。11.根据权利要求10所述的方法,还包括通过所述一个或多个本地服务器通过以下至少之一、基于所述品牌名称来分析所述GTIN是合法的还是欺诈性的:对所述GTIN中所包括的GS1公司前缀进行搜索,GS1即全球统一标识系统;对GS1全球电子厂商资讯注册表进行搜索;经由实体的应用编程接口即API来对该实体的数据库进行搜索;或者对品牌GTIN的独立数据库进行搜索。12.根据权利要求10所述的方法,还包括:通过所述一个或多个本地服务器,针对所述搜索结果中的第一搜索结果判断所述多个项目标识符中的相应项目标识符是否与同所述搜索结果中的该第一搜索结果内所包括的品牌名称相关联的一个或多个预定义项目标识符相对应;以及通过所述一个或多个本地服务器,基于所述多个项目标识符中的所述相应项目标识符是否与所述一个...

【专利技术属性】
技术研发人员:M·V·詹金斯
申请(专利权)人:英国卡米洛要约公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1