基于Spark系统的大规模对象识别方法技术方案

技术编号：11371574 阅读：97 留言：0更新日期：2015-04-30 04:56

本发明专利技术涉及一种基于Spark系统的大规模对象识别方法。该方法包括：步骤10、读取并解析所有匹配规则；步骤20、读取并解析作为对象描述数据的记录；步骤30、对于每个匹配规则，如果记录具有该匹配规则所需的所有属性，匹配结果为该记录的该所有属性的内容所组成的属性串以及该记录的记录id；步骤40、将相同属性串对应的记录id聚集在一起成为记录id的集合；步骤50、对每个对象所具有的记录id广播其所属的对象，对于同一记录id所对应的对象进行传递闭包处理得到新的对象；步骤60、反复进行步骤50，直至对象的数量没有改变。本发明专利技术采用大规模并行的策略，解决了面对海量数据的匹配效率问题；通过预定义的匹配规则，规避了数据缺少与错误的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于Spark系统的大规模对象识别方法
本专利技术涉及数据处理
，尤其涉及一种基于Spark系统的大规模对象识别方法。
技术介绍
网络技术飞速发展的今天，大量网络应用和产品的使用产生了海量的数据，当我们需要对数据进行清洗、集成时，就需要识别出这些数据中哪些记录是描述同一现实对象的。举个例子：各个电商销售商品时通常会记录消费者本身的信息(姓名、性别、年龄、电话、邮箱、住址等)以及商品的信息(如商品名称、类别、单价、数量等)，当需要分析消费者的消费行为时，首要的事情时根据记录中消费者的信息来识别哪些记录是隶属于同一现实消费者，而通常不同的电商记录的消费者信息内容会有所不同，或者同一现实消费者在各电商网站注册的信息有差异，部分数据会缺少甚至错误，因此不能通过简单的去重来识别同一消费者。对象识别又称记录匹配，其目的是从(不可靠的)各种数据源中识别出表示同一现实对象的记录。对象识别在数据清洗、数据集成、数据分析等应用中具有重要作用。在实际应用中，一个对象的信息通常需要与其他数据源的信息进行关联。然而，其他数据源中表示同一对象的信息可能存在错误或具有不同的表示形式。因此，对象识别并不简单，特别是在互联网技术的迅猛发展的今天，数据在急剧膨胀，采用传统的方法从海量数据中识别出哪些对象是相同(或相似的)几乎不可行，相关问题亟需解决。其中包含两个关键问题：一是针对数据缺少与错误的情况如何识别同一对象；二是面对海量的数据如何解决匹配效率问题，传统的策略面对海量数据时已无能为力。另一方面，Spark系统是一个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开...
基于Spark系统的大规模对象识别方法

【技术保护点】
一种基于Spark系统的大规模对象识别方法，其特征在于，包括：步骤10、读取并解析所有匹配规则；步骤20、读取并解析作为对象描述数据的记录；步骤30、对于每个匹配规则，如果记录具有该匹配规则所需的所有属性，匹配结果为该记录的该所有属性的内容所组成的属性串以及该记录的记录id；步骤40、将相同属性串对应的记录id聚集在一起成为记录id的集合，以该记录id的集合标识同一对象；步骤50、对每个对象所具有的记录id广播其所属的对象，对于同一记录id所对应的对象进行传递闭包处理得到新的对象；步骤60、反复进行步骤50，直至对象的数量没有改变。

【技术特征摘要】
1.一种基于Spark系统的大规模对象识别方法，其特征在于，包括：步骤10、读取并解析所有匹配规则；步骤20、读取并解析作为对象描述数据的记录；步骤30、对于每个匹配规则，如果记录具有该匹配规则所需的所有属性，匹配结果为该记录的该所有属性的内容所组成的属性串以及该记录的记录id；步骤40、将相同属性串对应的记录id聚集在一起成为记录id的集合，以该记录id的集合标识同一对象；步骤50、对每个对象所具有的记录id广播其所属的对象，对于同一记录id所对应的对象进行传递闭包处理得到新的对象；步骤60、反复进行步骤50，直至对象的数量没有改变；其中，所述步骤50包括：步骤501、对每个对象所具有的记录id广播其所属的对象；步骤502、收集每个记录id所属的对象，如果记录id所属的对象只有一个，则标记对应的对象的状态为保留；否则合并所有对象中的记录id并去重，生成新的对象并标记该新的对象的状态为新增，标记每个旧的对象的状态为删除；步骤503、合并每个对象的状态信息，如果状态内包含新增，此对象需保留；如果状态内包含删除，此对象需删除；否则，此对象需保留；步骤504、输出所有需要保留的对象。2.根据权利要求1所述的基于Spark系统的大规模对象识别方法，其特征在于，步骤30还包括：如果...

【专利技术属性】
技术研发人员：王明兴，吴颖徽，马帅，汤南，贾西贝，
申请(专利权)人：深圳市华傲数据技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人