可扩展的基于倒排索引的实体解析算法制造技术

技术编号：13832086 阅读：56 留言：0更新日期：2016-10-14 11:30

本发明专利技术公开了可扩展的基于倒排索引的实体解析算法，包括数据源集，实体集，记录集和属性集，所述数据源集，实体集，记录集和属性集包括下列步骤：第一步：先将数据载入并进行预处理，其结果为RDD；第二步：将记录解析成key/value形式，key是ID，value是包含了Title、Description、Manufacturer信息的字符串；本发明专利技术的可扩展的基于倒排索引的实体解析算法，记录相似度度量看作是字符串相似性比较，该算法可并行地在Spark集群中运行。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术公开了可扩展的基于倒排索引的实体解析算法。
技术介绍
实体解析，是从结构化或非结构化数据中识别、链接/分组同一真实世界对象的不同表现形式。实体解析是数据管理、数据集成(数据融合)、数据清洗与数据挖掘等领域的重要的研究问题。在两个数据集中发现匹配的实体是实体解析的典型应用之一，其是异构数据的数据挖掘方法的核心步骤。实体解析方法通常采用记录之间相似性函数计算，并与阀值进行比较，从而确定2条记录是否为匹配的实体。实体解析需要对所有记录做成对的两两比较，这个过程非常耗时。因此，近年来研究者们提出了基于分块技术的实体解析技术，即根据某种特征或规则对数据集进行预处理，将它们分成规模更小的数据块，并在这些块中进行实体解析，以提高算法效率。ER问题在大数据时代更具挑战性。首先，异构的、非结构化数据集，具有不同的数据模式与表示方法，甚至存在数据质量问题；其次，ER算法应该是可扩展的，并可在集群中并行计算。第三，从大规模数据集中找到匹配的实体，需要设计时空代价与通信开销高效的算法。经典的ER算法主要关注实体识别的有效性，即如何能够准确地识别出描述同一实体的对象，而面向大数据的可扩展的实体解析算法研究仍然不多。
技术实现思路
本专利技术为了解决现有技术的问题，提供了记录相似度度量看作是字符串相似性比较，该算法可并行地在Spark集群中运行的可扩展的基于倒排索引的实体解析算法。本专利技术的具体技术方案如下：可扩展的基于倒排索引的实体解析算法，其特征在于：包括数据源集，实体集，记录集和属性集，所述数据源集，实体集，记录集和属性集包括下列步骤：第一步：先将数据载入并进行预处理...

【技术保护点】
可扩展的基于倒排索引的实体解析算法，其特征在于：包括数据源集，实体集，记录集和属性集，所述数据源集，实体集，记录集和属性集通过下列步骤：第一步：先将数据载入并进行预处理，其结果为RDD；第二步：将记录解析成key/value形式，key是ID，value是包含了Title、Description、Manufacturer信息的字符串。

【技术特征摘要】
1.可扩展的基于倒排索引的实体解析算法，其特征在于：包括数据源集，实体集，记录集和属性集，所述数据源集，实体集，记录集和属性集通过下列步骤：第一步：先将数据载入并进行预处理，其结果为RDD；第二步：将记录解析成key/value形式，key是ID，value是包含了Title、Description、Manufacturer信息的字符串。2.如权利要求1所述的可扩展的基于倒排索引的实体解析算法，其特征在于：所述算法还包括程序，用户编写的Spark应用程序，负责将一个spark作业表示为高层的控制流...

【专利技术属性】
技术研发人员：陈敏刚，
申请(专利权)人：陈敏刚，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人