当前位置: 首页 > 专利查询>陈敏刚专利>正文

可扩展的基于倒排索引的实体解析算法制造技术

技术编号:13832086 阅读:56 留言:0更新日期:2016-10-14 11:30
本发明专利技术公开了可扩展的基于倒排索引的实体解析算法,包括数据源集,实体集,记录集和属性集,所述数据源集,实体集,记录集和属性集包括下列步骤:第一步:先将数据载入并进行预处理,其结果为RDD;第二步:将记录解析成key/value形式,key是ID,value是包含了Title、Description、Manufacturer信息的字符串;本发明专利技术的可扩展的基于倒排索引的实体解析算法,记录相似度度量看作是字符串相似性比较,该算法可并行地在Spark集群中运行。

【技术实现步骤摘要】

本专利技术公开了可扩展的基于倒排索引的实体解析算法
技术介绍
实体解析,是从结构化或非结构化数据中识别、链接/分组同一真实世界对象的不同表现形式。实体解析是数据管理、数据集成(数据融合)、数据清洗与数据挖掘等领域的重要的研究问题。在两个数据集中发现匹配的实体是实体解析的典型应用之一,其是异构数据的数据挖掘方法的核心步骤。实体解析方法通常采用记录之间相似性函数计算,并与阀值进行比较,从而确定2条记录是否为匹配的实体。实体解析需要对所有记录做成对的两两比较,这个过程非常耗时。因此,近年来研究者们提出了基于分块技术的实体解析技术,即根据某种特征或规则对数据集进行预处理,将它们分成规模更小的数据块,并在这些块中进行实体解析,以提高算法效率。ER问题在大数据时代更具挑战性。首先,异构的、非结构化数据集,具有不同的数据模式与表示方法,甚至存在数据质量问题;其次,ER算法应该是可扩展的,并可在集群中并行计算。第三,从大规模数据集中找到匹配的实体,需要设计时空代价与通信开销高效的算法。经典的ER算法主要关注实体识别的有效性,即如何能够准确地识别出描述同一实体的对象,而面向大数据的可扩展的实体解析算法研究仍然不多。
技术实现思路
本专利技术为了解决现有技术的问题,提供了记录相似度度量看作是字符串相似性比较,该算法可并行地在Spark集群中运行的可扩展的基于倒排索引的实体解析算法。本专利技术的具体技术方案如下:可扩展的基于倒排索引的实体解析算法,其特征在于:包括数据源集,实体集,记录集和属性集,所述数据源集,实体集,记录集和属性集包括下列步骤:第一步:先将数据载入并进行预处理,其结果为RDD;第二步:将记录解析成key/value形式,key是ID,value是包含了Title、Description、Manufacturer信息的字符串;作为本专利技术进一步限制地,所述算法还包括程序,用户编写的Spark应用程序,负责将一个spark作业表示为高层的控制流,在driver程序中用户可定义RDD的转换或执行操作。作为本专利技术进一步限制地,所述driver程序,一个sparkcontext对象被创建。SparkContext可以连接各种类型的集群管理器,集群管理器为应用分配资源,一旦SparkContext连接了集群管理器,集群启动各个worker节点中的sparkexecutor,Driver程序将代码与任务传给executor,并对RDD执行各种运算,完成task任务,task完成任务后将数据写入文件系统。本专利技术的技术效果:本专利技术的可扩展的基于倒排索引的实体解析算法,能够通过记录相似度度量看作是字符串相似性比较,该算法可并行地在Spark集群中运行的可扩展的基于倒排索引。附图说明图1是本专利技术实施例的可扩展的基于倒排索引的实体解析算法的示意图。具体实施方式下面结合附图对本专利技术做进一步说明。如图1所示,本实施例Apache Spark是大规模数据分析处理的高效的、通用的集群计算系统。Spark利用循环数据流模型,在这个模型中每一个并行操作被缓存在集群的每一个Worker节点。利用分区数据被缓存在Worker节点内存中的机制,使得Spark可以高效、交互式地分析大数据。Spark将分布式数据抽象为弹性分布式数据集(RDD),RDD是只读的分布式数据对象的集合。Spark跟踪RDD的血缘信息,保证如果一个节点失效或奔溃导致的数据丢失可被有效的重建。Spark提供了两类RDD操作-Transformation与Action.Transformations(如map,join与reduceByKey)是延迟评估,也就是说,它们不是立即计算的。Transformed RDD只有在Action(比如count,collect和reduce)运行在其上时才执行。RDD还可以被缓存在内存中用于后续的高效计算。用户编写的Spark应用程序,被称为driver程序,如图1所示,其负责将一个spark作业表示为高层的控制流。在driver程序中用户可定义RDD的转换或执行操作,这些操作在集群的worker节点上执行。在driver程序中,一个sparkcontext对象被创建。SparkContext可以连接各种类型的集群管理器,如Spark standalone或YARN等,这些集群管理器为应用分配资源。一旦SparkContext连接了集群管理器,集群启动各个worker节点中的spark executor。Driver程序将代码与任务传给executor,并对RDD执行各种运算,完成task任务,task完成任务后将数据写入文件系统。ER算法的第一步就是先将数据载入并进行预处理,其结果为RDD。对数据集的每一行,我们需要将记录解析成key/value形式,key是ID,value是包含了Title、Description、Manufacturer信息的字符串。数据加载与预处理部分的代码片段如下:loadedData=sc.textFile(filename,4,) .map(parseDatafileLine) .cache()其中,textFile函数用于将数据载入Spark,paserDatafileLine函数用于将每一行记录解析为key/value格式形式。本专利技术的可扩展的基于倒排索引的实体解析算法,能够通过记录相似度度量看作是字符串相似性比较,该算法可并行地在Spark集群中运行的可扩展的基于倒排索引。需要指出的是,上述较佳实施例仅为说明本专利技术的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本专利技术的内容并据以实施,并不能以此限制本专利技术的保护范围。凡根据本专利技术精神实质所作的等效变化或修饰,都应涵盖在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
可扩展的基于倒排索引的实体解析算法,其特征在于:包括数据源集,实体集,记录集和属性集,所述数据源集,实体集,记录集和属性集通过下列步骤:第一步:先将数据载入并进行预处理,其结果为RDD;第二步:将记录解析成key/value形式,key是ID,value是包含了Title、Description、Manufacturer信息的字符串。

【技术特征摘要】
1.可扩展的基于倒排索引的实体解析算法,其特征在于:包括数据源集,实体集,记录集和属性集,所述数据源集,实体集,记录集和属性集通过下列步骤:第一步:先将数据载入并进行预处理,其结果为RDD;第二步:将记录解析成key/value形式,key是ID,value是包含了Title、Description、Manufacturer信息的字符串。2.如权利要求1所述的可扩展的基于倒排索引的实体解析算法,其特征在于:所述算法还包括程序,用户编写的Spark应用程序,负责将一个spark作业表示为高层的控制流...

【专利技术属性】
技术研发人员:陈敏刚
申请(专利权)人:陈敏刚
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1