当前位置: 首页 > 专利查询>雅虎公司专利>正文

用于合并数据的系统和方法技术方案

技术编号:14786026 阅读:116 留言:0更新日期:2017-03-11 00:03
本发明专利技术公开了用于合并数据的系统和方法。该方法包括:获得第一属性值,其中第一属性值表示数据项的方面;获得述第一属性有关的第二属性值,其中第二属性值表示数据项的方面;选择将用来确定表示数据项的第三属性值的方案;以及根据所选的方案以及第一属性值和第二属性值来确定所述第三属性值。

【技术实现步骤摘要】

本公开涉及数据处理领域。具体地,本公开涉及用于合并数据的系统和方法
技术介绍
本公开提出了用于通过实时流计算融合大量计算以支持网络相册(Flickr)的神奇视图(MagicView)的新型架构。MagicView被设计为一种愉快的体验,仅基于图像内容,它提供了基于用户自己的照片流的示图的对象和主题。为了实现该目的,本公开中的系统使用针对实时计算和批量计算的单一表格,并推进读取的一致性。为了处理关于传统架构(称为Lambda架构)的复杂度的问题之一,所公开的系统能够显著地简化实现方式而仍旧能够实现一种快速响应的实时数据库,该数据库可操作的规模为300亿个记录,其中5000万个记录每天被递增式增加和更新。该系统允许以极低延迟,非常广泛并深入地服务来自Lambda架构的数据。该系统具有非常适度的硬件和软件足迹(footprint)(这是一种概念模式)。该系统的设计还促进精确的(surgical)实时更新和整体数据集的更新二者,同时维持高度的一致性和正确性。我们面临的挑战是将数据从大的周期性静态记录集(回填)投射到服务系统的长周转时间。该问题由于大数据集通常是以千万亿字节大小为规模而尤其严重。Map-reduce(映射化简)已经可以很好地用于较快地创建和存储回填。挑战已成为如何在同样合理的时间帧(若干小时或天,而非若干天或周)内将这些回填投射到我们现有的服务栈(关键值存储、RDBMS、和搜索引擎)。此外,我们从不同的系统生成额外的、日益增长的主数据记录集,并且数据以高速率改变(大约1亿次记录更新/天),当该数据与回填合并时可形成超过200亿的记录集。我们需要以低延迟经由我们的API,采取统一的方式向数以千万的用户同时服务该数据,并维持高度的一致性和正确性。最终,我们的数据中的一些数据由稳定发展和改进下的前沿算法生成。平均每6-8周,存在遍历整个记录集重新计算该数据的显著用户利益。这可能需要对我们的数据进行完全的更新,同时继续以低延迟和高规模服务新的更新。HBase是开源的分布式数据库,HBase作为灵活的大规模关键值数据存储已经很成熟,其可以促进非常快速的批量加载(大于每秒400k条记录),同时从实时更新写入同一HBase基础设施(区域服务器、表格等)。随后所造成的问题是如何实际地合并这些“实时”源和“回填”源的数据。我们实时地使用预测性活动队列来执行这一点,“缓存引(cacheprimer)”或“Warmr”(我们对其的称呼)观察和扫描HBase以将实体投射到一个低延迟服务层(在我们的情况下为Redis)。首先在下文介绍合并实时数据和回填数据的概念。有两种类别的数据单元,分别为“属值(Values)”和“王牌(Trumps)”。“属值”为将被投射到服务层的实体的属性(例如:拍摄照片的日期)。“王牌”表示从缓存中删除实体的信号。所有的单元通过实时表示和回填表示之间的“同属(sibling)”双重引用来建模。该算法为:“王牌”始终胜过“属值”(故有此名称)且实时始终胜过回填。我们所取得的作为Warmr中一部分的一项创新是最小化HBase扫描IO出同时保持上部分(above-the-fold)冷缓存(cold-cache)的低延迟(我们已在第95百分位实现了300ms)。为了达到这一点,我们将HBase扫描结果的最大时间戳快照到缓存层。这允许我们在稳态时只需为最近的数据变化(即,其时间戳在来自前次扫描的快照时间戳之后的单元)对HBase进行高频扫描。这增加了实时/回填优先级分级/合并算法的复杂性。由于“王牌”单元始终取得高于“属值”单元的优先级,且“实时”单元始终胜过它们“回填”的同属,我们有时需要在HBase上针对同一行运行多次取值。所以例如,如果我们在某个时间范围内扫描并只找到了回填数据,则我们必须针对任意可能的实时数据进行及时(back-in-time)回查。通过把这部分“Warmar”封装为一个HBase协同处理器,这种额外的HBaseIO可以得到缓解。有关这种“实时胜过回填”算法的问题在于,实时“路径(lane)”可能阻碍被写入回填的新的更新。我们通过统筹“清除”阶段来解决该问题,在该“清除”阶段中,仔细挑选的实时数据集被周期性地移动到回填单元。通过与在映射化简(map-reduce)中处理的起作用的批量数据的低水印数据时间戳仔细地协调,这一点被完成。实践中,我们的实时系统比我们的批量系统更容易出错,所以以每天或每周的频率运行该过程具有校正数据的额外优点,该数据可能在实时处理期间已经丢失。回填清除检查我们标准的存储在磁盘上的、用来标识最大时间段的数据集,我们已知该数据集是正确的,即不会仍然通过实时或数据处理流写入该数据集。该标准数据集的块包括可能从实时数据流丢失的数据(该情况定期发生),所以我们将该数据加载至数据库的批量部分。对于数据库中相同标识的时间段,我们随后标识任意实时更新,该实时更新可能“胜过”刚加载的标准批量数据并将该数据“公布”于批量列,以及将实时列中现在过期的数据消除。时序图在图6中示出。该系统主要益处是实现、扩大和调试比较简单。该系统从数据库架构强(strongly)解耦,所以它还提供了操作简易性。数据库可以被“现场”更新,同时Warmr正在运行并且Warmr将提供最终一致的结果;该系统额外的优点是其允许大规模的经解耦回填。最后,该系统的规模是轻量级的;其实际的实现方式不需要很多用于将数十亿的记录存储至大内存缓存的硬件和存储器。该系统允许以极低延迟,非常广泛并深入地服务来自Lambda架构的数据。该系统具有非常适度的硬件和软件足迹(这是一种概念模式)。该系统的设计还同时促进精确的(surgical)实时更新和整体数据集的更新,同时维持高度的一致性和正确性。网络相册曾试图将我们的计算机视觉技术以一种愉快的方式呈现给用户。神奇视图(MagicView)基于自动标签以分类学的方式将用户的照片进行聚合和分组,并提供无缝的、“快速导航”视图,例如,将用户照片中所有的“猫”分为一组。
技术实现思路
本专利技术提供了一种用于合并数据的方法。该方法包括:获得第一属性值,其中第一属性值表示数据项的方面;获得述第一属性有关的第二属性值,其中第二属性值表示数据项的方面;选择将用来确定表示数据项的第三属性值的方案;以及根据所选的方案以及第一属性值和第二属性值来确定所述第三属性值。附图说明图1示出了根据本教导的实施例的照片的神奇视图(magicview)。图2示出了根据本教导的实施例的将照片添加到magicview类别。图3示出了根据本教导的实施例的典型Lambda架构的示例。。图4示出了根据本教导的实施例的系统的概览和(相比于图3中经典的实现方式的)增强型Lambda架构。图5示出了根据本教导的实施例的系统的概览和(相比于图3中经典的实现方式的)另一增强型Lambda架构。图6示出了根据本教导的实施例的用于合并数据的方法的时序图。图7示出了根据本教导的实施例的用户认知的时间的图表。图8描绘了可以用来实现专门实现本教导的系统的移动设备架构;以及图9描绘了可以用来实现专门实现本教导的系统的计算设备架构。具体实施方式图1示出了根据本教导的实施例的照片的神奇视图(magicview)。通过应用我们前沿的本文档来自技高网
...
用于合并数据的系统和方法

【技术保护点】
一种用于合并数据的方法,所述方法被实现于具有至少一个处理器、存储装置、和连接到网络的通信平台的机器上,所述方法包括:获得第一属性值,其中所述第一属性值表示数据项的方面;获得与所述第一属性有关的第二属性值,其中所述第二属性值表示所述数据项的所述方面;选择将用来确定表示所述数据项的第三属性值的方案;以及根据所选的方案以及所述第一属性值和所述第二属性值来确定所述第三属性值。

【技术特征摘要】
2015.09.02 US 62/213,554;2015.11.24 US 14/949,9321.一种用于合并数据的方法,所述方法被实现于具有至少一个处理器、存储装置、和连接到网络的通信平台的机器上,所述方法包括:获得第一属性值,其中所述第一属性值表示数据项的方面;获得与所述第一属性有关的第二属性值,其中所述第二属性值表示所述数据项的所述方面;选择将用来确定表示所述数据项的第三属性值的方案;以及根据所选的方案以及所述第一属性值和所述第二属性值来确定所述第三属性值。2.如权利要求1所述的方法,其中,选择方案包括:确定所述第一属性值的第一类型;以及基于所述第一...

【专利技术属性】
技术研发人员:宝蒂克·约什彼得·韦尔奇亚安·雷
申请(专利权)人:雅虎公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1