用于合并数据的系统和方法技术方案

技术编号：14786026 阅读：116 留言：0更新日期：2017-03-11 00:03

本发明专利技术公开了用于合并数据的系统和方法。该方法包括：获得第一属性值，其中第一属性值表示数据项的方面；获得述第一属性有关的第二属性值，其中第二属性值表示数据项的方面；选择将用来确定表示数据项的第三属性值的方案；以及根据所选的方案以及第一属性值和第二属性值来确定所述第三属性值。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及数据处理领域。具体地，本公开涉及用于合并数据的系统和方法。
技术介绍
本公开提出了用于通过实时流计算融合大量计算以支持网络相册(Flickr)的神奇视图(MagicView)的新型架构。MagicView被设计为一种愉快的体验，仅基于图像内容，它提供了基于用户自己的照片流的示图的对象和主题。为了实现该目的，本公开中的系统使用针对实时计算和批量计算的单一表格，并推进读取的一致性。为了处理关于传统架构(称为Lambda架构)的复杂度的问题之一，所公开的系统能够显著地简化实现方式而仍旧能够实现一种快速响应的实时数据库，该数据库可操作的规模为300亿个记录，其中5000万个记录每天被递增式增加和更新。该系统允许以极低延迟，非常广泛并深入地服务来自Lambda架构的数据。该系统具有非常适度的硬件和软件足迹(footprint)(这是一种概念模式)。该系统的设计还促进精确的(surgical)实时更新和整体数据集的更新二者，同时维持高度的一致性和正确性。我们面临的挑战是将数据从大的周期性静态记录集(回填)投射到服务系统的长周转时间。该问题由于大数据集通常是以千万亿字节大小为规模而尤其严重。Map-reduce(映射化简)已经可以很好地用于较快地创建和存储回填。挑战已成为如何在同样合理的时间帧(若干小时或天，而非若干天或周)内将这些回填投射到我们现有的服务栈(关键值存储、RDBMS、和搜索引擎)。此外，我们从不同的系统生成额外的、日益增长的主数据记录集，并且数据以高速率改变(大约1亿次记录更新/天)，当该数据与回填合并时可形成超过200亿的记录集。我们需要以...
用于合并数据的系统和方法

【技术保护点】
一种用于合并数据的方法，所述方法被实现于具有至少一个处理器、存储装置、和连接到网络的通信平台的机器上，所述方法包括：获得第一属性值，其中所述第一属性值表示数据项的方面；获得与所述第一属性有关的第二属性值，其中所述第二属性值表示所述数据项的所述方面；选择将用来确定表示所述数据项的第三属性值的方案；以及根据所选的方案以及所述第一属性值和所述第二属性值来确定所述第三属性值。

【技术特征摘要】
2015.09.02 US 62/213,554;2015.11.24 US 14/949,9321.一种用于合并数据的方法，所述方法被实现于具有至少一个处理器、存储装置、和连接到网络的通信平台的机器上，所述方法包括：获得第一属性值，其中所述第一属性值表示数据项的方面；获得与所述第一属性有关的第二属性值，其中所述第二属性值表示所述数据项的所述方面；选择将用来确定表示所述数据项的第三属性值的方案；以及根据所选的方案以及所述第一属性值和所述第二属性值来确定所述第三属性值。2.如权利要求1所述的方法，其中，选择方案包括：确定所述第一属性值的第一类型；以及基于所述第一...

【专利技术属性】
技术研发人员：宝蒂克·约什，彼得·韦尔奇，亚安·雷，
申请(专利权)人：雅虎公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人