用于数据存储的垃圾收集制造技术

技术编号:22758119 阅读:16 留言:0更新日期:2019-12-07 05:16
用于回收存储环境中的存储空间的方法、系统、包括在计算机存储介质上所编码的计算机程序的装置。在一个方面中,方法包括以下动作,聚合指示对一个或多个数据对象的访问的数据,确定与多个数据对象中的每个数据对象相关联的未来存储成本,确定多个数据对象中的每个数据对象的访问窗口,基于(i)满足预定阈值的未来存储成本和(ii)数据对象访问窗口来识别数据对象,向用户设备提供通知,通知请求来自用户的反馈,反馈指示是否可以删除数据对象,以及响应于接收到指示可以删除数据对象的数据,生成在访问窗口到期时使得删除数据对象的指令。

Garbage collection for data storage

A method, system for reclaiming storage space in a storage environment, including a device for computer programs encoded on a computer storage medium. In one aspect, the method includes the following actions: aggregating data indicating access to one or more data objects, determining the future storage cost associated with each data object in the multiple data objects, determining the access window of each data object in the multiple data objects, and identifying based on (I) the future storage cost meeting the predetermined threshold and (II) the data object access window Data object, providing notification to the user equipment, requesting feedback from the user, indicating whether the data object can be deleted, and generating instructions to delete the data object when the access window expires in response to receiving the data indicating that the data object can be deleted.

【技术实现步骤摘要】
【国外来华专利技术】用于数据存储的垃圾收集
技术介绍
存储器中的数据对象的垃圾收集带来了重大挑战,尤其是随着存储器中所维护的数据的规模(例如,太字节、拍字节、艾字节或更多)的增加。由于数据结构的复杂性(例如,可以包含数百万列或更多列),并且通常关于消费者和数据的预期使用的知识有限,因此还引入了挑战。
技术实现思路
根据本公开的一个创新方面,公开了一种回收大数据存储环境中的存储空间的计算机实施的方法。方法可以包括以下动作,由一个或多个服务器计算机,聚合描述对被存储在存储环境中的数据对象的访问的数据,由一个或多个服务器计算机,确定与存储环境中的多个数据对象中的每个数据对象相关联的未来存储成本,由一个或多个服务器计算机,确定存储环境中的多个数据对象中的每个数据对象的访问窗口,每个访问窗口在未来具有相应的到期日期,由一个或多个服务器计算机,识别一个或多个第一数据对象,第一数据对象中的每个第一数据对象是所确定的未来存储成本满足预定的未来存储成本阈值的数据对象,对于每个所识别的第一个数据对象:由一个或多个服务器计算机,向用户设备提供通知,通知请求来自用户的反馈,反馈指示在访问窗口到期之后是否可以删除数据对象,由一个或多个服务器计算机,从用户设备接收指示在访问窗口到期之后是否可以删除数据对象的数据;以及响应于从用户设备接收到指示在访问窗口到期之后可以删除数据对象的数据,生成在访问窗口到期时使得删除数据对象的指令。其他方面包括相对应的系统、装置和计算机程序,以进行由在计算机存储设备上所编码的指令所定义的方法的动作。这些和其他版本可以可选地包括以下特征中的一个或多个。例如,在一些实施方式中,方法还可以包括,响应于从用户设备接收到指示在访问窗口到期之后可以删除数据对象的数据,生成指示存储环境标记在访问窗口到期时删除的数据对象的指令。在一些实施方式中,方法还可以包括,响应于从用户设备接收到指示在访问窗口到期之后不可以删除数据对象的数据,调整被用来确定访问窗口的启发法。在一些实施方式中,由一个或多个服务器计算机,聚合描述对被存储在存储环境中的数据对象的访问的数据,可以包括:由一个或多个服务器计算机,从由存储环境所维护的一个或多个审计日志获得审计日志数据记录,其中每个审计日志数据记录包括(i)识别所访问的数据对象的数据,和(ii)指示何时发生了对数据对象的访问的时间戳的数据,以及由一个或多个服务器计算机,将所获得的审计日志数据记录存储在数据库中。在一些实施方式中,由一个或多个服务器计算机,确定存储环境中的多个数据对象中的每个数据对象的访问窗口,可以包括,由一个或多个服务器计算机,分析数据库中的审计日志数据,以确定可能访问数据对象的时间段。在一些实施方式中,由一个或多个服务器计算机,确定与存储环境中的多个数据对象中的每个数据对象相关联的未来存储成本,可以包括:使用一个或多个启发法,基于所预测的未来存储价格贬值来估计数据对象的潜在未来存储成本。在一些实施方式中,方法还可以包括,由一个或多个服务器计算机,基于(i)可以为每个相应的数据对象回收的未来存储成本,和(ii)指示是否将在访问窗口之外访问每个相应的数据对象的置信度分数,来对一个或多个第一数据对象进行分类。在一些实施方式中,标签可以包括指示数据对象的访问窗口何时到期的时间戳。本公开的主题提供优于传统方法的多个优点。例如,本公开的特征优化“大数据”存储环境中的存储回收处理。在一些实施方式中,例如,本公开可以基于数据对象的估计未来存储成本与从“大数据”存储系统回收与数据对象相关联的存储空间的成本的比较,来做出关于是否回收“大数据”存储系统中的存储空间的确定。这样的成本效益分析对于“大数据”存储系统是独特的,因为数据对象的大小可能非常大。这通过对存储回收处理进行编程来优化处理,以确定在某些实例(例如,在回收存储的成本大于估计的未来存储成本的实例)中,即使未来没有用户希望访问数据对象,将数据对象保留存储在“大数据”存储中也比通过必要的步骤来回收数据更有效。因此,在一些实例中,例如,因为存储的货币成本随着时间的推移而贬值,所以将数据对象保留在“大数据”存储中而不是回收与“大数据”对象相关联的存储空间可能更有效。附图说明图1是用于回收存储环境中的存储空间的系统的情境图。图2是用于回收存储环境中的存储空间的处理的流程图。具体实施方式相对于不使用本说明书中所描述的系统和方法的传统存储系统,本公开涉及优化存储环境中的存储资源的使用的系统和方法。在随后的示例描述中,存储系统通常被称为“大数据”存储系统,因为所实现的益处和优点与被存储在存储系统中的数据的量成比例地增加。然而,下面所描述的特征可以被用在任何存储系统中,因此不限于可以被归类为“大数据”存储系统的存储系统。由本公开所描述的系统和方法可以通过由回收系统确定不再有用的存储环境中的数据对象所占用的存储空间,来优化存储环境中的存储资源的使用。基于(i)确定数据对象如果被保存在存储器中可能产生超过阈值量的未来存储成本,以及(ii)确定与数据对象相关联的预定访问窗口已经到期,可以将数据对象识别为回收的候选。如果确定估计的未来存储成本大于当前移除数据对象的成本,则数据对象可能超过阈值量的存储成本。在一些实例中,由本公开所描述的系统和方法还可以被用来回收用于维护整个数据对象存储库的存储空间。图1是用于回收存储环境中的存储空间的系统100的情境图。系统100包括用户设备110、网络115、服务器130和存储环境145。仅为了说明的目的,存储环境145被称为大数据存储环境145。大数据存储环境145包括提供数据对象的物理存储的一个或多个服务器计算机145-1至145-n,其中n是任何正整数。在一些实施方式中,大数据存储环境145可以由单个实体操作并且用于为多个数据对象存储库150、151、512、153、154、155提供物理存储,多个数据对象存储库150、151、512、153、154、155存储由单个实体获得、生成、维护或其组合的数据对象。替代地,大数据存储环境145可以是为m个实体提供物理存储的基于云的系统,其中m是任何正整数。在这样的基于云的系统中,大数据存储环境145可以将存储空间147-1分配给第一实体,以用于存储第一实体的数据对象存储库150、151、152、153、154、155,并且将不同的存储空间147-m分配给第二实体,以用于存储第二实体的数据对象存储库160、161、162、163、164、165。实体可以包括需要存储空间来存储数据的任何人、人群、组织(例如,公司、政府机构等)、计算机系统(例如,人工智能代理)等。举例来说,诸如国际零售商(以下被称为“零售商”)的实体可能需要存储空间来存储大数据。在图1中参考存储空间147-m示出该示例。在阶段A,零售商可以使用存储空间147-m来存储多个不同类型的数据对象存储库,诸如是客户调查存储库160、文档存储库161、存储销售数据的关系数据库存储库162、存储库存数据的列数据库存储库163、社交媒体帖子存储库16本文档来自技高网...

【技术保护点】
1.一种计算机实施的方法,其特征在于,包括:/n由一个或多个服务器计算机,聚合描述对被存储在存储环境中的数据对象的访问的数据;/n由所述一个或多个服务器计算机,确定与所述存储环境中的多个数据对象中的每个数据对象相关联的未来存储成本;/n由所述一个或多个服务器计算机,确定所述存储环境中的所述多个数据对象中的每个数据对象的访问窗口,每个访问窗口在未来具有相应的到期日期;/n由所述一个或多个服务器计算机,识别一个或多个第一数据对象,所述第一数据对象中的每个第一数据对象是所确定的未来存储成本满足预定的未来存储成本阈值的数据对象;/n对于每个所识别的第一个数据对象:/n由所述一个或多个服务器计算机,向用户设备提供通知,所述通知请求来自用户的反馈,所述反馈指示在所述访问窗口到期之后是否可以删除所述数据对象;/n由所述一个或多个服务器计算机,从所述用户设备接收指示在所述访问窗口到期之后是否可以删除所述数据对象的数据;以及/n响应于从所述用户设备接收到指示在所述访问窗口到期之后可以删除所述数据对象的数据,生成在所述访问窗口到期时使得删除所述数据对象的指令。/n

【技术特征摘要】
【国外来华专利技术】20170502 GR 20170100197;20170606 US 15/614,8711.一种计算机实施的方法,其特征在于,包括:
由一个或多个服务器计算机,聚合描述对被存储在存储环境中的数据对象的访问的数据;
由所述一个或多个服务器计算机,确定与所述存储环境中的多个数据对象中的每个数据对象相关联的未来存储成本;
由所述一个或多个服务器计算机,确定所述存储环境中的所述多个数据对象中的每个数据对象的访问窗口,每个访问窗口在未来具有相应的到期日期;
由所述一个或多个服务器计算机,识别一个或多个第一数据对象,所述第一数据对象中的每个第一数据对象是所确定的未来存储成本满足预定的未来存储成本阈值的数据对象;
对于每个所识别的第一个数据对象:
由所述一个或多个服务器计算机,向用户设备提供通知,所述通知请求来自用户的反馈,所述反馈指示在所述访问窗口到期之后是否可以删除所述数据对象;
由所述一个或多个服务器计算机,从所述用户设备接收指示在所述访问窗口到期之后是否可以删除所述数据对象的数据;以及
响应于从所述用户设备接收到指示在所述访问窗口到期之后可以删除所述数据对象的数据,生成在所述访问窗口到期时使得删除所述数据对象的指令。


2.根据权利要求1所述的计算机实施的方法,其特征在于,所述方法还包括:
响应于从所述用户设备接收到指示在所述访问窗口到期之后可以删除所述数据对象的数据,生成指示所述存储环境标记在所述访问窗口到期时删除的所述数据对象的指令。


3.根据权利要求1所述的计算机实施的方法,其特征在于,所述方法还包括:
响应于从所述用户设备接收到指示在所述访问窗口到期之后不可以删除所述数据对象的数据,调整被用来确定所述访问窗口的启发法。


4.根据权利要求1所述的计算机实施的方法,其特征在于,由所述一个或多个服务器计算机,聚合描述对被存储在所述存储环境中的所述数据对象的访问的数据,包括:
由所述一个或多个服务器计算机,从由所述存储环境所维护的一个或多个审计日志获得审计日志数据记录,其中每个审计日志数据记录包括(i)识别所访问的数据对象的数据,和(ii)指示何时发生了对所述数据对象的所述访问的时间戳的数据;以及
由所述一个或多个服务器计算机,将所获得的所述审计日志数据记录存储在数据库中。


5.根据权利要求4所述的计算机实施的方法,其特征在于,由所述一个或多个服务器计算机,确定所述存储环境中的所述多个数据对象中的每个数据对象的访问窗口,包括:
由所述一个或多个服务器计算机,分析所述数据库中的所述审计日志数据,以确定可能访问所述数据对象的时间段。


6.根据权利要求1所述的计算机实施的方法,其特征在于,由所述一个或多个服务器计算机,确定与所述存储环境中的所述多个数据对象中的每个数据对象相关联的未来存储成本,包括:
使用一个或多个启发法,基于所预测的未来存储价格贬值来估计所述数据对象的所述潜在未来存储成本。


7.根据权利要求1所述的计算机实施的方法,其特征在于,还包括:
由所述一个或多个服务器计算机,基于(i)可以为每个相应的数据对象回收的所述未来存储成本,和(ii)指示是否将在所述访问窗口之外访问每个相应的数据对象的置信度分数,来对所述一个或多个第一数据对象进行分类。


8.一种系统,其特征在于,包括:
一个或多个计算机和存储指令的一个或多个存储设备,当由一个或多个计算机执行时,所述指令可操作为使得所述一个或多个计算机进行操作,所述操作包括:
由一个或多个服务器计算机,聚合描述对被存储在存储环境中的数据对象的访问的数据;
由所述一个或多个服务器计算机,确定与所述存储环境中的多个数据对象中的每个数据对象相关联的未来存储成本;
由所述一个或多个服务器计算机,确定所述存储环境中的所述多个数据对象中的每个数据对象的访问窗口,每个访问窗口在未来具有相应的到期日期;
由所述一个或多个服务器计算机,识别一个或多个第一数据对象,所述第一数据对象中的每个第一数据对象是所确定的未来存储成本满足预定的未来存储成本阈值的数据对象;
对于每个所识别的第一个数据对象:
由所述一个或多个服务器计算机,向用户设备提供通知,所述通知请求来自用户的反馈,所述反馈指示在所述访问窗口到期之后是否可以删除所述数据对象;
由所述一个或多个服务器计算机,从所述用户设备接收指示在所述访问窗口到期之后是否可以删除所述数据对象的数据;以及
响应于从所述用户设备接收到指示在所述访问窗口到期之后可以删除所述数据对象的数据,生成在所述访问窗口到期时使得删除所述数据对象的指令。


9.根据权利要求8所述的系统,其特征在于,所述操作包括:
响应于从所述用户设备接收到指示在所述访问窗口到期之后...

【专利技术属性】
技术研发人员:康斯坦丁诺斯·尼克勒达基斯斯文·科勒王丹瑶萨哈德·萨巴费龙西蒙·泰勒·怀斯大卫·哈乐戴·施耐德
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1