数据限流方法和装置制造方法及图纸

技术编号:14338808 阅读:67 留言:0更新日期:2017-01-04 11:36
本申请提出一种数据限流方法和装置,该数据限流方法包括:计算接收到的数据的局部敏感哈希值;根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值;根据所述相似值确定是否保存所述数据。本申请可以根据数据的相似程度和差异,去除数据,并可以优先去除相同数据,从而可以使限流后的数据的多样性最大化。

【技术实现步骤摘要】

本申请涉及互联网
,尤其涉及一种数据限流方法和装置
技术介绍
计算机系统间调用,出于各种原因(资源不足、系统压力大等),常常面临需要进行流量限制的情况。现有的限流方案,一般包括两种,随机限流方案和哈希(Hash)方案。其中,随机限流方案通常为纯随机限流,这种方案中,去除和保留的数据,完全随机,无法保证限流数据的多样性。而Hash方案是通过计算得到的Hash值,判断两条数据是否相同,优先去除相同的数据,但对于相似的两条数据却无法区分。
技术实现思路
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种数据限流方法。该方法可以根据数据的相似程度和差异,去除数据,并可以优先去除相同数据,从而可以使限流后的数据的多样性最大化。本申请的第二个目的在于提出一种数据限流装置。为了实现上述目的,本申请第一方面实施例的数据限流方法,包括:计算接收到的数据的局部敏感哈希值;根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值;根据所述相似值确定是否保存所述数据。本申请实施例的数据限流方法,计算接收到的数据的局部敏感哈希值,然后根据上述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算上述数据与至少一条数据的相似值,最后根据上述相似值确定是否保存上述数据,从而可以实现根据数据的相似程度和差异,去除数据,并可以优先去除相同数据,从而可以使限流后的数据的多样性最大化。为了实现上述目的,本申请第二方面实施例的数据限流装置,包括:计算模块,用于计算接收到的数据的局部敏感哈希值,并根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值;确定模块,用于根据所述计算模块计算的相似值确定是否保存所述数据。本申请实施例的数据限流装置,计算模块计算接收到的数据的局部敏感哈希值,并根据上述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算上述数据与至少一条数据的相似值;然后,确定模块根据上述计算模块计算的相似值确定是否保存上述数据,从而可以实现根据数据的相似程度和差异,去除数据,并可以优先去除相同数据,从而可以使限流后的数据的多样性最大化。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请数据限流方法一个实施例的流程图;图2为本申请数据限流方法另一个实施例的流程图;图3为本申请数据限流装置一个实施例的结构示意图;图4为本申请数据限流装置另一个实施例的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1为本申请数据限流方法一个实施例的流程图,本实施例的数据限流方法可以由数据限流装置实现,上述数据限流装置可以设置在上游服务器与下游服务器之间,具体地,上述数据限流装置可以集成在上游服务器或下游服务器中,实现对上游服务器发往下游服务器的数据进行限流的功能。或者,上述数据限流装置也可以设置在一独立的服务器中或者作为一独立的服务器,该独立的服务器位于上游服务器与下游服务器之间,实现对上游服务器发往下游服务器的数据进行限流的功能。如图1所示,该数据限流方法可以包括:步骤101,计算接收到的数据的局部敏感哈希(LocalitySensitiveHashing;以下简称:LSH)值。具体地,上述接收到的数据即为上游服务器发出的数据,数据限流装置接收到上游服务器发出的数据之后,对其进行限流,再发送给下游服务器。步骤102,根据上述数据的LSH值与已保存的至少一条数据的LSH值,计算上述数据与上述至少一条数据的相似值。其中,上述已保存的至少一条数据可以为缓存中已保存的至少一条数据,上述缓存为在上述数据限流装置中或者在包含上述数据限流装置的服务器中开辟的缓存。具体地,根据上述数据的LSH值与已保存的至少一条数据的LSH值,计算上述数据与上述至少一条数据的相似值可以为:计算上述数据的LSH值与上述至少一条数据的LSH值的差异值,并根据上述差异值计算上述数据与上述至少一条数据的相似值。其中,数据限流装置根据上述差异值计算上述数据与上述至少一条数据的相似值可以为:按照式(1)计算上述数据与上述至少一条数据的相似值。Si=-0.06Di+0.90.9,Di<150,Di≥15---(1)]]>其中,Di为上述数据的LSH值与上述至少一条数据的LSH值的差异值;Si为上述数据与上述至少一条数据的相似值,i为整数,i≥1。本实施例中,上述数据的LSH值与上述至少一条数据的LSH值的差异值可以为上述数据的LSH值与上述至少一条数据的LSH值的汉明距离(HammingDistance;以下简称:HD)。步骤103,根据上述相似值确定是否保存上述数据。具体地,数据限流装置根据上述相似值确定是否保存上述数据可以为:数据限流装置根据上述相似值中的最大值和预定的抽样率计算上述数据的通过概率;如果上述通过概率大于或等于预设阈值,则保存上述数据;而如果上述通过概率小于上述预设阈值,则不保存上述数据。其中,上述预设阈值可以在具体实现时,根据实现需求和/或系统性能等自行设定,本实施例对上述预设阈值的大小不作限定,举例来说,该预设阈值可以为50%。具体地,保存上述数据可以为:将上述数据存入上述缓存。进一步地,在保存上述数据之后,数据限流装置还可以将缓存中保存的数据发送给下游服务器,从而实现了对上游服务器发出的数据进行限流后,发送给下游服务器。其中,数据限流装置根据上述相似值中的最大值和预定的抽样率计算上述数据的通过概率可以为:按照式(2)计算上述数据的通过概率。P=1-Max(Si)0.9×L---(2)]]>其中,P为上述数据的通过概率;L为预定的抽样率,例如:L可以为75%;Si为上述数据与上述至少一条数据的相似值,i为整数,i≥1;Max(Si)为上述相似值中的最大值。上述实施例中,数据限流装置计算接收到的数据的LSH值,然后根据上述数据的LSH值与已保存的至少一条数据的LSH值,计算上述数据与至少一条数据的相似值,最后根据上述相似值确定是否保存上述数据,从而可以实现根据数据的相似程度和差异,去除数据,并可以优先去除相同数据,从而可以使限流后的数据的多样性最大化。下面以电商平台交易数据为例对本申请提供的数据限流方法进行说明。假设有一系统,需要对交易数据进行实时抽样检查,并尽可能保留抽样数据的多样性,预定的抽样率为75%,即需要限流去除25%的流量。假设按序号顺序,交易数据如表1所示。表1从表1中可以看出,1号和4号数据完全一样,基于表1中的交易数据,8条数据,预定本文档来自技高网...
数据限流方法和装置

【技术保护点】
一种数据限流方法,其特征在于,包括:计算接收到的数据的局部敏感哈希值;根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值;根据所述相似值确定是否保存所述数据。

【技术特征摘要】
1.一种数据限流方法,其特征在于,包括:计算接收到的数据的局部敏感哈希值;根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值;根据所述相似值确定是否保存所述数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述数据的局部敏感哈希值与已保存的至少一条数据的局部敏感哈希值,计算所述数据与所述至少一条数据的相似值包括:计算所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的差异值;根据所述差异值计算所述数据与所述至少一条数据的相似值。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述相似值确定是否保存所述数据包括:根据所述相似值中的最大值和预定的抽样率计算所述数据的通过概率;如果所述通过概率大于或等于预设阈值,则保存所述数据。4.根据权利要求2所述的方法,其特征在于,所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈希值的差异值包括所述数据的局部敏感哈希值与所述至少一条数据的局部敏感哈...

【专利技术属性】
技术研发人员:胡四海
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1