【技术实现步骤摘要】
一种多维数据的低比特量化和搜索方法
本专利技术涉及一种多维数据的低比特量化和搜索方法。技术背景传统的数据量化方法,是将单精度浮点数(占用32比特)量化成8比特整数(表示范围0~255),用0、255分别表示取值范围的下限和上限,并通过上下限确定步长,以此近似的表示一个浮点数。在进行近似最近邻(approximatenearestneighbor,简称ann)搜索时,使用量化后的数据,几乎不会降低搜索结果的召回率;而整数运算一般比浮点运算快,减小数据量也会提高缓存命中率,因此计算速度也有提高。一组128维、1百万条的数据集,占用488MB空间,用8比特量化后变成122MB,可以将数据压缩为原来的1/4。虽然4倍的压缩率已经很高,但对于千万级、亿级的数据量来说,空间占用依然巨大。
技术实现思路
本专利技术提出一种将数据量化到2比特(表示范围0~3)或3比特(表示范围0~7)的超低精度,却对ann搜索召回率降低小于1%的方法。具体实现方法包含如下步骤:S01:根据数据集的算术平均值和标准差, ...
【技术保护点】
1.一种多维数据的低比特量化和搜索方法,其特征在于:S01:根据数据集的算术平均值和标准差,确定中值和步长,以此确定分段值,根据数据所处的分段区间得到对应的量化值;S02:使用量化后的值进行ann搜索测试,根据搜索效果调整各分段值,以达到最高召回率的值为最终值;S03:ann搜索校正,减小量化对召回率的影响。/n
【技术特征摘要】
1.一种多维数据的低比特量化和搜索方法,其特征在于:S01:根据数据集的算术平均值和标准差,确定中值和步长,以此确定分段值,根据数据所处的分段区间得到对应的量化值;S02:使用量化后的值进行ann搜索测试,根据搜索效果调整各分段值,以达到最高召回率的值为最终值;S03:ann搜索校正,减小量化对召回率的影响。
2.根据权利要求1所述的计算分段值的方法,其特征在于:S04:计算数据集的算术平均值o和标准差a,选取o为分段的中值,选取a为步长,2比特量化用的三个分段值分别为o-a、o、o+a;3比特量化时步长为a/2即可。
<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。