一种多维数据的低比特量化和搜索方法技术

技术编号：28942337 阅读：24 留言：0更新日期：2021-06-18 21:49

本发明专利技术提出一种将数据量化到2比特或3比特的超低精度，却对近似最近邻(approximate nearest neighbor，简称ann)搜索召回率降低小于1％的方法。本发明专利技术根据数据集的算术平均值和标准差，来确定量化值；通过ann搜索测试结果调整量化值；在ann搜索时进行校正，减小量化对召回率的影响。通过本方法，2比特量化将内存占用压缩为8比特的1/4，但召回率降低小于1％；3比特量化有比2比特更好的精度，可以降低对搜索校正的依赖。

全部详细技术资料下载

【技术实现步骤摘要】
一种多维数据的低比特量化和搜索方法
本专利技术涉及一种多维数据的低比特量化和搜索方法。技术背景传统的数据量化方法，是将单精度浮点数(占用32比特)量化成8比特整数(表示范围0～255)，用0、255分别表示取值范围的下限和上限，并通过上下限确定步长，以此近似的表示一个浮点数。在进行近似最近邻(approximatenearestneighbor，简称ann)搜索时，使用量化后的数据，几乎不会降低搜索结果的召回率；而整数运算一般比浮点运算快，减小数据量也会提高缓存命中率，因此计算速度也有提高。一组128维、1百万条的数据集，占用488MB空间，用8比特量化后变成122MB，可以将数据压缩为原来的1/4。虽然4倍的压缩率已经很高，但对于千万级、亿级的数据量来说，空间占用依然巨大。
技术实现思路
本专利技术提出一种将数据量化到2比特(表示范围0～3)或3比特(表示范围0～7)的超低精度，却对ann搜索召回率降低小于1％的方法。具体实现方法包含如下步骤：S01：根据数据集的算术平均值和标准差，...

【技术保护点】
1.一种多维数据的低比特量化和搜索方法，其特征在于：S01：根据数据集的算术平均值和标准差，确定中值和步长，以此确定分段值，根据数据所处的分段区间得到对应的量化值；S02：使用量化后的值进行ann搜索测试，根据搜索效果调整各分段值，以达到最高召回率的值为最终值；S03：ann搜索校正，减小量化对召回率的影响。/n

【技术特征摘要】
1.一种多维数据的低比特量化和搜索方法，其特征在于：S01：根据数据集的算术平均值和标准差，确定中值和步长，以此确定分段值，根据数据所处的分段区间得到对应的量化值；S02：使用量化后的值进行ann搜索测试，根据搜索效果调整各分段值，以达到最高召回率的值为最终值；S03：ann搜索校正，减小量化对召回率的影响。

2.根据权利要求1所述的计算分段值的方法，其特征在于：S04：计算数据集的算术平均值o和标准差a，选取o为分段的中值，选取a为步长，2比特量化用的三个分段值分别为o-a、o、o+a；3比特量化时步长为a/2即可。

<...

【专利技术属性】
技术研发人员：何文松，
申请(专利权)人：何文松，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人