当前位置: 首页 > 专利查询>何文松专利>正文

一种多维数据的低比特量化和搜索方法技术

技术编号:28942337 阅读:24 留言:0更新日期:2021-06-18 21:49
本发明专利技术提出一种将数据量化到2比特或3比特的超低精度,却对近似最近邻(approximate nearest neighbor,简称ann)搜索召回率降低小于1%的方法。本发明专利技术根据数据集的算术平均值和标准差,来确定量化值;通过ann搜索测试结果调整量化值;在ann搜索时进行校正,减小量化对召回率的影响。通过本方法,2比特量化将内存占用压缩为8比特的1/4,但召回率降低小于1%;3比特量化有比2比特更好的精度,可以降低对搜索校正的依赖。

【技术实现步骤摘要】
一种多维数据的低比特量化和搜索方法
本专利技术涉及一种多维数据的低比特量化和搜索方法。技术背景传统的数据量化方法,是将单精度浮点数(占用32比特)量化成8比特整数(表示范围0~255),用0、255分别表示取值范围的下限和上限,并通过上下限确定步长,以此近似的表示一个浮点数。在进行近似最近邻(approximatenearestneighbor,简称ann)搜索时,使用量化后的数据,几乎不会降低搜索结果的召回率;而整数运算一般比浮点运算快,减小数据量也会提高缓存命中率,因此计算速度也有提高。一组128维、1百万条的数据集,占用488MB空间,用8比特量化后变成122MB,可以将数据压缩为原来的1/4。虽然4倍的压缩率已经很高,但对于千万级、亿级的数据量来说,空间占用依然巨大。
技术实现思路
本专利技术提出一种将数据量化到2比特(表示范围0~3)或3比特(表示范围0~7)的超低精度,却对ann搜索召回率降低小于1%的方法。具体实现方法包含如下步骤:S01:根据数据集的算术平均值和标准差,确定中值和步长,以此本文档来自技高网...

【技术保护点】
1.一种多维数据的低比特量化和搜索方法,其特征在于:S01:根据数据集的算术平均值和标准差,确定中值和步长,以此确定分段值,根据数据所处的分段区间得到对应的量化值;S02:使用量化后的值进行ann搜索测试,根据搜索效果调整各分段值,以达到最高召回率的值为最终值;S03:ann搜索校正,减小量化对召回率的影响。/n

【技术特征摘要】
1.一种多维数据的低比特量化和搜索方法,其特征在于:S01:根据数据集的算术平均值和标准差,确定中值和步长,以此确定分段值,根据数据所处的分段区间得到对应的量化值;S02:使用量化后的值进行ann搜索测试,根据搜索效果调整各分段值,以达到最高召回率的值为最终值;S03:ann搜索校正,减小量化对召回率的影响。


2.根据权利要求1所述的计算分段值的方法,其特征在于:S04:计算数据集的算术平均值o和标准差a,选取o为分段的中值,选取a为步长,2比特量化用的三个分段值分别为o-a、o、o+a;3比特量化时步长为a/2即可。

<...

【专利技术属性】
技术研发人员:何文松
申请(专利权)人:何文松
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1