【技术实现步骤摘要】
信息检索方法和装置
[0001]本申请涉及金融科技(Fintech)领域,尤其涉及一种信息检索方法和装置。
技术介绍
[0002]随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变。
[0003]目前,金融科技领域中涉及到海量的非结构化数据,在从海量的非结构化数据中查找目标数据之前,需要先将这些非结构化数据转化为向量形式,然后再构建向量索引文件,基于向量索引文件实现数据的检索。
[0004]但是,这种方式由于非结构化数据的数量级较大,导致构建的索引文件的数量也很大,检索效率低。
技术实现思路
[0005]本申请提供一种信息检索方法和装置,以解决现有技术中非结构化数据转换为向量形式,再构建向量索引文件,由于非结构化数据的数量级较大,导致构建的索引文件的数量也很大,检索效率低的技术问题。
[0006]第一方面,本申请提供信息检索方法,该方法包括:
[0007]将非结构化数据转换为混合向量,所述非结构化数据包括图片数据、视频数据、音频数据和自然语言中的至少一种,所述混合向量包括特征向量和该特征向量的属性标签;
[0008]根据所述特征向量的属性标签,建立属性分区表并将所述特征向量存入至所述属性分区表中的一级标签分区中;
[0009]根据预设的标签分级条件,对所述一级标签分区进行逐级分区得到至少一个N级标签分区,并确定存入至N级标签分区下的特征向量,所述N为取值大于或等于1的正整数;
[0010]根据各 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种信息检索方法,其特征在于,包括:将非结构化数据转换为混合向量,所述非结构化数据包括图片数据、视频数据、音频数据和自然语言中的至少一种,所述混合向量包括特征向量和该特征向量的属性标签;根据所述特征向量的属性标签,建立属性分区表并将所述特征向量存入至所述属性分区表中的一级标签分区中;根据预设的标签分级条件,对所述一级标签分区进行逐级分区得到至少一个N级标签分区,并确定存入至N级标签分区下的特征向量,所述N为取值大于或等于1的正整数;根据各N级标签分区和存入至N级标签分区下的特征向量,构建向量索引文件;根据所述向量索引文件,查询得到与源数据匹配的目标非结构化数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量的属性标签,建立属性分区表,包括:获取所述特征向量的属性标签的种类数量;建立每种属性标签对应的属性分区表并在该属性分区表中建立与该属性标签关联的至少一个一级标签分区。3.根据权利要求1所述的方法,其特征在于,所述根据预设的标签分级条件,对所述一级标签分区进行逐级分区得到至少一个N级标签分区,包括:确定所述一级标签分区是否满足预设的标签分级条件;若所述一级标签分区满足预设的标签分级条件,则将所述一级标签分区展开得到至少一个下一级标签分区,并确定所述至少一个下一级标签分区中是否存在满足所述标签分级条件的目标标签分区;若存在所述目标标签分区,则继续展开所述目标标签分区直至展开得到的下一级标签分区均不满足所述标签分级条件或展开得到的下一级标签分区为所述N级标签分区。4.根据权利要求3所述的方法,其特征在于,确定是否满足标签分级条件,包括:获取该标签分区的基准值;根据划分至该标签分区下的特征向量的数量和该标签分区的基准值之间的大小,确定该标签分区是否满足所述标签分级条件。5.根据权利要求4所述的方法,其特征在于,所述获取该标签分区的基准值,包括:获取为该标签分区配置的时间区间和衰减度,所述时间区间包括上限值和下限值;确定在向量检索的响应时间为所述上限值时,该标签分区的特征向量最大数量值;确定在向量检索的响应时间为所述下限值时,该标签分区的特征向量最小数量值;在所述特征向量最大数量值和特征向量最小数据量值中选取出目标值;将所述目标值与所述衰减度相乘,计算得到该标签分区的基准值。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:将每一级标签分区中不满足所述标签分级条件的非目标标签分区合并,形成合并分区。7.根据权利要求1所述的方法,其特征在于,所述根据各N级标签分区和存入至N级标签分区下的特征向量,构建向量索引文件,包括:根据属性分区表中每个一级标签分区的特征向量,构建该属性分区表中的一级标签分区对应的向量索引文件;
从至少两个属性分区表中选取出至少一个标签分区,形成多属性标签分区;根据所述多属性标签分区中的特征向量,构建多属性标签分区的向量索引文件。8.根据权利要求1
‑
技术研发人员:刘雨,刘啸,王凯曦,韦大平,陈政,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。