信息检索方法和装置制造方法及图纸

技术编号:37715665 阅读:12 留言:0更新日期:2023-06-02 00:11
本申请提供了一种信息检索方法和装置,属于金融科技(Fintech)领域,该方法包括:将非结构化数据转换为混合向量,非结构化数据包括图片数据、视频数据、音频数据和自然语言中的至少一种,混合向量包括特征向量和该特征向量的属性标签;根据特征向量的属性标签,建立属性分区表并将特征向量存入至属性分区表中的一级标签分区中;根据预设的标签分级条件,对一级标签分区进行逐级分区得到至少一个N级标签分区,并确定存入至N级标签分区下的特征向量,N为取值大于或等于1的正整数;根据各N级标签分区和存入至N级标签分区下的特征向量,构建向量索引文件,并查询与源数据匹配的目标非结构化数据。该技术方案可以提高非结构化数据的查询效率。查询效率。查询效率。

【技术实现步骤摘要】
信息检索方法和装置


[0001]本申请涉及金融科技(Fintech)领域,尤其涉及一种信息检索方法和装置。

技术介绍

[0002]随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变。
[0003]目前,金融科技领域中涉及到海量的非结构化数据,在从海量的非结构化数据中查找目标数据之前,需要先将这些非结构化数据转化为向量形式,然后再构建向量索引文件,基于向量索引文件实现数据的检索。
[0004]但是,这种方式由于非结构化数据的数量级较大,导致构建的索引文件的数量也很大,检索效率低。

技术实现思路

[0005]本申请提供一种信息检索方法和装置,以解决现有技术中非结构化数据转换为向量形式,再构建向量索引文件,由于非结构化数据的数量级较大,导致构建的索引文件的数量也很大,检索效率低的技术问题。
[0006]第一方面,本申请提供信息检索方法,该方法包括:
[0007]将非结构化数据转换为混合向量,所述非结构化数据包括图片数据、视频数据、音频数据和自然语言中的至少一种,所述混合向量包括特征向量和该特征向量的属性标签;
[0008]根据所述特征向量的属性标签,建立属性分区表并将所述特征向量存入至所述属性分区表中的一级标签分区中;
[0009]根据预设的标签分级条件,对所述一级标签分区进行逐级分区得到至少一个N级标签分区,并确定存入至N级标签分区下的特征向量,所述N为取值大于或等于1的正整数;
[0010]根据各N级标签分区和存入至N级标签分区下的特征向量,构建向量索引文件;
[0011]根据所述向量索引文件,查询得到与源数据匹配的目标非结构化数据。
[0012]在一种可能的设计中,所述根据所述特征向量的属性标签,建立属性分区表,包括:
[0013]获取所述特征向量的属性标签的种类数量;
[0014]建立每种属性标签对应的属性分区表并在该属性分区表中建立与该属性标签关联的至少一个一级标签分区。
[0015]在一种可能的设计中,所述根据预设的标签分级条件,对所述一级标签分区进行逐级分区得到至少一个N级标签分区,包括:
[0016]确定所述一级标签分区是否满足预设的标签分级条件;
[0017]若所述一级标签分区满足预设的标签分级条件,则将所述一级标签分区展开得到至少一个下一级标签分区,并确定所述至少一个下一级标签分区中是否存在满足所述标签分级条件的目标标签分区;
[0018]若存在所述目标标签分区,则继续展开所述目标标签分区直至展开得到的下一级标签分区均不满足所述标签分级条件或展开得到的下一级标签分区为所述N级标签分区。
[0019]在一种可能的设计中,确定是否满足标签分级条件,包括:
[0020]获取该标签分区的基准值;
[0021]根据划分至该标签分区下的特征向量的数量和该标签分区的基准值之间的大小,确定该标签分区是否满足所述标签分级条件。
[0022]在一种可能的设计中,所述获取该标签分区的基准值,包括:
[0023]获取为该标签分区配置的时间区间和衰减度,所述时间区间包括上限值和下限值;
[0024]确定在向量检索的响应时间为所述上限值时,该标签分区的特征向量最大数量值;
[0025]确定在向量检索的响应时间为所述下限值时,该标签分区的特征向量最小数量值;
[0026]在所述特征向量最大数量值和特征向量最小数据量值中选取出目标值;
[0027]将所述目标值与所述衰减度相乘,计算得到该标签分区的基准值。
[0028]在一种可能的设计中,所述方法还包括:
[0029]将每一级标签分区中不满足所述标签分级条件的非目标标签分区合并,形成合并分区。
[0030]在一种可能的设计中,所述根据各N级标签分区和存入至N级标签分区下的特征向量,构建向量索引文件,包括:
[0031]根据属性分区表中每个一级标签分区的特征向量,构建该属性分区表中的一级标签分区对应的向量索引文件;
[0032]从至少两个属性分区表中选取出至少一个标签分区,形成多属性标签分区;
[0033]根据所述多属性标签分区中的特征向量,构建多属性标签分区的向量索引文件。
[0034]在一种可能的设计中,所述根据所述向量索引文件,查询得到与源数据匹配的目标非结构化数据,包括:
[0035]获取所述源数据中的标签,所述源数据包括有一个标签;
[0036]根据所述源数据中的标签,从所述向量索引文件中查找出目标索引文件;
[0037]根据所述目标索引文件,查找得到预设数量的目标特征向量,所述目标特征向量与所述源数据的相似度大于预设相似度阈值;
[0038]根据所述目标特征向量,确定与所述源数据匹配的目标非结构化数据。
[0039]在一种可能的设计中,若所述源数据中的标签包括有两个以上,则所述从所述向量索引数据文件中查找出目标索引文件,包括:
[0040]根据源数据中的各个标签,构建正则表达式;
[0041]根据所述正则表达式,从所述向量索引数据文件中查找出目标索引文件。
[0042]在一种可能的设计中,所述方法还包括:
[0043]监测各级标签分区当前时刻的访问流量变化,确定是否存在访问流量变化异常的异常标签分区;
[0044]在存在所述异常标签分区时,根据上一时刻的特征向量和向量索引文件,构建离
线数据分析模型并获取当前时刻的在线特征向量;
[0045]根据所述离线数据分析模型,计算得到各特征维度的基准相似度和所述在线特征向量的相似度,所述特征维度包括图片数据、视频数据、音频数据和自然语言,所述在线特征向量的相似度用于表征在各特征维度下用户团体中的成员整体的最大相似度,所述基准相似度用于确定所述用户团体是否为嫌疑团体;
[0046]确定所述基准相似度与所述在线特征向量的相似度的大小,并在所述在线特征向量的相似度大于或等于所述基准相似度时,根据所述一级标签分区或二级标签分区进行向量检索分析,得到在线分析的粗粒度相似度;
[0047]确定所述粗粒度相似度与所述在线特征向量的相似度的大小,并在所述在线特征向量的相似度大于或等于所述粗粒度相似度时,实时构建所述异常标签分区的索引文件。
[0048]在一种可能的设计中,所述方法还包括:
[0049]根据所述异常标签分区的索引文件,对所述用户团体进行各特征维度的相似检索,得到精准相似度;
[0050]根据所述精准相似度与所述基准相似度的大小,确定所述用户团体是否为嫌疑团体。
[0051]第二方面,本申请提供一种信息检索装置,包括:
[0052]数据转化模块,用于将非结构化数据转换为混合向量,所述非结构化数据包括图片数据、视频数据、音频数据和自然语言中的至少一种,所述混合向量包括特征向量和该特征向量的属性标签;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息检索方法,其特征在于,包括:将非结构化数据转换为混合向量,所述非结构化数据包括图片数据、视频数据、音频数据和自然语言中的至少一种,所述混合向量包括特征向量和该特征向量的属性标签;根据所述特征向量的属性标签,建立属性分区表并将所述特征向量存入至所述属性分区表中的一级标签分区中;根据预设的标签分级条件,对所述一级标签分区进行逐级分区得到至少一个N级标签分区,并确定存入至N级标签分区下的特征向量,所述N为取值大于或等于1的正整数;根据各N级标签分区和存入至N级标签分区下的特征向量,构建向量索引文件;根据所述向量索引文件,查询得到与源数据匹配的目标非结构化数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量的属性标签,建立属性分区表,包括:获取所述特征向量的属性标签的种类数量;建立每种属性标签对应的属性分区表并在该属性分区表中建立与该属性标签关联的至少一个一级标签分区。3.根据权利要求1所述的方法,其特征在于,所述根据预设的标签分级条件,对所述一级标签分区进行逐级分区得到至少一个N级标签分区,包括:确定所述一级标签分区是否满足预设的标签分级条件;若所述一级标签分区满足预设的标签分级条件,则将所述一级标签分区展开得到至少一个下一级标签分区,并确定所述至少一个下一级标签分区中是否存在满足所述标签分级条件的目标标签分区;若存在所述目标标签分区,则继续展开所述目标标签分区直至展开得到的下一级标签分区均不满足所述标签分级条件或展开得到的下一级标签分区为所述N级标签分区。4.根据权利要求3所述的方法,其特征在于,确定是否满足标签分级条件,包括:获取该标签分区的基准值;根据划分至该标签分区下的特征向量的数量和该标签分区的基准值之间的大小,确定该标签分区是否满足所述标签分级条件。5.根据权利要求4所述的方法,其特征在于,所述获取该标签分区的基准值,包括:获取为该标签分区配置的时间区间和衰减度,所述时间区间包括上限值和下限值;确定在向量检索的响应时间为所述上限值时,该标签分区的特征向量最大数量值;确定在向量检索的响应时间为所述下限值时,该标签分区的特征向量最小数量值;在所述特征向量最大数量值和特征向量最小数据量值中选取出目标值;将所述目标值与所述衰减度相乘,计算得到该标签分区的基准值。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:将每一级标签分区中不满足所述标签分级条件的非目标标签分区合并,形成合并分区。7.根据权利要求1所述的方法,其特征在于,所述根据各N级标签分区和存入至N级标签分区下的特征向量,构建向量索引文件,包括:根据属性分区表中每个一级标签分区的特征向量,构建该属性分区表中的一级标签分区对应的向量索引文件;
从至少两个属性分区表中选取出至少一个标签分区,形成多属性标签分区;根据所述多属性标签分区中的特征向量,构建多属性标签分区的向量索引文件。8.根据权利要求1

【专利技术属性】
技术研发人员:刘雨刘啸王凯曦韦大平陈政
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1