相似度确定模型处理方法、目标对象搜索方法和装置制造方法及图纸

技术编号：39281476 阅读：6 留言：0更新日期：2023-11-07 10:55

本申请涉及一种相似度确定模型处理方法、目标对象搜索方法和装置。所述方法涉及人工智能，包括：根据初始相似度确定模型的编码层，对基于待筛选数据序列确定的各离散字符采样序列样本进行非线性变换处理和降维处理，获得降维后的各数据特征向量，基于初始相似度确定模型的解码层，对降维后的各数据特征向量进行数据重构处理，获得重建数据序列。根据各离散字符采样序列样本和各数据特征向量确定压缩损失值、根据离散字符采样序列样本和重建数据序列确定重建损失值，在根据压缩损失值和重建损失值确定的融合损失值满足模型训练结束条件时，获得训练好的相似度确定模型。采用本方法能够提升根据训练好的相似度确定模型进行相似性搜索的准确度。似性搜索的准确度。似性搜索的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
相似度确定模型处理方法、目标对象搜索方法和装置

[0001]本申请涉及人工智能
，特别是涉及一种相似度确定模型处理方法、目标对象搜索方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着人工智能技术的发展，以及各类应用程序或网站的广泛使用，在应用过程中，通常需要对与应用程序等关联的大量的数据序列，进行数据序列分析，以在检测到查询或搜索请求时，及时从数据序列集中，确出与查询请求匹配的目标数据序列。其中，相似性搜索则作为数据序列分析的核心处理手段，其目的在于根据距离度量，查找出数据序列集中与给定的查询序列距离最近的数据序列，即得到目标数据序列。
[0003]传统上，通常采用索引的方式，来提高数据序列相似性搜索的速度，即可将数据序列进行汇总表示，并构建数据索引，从而可基于索引进行快速搜索和查询，从索引中确定出与查询序列距离最近的目标数据序列。
[0004]然而，传统上采用的基于索引进行搜索的方式，与应用程序等关联的大量的数据序列集，由于应用过程覆盖面广、数据涉及频率不一，应用过程中采集的数据序列集，仍然存在数据嘈杂以及弱相关的缺陷，进而根据低维度的数据序列的汇总表示所构建的索引，和查询序列之间的相关度仍然较低，导致基于索引获得的查询结果，也存在准确度较低的问题。

技术实现思路

[0005]基于此，有必要针对上述技术问题，提供一种能够提升进行相似性搜索确定的目标对象的准确度的相似度确定模型处理方法、目标对象搜索方法、装置、计算机设备、存储介质和计算机程序产品。r/>[0006]第一方面，本申请提供了一种相似度确定模型处理方法。所述方法包括：
[0007]获取基于待筛选数据序列确定的各离散字符采样序列样本；
[0008]根据初始相似度确定模型的编码层，对各所述离散字符采样序列样本进行非线性变换处理以及降维处理，获得降维后的各数据特征向量；
[0009]基于所述初始相似度确定模型的解码层，对降维后的各所述数据特征向量进行数据重构处理，获得重建数据序列；
[0010]在训练过程中，根据各所述离散字符采样序列样本和降维后的各所述数据特征向量确定压缩损失值，以及根据所述离散字符采样序列样本和所述重建数据序列确定重建损失值，并在根据所述压缩损失值以及所述重建损失值所确定的融合损失值满足模型训练结束条件时，获得训练好的相似度确定模型。
[0011]第二方面，本申请提供了一种目标对象搜索方法。所述方法包括：
[0012]若检测到目标对象搜索请求，获取与所述目标对象搜索请求对应的搜索信息；
[0013]获取候选数据序列集合；
[0014]根据训练好的相似度确定模型，对所述候选数据序列集合中的各候选数据序列进行深度离散化处理，获得深度离散化数据序列，并基于所述深度离散化数据序列进行相似性搜索，确定与所述搜索信息匹配的目标对象；
[0015]其中，所述训练好的相似度确定模型，是在根据各离散字符采样序列样本对初始相似度确定模型的训练过程中，计算得到的融合损失值满足模型训练结束条件时获得的；融合损失值是根据各离散字符采样序列样本和降维后的各数据特征向量确定的压缩损失值、以及根据离散字符采样序列样本和重建数据序列确定的重建损失值，确定得到的；降维后的各所述数据特征向量是根据初始相似度确定模型的编码层，对各所述离散字符采样序列样本进行非线性变换处理以及降维处理获得的，所述重建数据序列是基于所述初始相似度确定模型的解码层，对降维后的各所述数据特征向量进行数据重构处理获得的。
[0016]在一个实施例中，基于所述深度离散化数据序列进行相似性搜索，确定与所述搜索信息匹配的目标对象，包括：
[0017]根据各所述深度离散化数据序列，构建数据序列离散化索引；
[0018]基于所述数据序列离散化索引，进行相似性搜索，确定与所述搜索信息匹配的目标对象。
[0019]第三方面，本申请还提供了一种相似度确定模型处理装置。所述装置包括：
[0020]离散字符采样序列样本获取模块，用于获取基于待筛选数据序列确定的各离散字符采样序列样本；
[0021]降维处理模块，用于根据初始相似度确定模型的编码层，对各所述离散字符采样序列样本进行非线性变换处理以及降维处理，获得降维后的各数据特征向量；
[0022]数据重构处理模块，用于基于所述初始相似度确定模型的解码层，对降维后的各所述数据特征向量进行数据重构处理，获得重建数据序列；
[0023]相似度确定模型获得模块，用于在训练过程中，根据各所述离散字符采样序列样本和降维后的各所述数据特征向量确定压缩损失值，以及根据所述离散字符采样序列样本和所述重建数据序列确定重建损失值，并在根据所述压缩损失值以及所述重建损失值所确定的融合损失值满足模型训练结束条件时，获得训练好的相似度确定模型。
[0024]第四方面，本申请还提供了一种目标对象搜索装置。所述装置包括：
[0025]搜索信息获取模块，用于若检测到目标对象搜索请求，获取与所述目标对象搜索请求对应的搜索信息；
[0026]候选数据序列集合获取模块，用于获取候选数据序列集合；
[0027]目标对象确定模块，用于根据训练好的相似度确定模型，对所述候选数据序列集合中的各候选数据序列进行深度离散化处理，获得深度离散化数据序列，并基于所述深度离散化数据序列进行相似性搜索，确定与所述搜索信息匹配的目标对象；其中，所述训练好的相似度确定模型，是在根据各离散字符采样序列样本对初始相似度确定模型的训练过程中，计算得到的融合损失值满足模型训练结束条件时获得的；融合损失值是根据各离散字符采样序列样本和降维后的各数据特征向量确定的压缩损失值、以及根据离散字符采样序列样本和重建数据序列确定的重建损失值，确定得到的；降维后的各所述数据特征向量是根据初始相似度确定模型的编码层，对各所述离散字符采样序列样本进行非线性变换处理以及降维处理获得的，所述重建数据序列是基于所述初始相似度确定模型的解码层，对降
维后的各所述数据特征向量进行数据重构处理获得的。
[0028]第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行计算机程序时实现上述第一方面或其各实现方式中的方法。
[0029]第六方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行计算机程序时实现上述第二方面或其各实现方式中的方法。
[0030]第七方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面或其各实现方式中的方法。
[0031]第八方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第二方面或其各实现方式中的方法。
[0032]第九方面，本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种相似度确定模型处理方法，其特征在于，所述方法包括：获取基于待筛选数据序列确定的各离散字符采样序列样本；根据初始相似度确定模型的编码层，对各所述离散字符采样序列样本进行非线性变换处理以及降维处理，获得降维后的各数据特征向量；基于所述初始相似度确定模型的解码层，对降维后的各所述数据特征向量进行数据重构处理，获得重建数据序列；在训练过程中，根据各所述离散字符采样序列样本和降维后的各所述数据特征向量确定压缩损失值，以及根据所述离散字符采样序列样本和所述重建数据序列确定重建损失值，并在根据所述压缩损失值以及所述重建损失值所确定的融合损失值满足模型训练结束条件时，获得训练好的相似度确定模型。2.根据权利要求1所述的方法，其特征在于，所述编码层包括非线性变换层和降维处理层；所述根据初始相似度确定模型的编码层，对各所述离散字符采样序列样本进行非线性变换处理以及降维处理，获得降维后的各数据特征向量，包括：根据所述非线性变换层对各所述离散字符采样序列样本进行非线性变换处理，获得与各所述离散字符采样序列样本对应的序列数据特征；基于所述降维处理层，按照序列平方和不变处理逻辑对所述序列对各所述序列数据特征进行降维处理，获得降维后的各数据特征向量。3.根据权利要求2所述的方法，其特征在于，所述非线性变换层包括多层残差块，每一所述残差块包括多个归一化层、非线性激活层以及卷积层的叠加结构；所述根据所述非线性变换层对各所述离散字符采样序列样本进行非线性变换处理，获得与各所述离散字符采样序列样本对应的序列数据特征，包括：对各所述离散字符采样序列样本进行特征编码处理，获得初始数据特征；根据所述多层残差块中的每一所述残差块对所述初始数据特征进行残差映射处理，获得残差映射数据，并将所述残差映射数据和所述初始数据特征叠加，获得中间数据特征；对所述中间数据特征，进行归一化处理、非线性拟合处理以及池化处理，获得序列数据特征。4.根据权利要求2所述的方法，其特征在于，所述降维处理层包括多个全连接层、非线性激活层以及目标归一化层；所述基于所述降维处理层，按照序列平方和不变处理逻辑对所述序列对各所述序列数据特征进行降维处理，获得降维后的各数据特征向量，包括：通过所述全连接层和所述非线性激活层，对所述序列数据特征进行向量转化处理和非线性变换处理，获得序列特征向量；基于所述目标归一化层，按照序列平方和不变处理逻辑对各所述序列特征向量进行降维处理，获得降维后的各数据特征向量。5.根据权利要求4所述的方法，其特征在于，所述基于所述目标归一化层，按照序列平方和不变处理逻辑对各所述序列特征向量进行降维处理，获得降维后的各数据特征向量，包括：获取与所述序列平方和不变处理逻辑对应的预设平方和矩阵；基于所述预设平方和矩阵，确定与各所述序列特征向量对应的行数据和列数据；根据各所述序列特征向量对应的行数据和列数据，确定与各所述序列特征向量对应的
平方和；基于所述目标归一化层对各所述序列特征向量进行标准化处理，并按照序列平方和不变处理逻辑，对标准化后的所述序列特征向量进行序列缩放和降维处理，获得降维后的各数据特征向量。6.根据权利要求1所述的方法，其特征在于，所述基于所述初始相似度确定模型的解码层，对降维后的各所述数据特征向量进行数据重构处理，获得重建数据序列，包括：基于所述初始相似度确定模型的解码层，对降维后的所述数据特征向量进行向量转化处理和非线性变换处理，获得重建数据序列特征向量；对所述重建数据序列特征向量进行特征编码处理，获得初始重建数据序列特征；基于所述初始重建数据序列特征进行残差映射处理和数据特征叠加处理，获得中间重建数据特征；对所述中间重建数据特征，进行归一化处理、非线性拟合处理以及池化处理，获得重建数据序列特征；基于所述重建数据序列特征进行多层线性处理和归一化处理，获得重建数据序列。7.根据权利要求1至6任意一项所述的方法，其特征在于，根据各所述离散字符采样序列样本和降维后的各所述数据特征向量确定压缩损失值，包括：根据任意两个所述离散字符采样序列样本构建得到原始数据序列对，并确定所述原始数据序列对之间的第一成对距离；基于降维后的各所述数据特征向量随机构建离散数据对，并确定所述离散数据对之间的第二成对距离；获取所述离散字符采样序列样本的样本数量、以及降维后的各所述数据特征向量的向量数量；根据所述样本数量对所述第一成对距离进行序列缩放处理，获得第一缩放成对距离，以及根据所述向量数量对所述第二成对距离进行序列缩放处理，获得第二缩放成对距离；获取所述原始数据序列对的序列对数量，并根据所述序列对数量、各所述第一缩放成对距离、以及各所述第二缩放成对距离，确定压缩损失值。8.根据权利要求1至6任意一项所述的方法，其特征在于，根据所述离散字符采样序列样本和所述重建数据序列确定重建损失值，包...

【专利技术属性】
技术研发人员：石志林，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人