模型训练方法,模型同步方法和相关装置制造方法及图纸

技术编号:37989999 阅读:21 留言:0更新日期:2023-06-30 10:04
一种模型训练方法包括:从B树索引中获取目标索引节点集合,根据目标索引节点集合中全部目标索引节点的键生成第一字符串组;获取目标索引节点集合中每个键的序号之后,将目标索引节点集合中每个键的序号作为第一字符串组中字符串的标签,根据字符串组和每个字符串的标签进行训练,得到目标学习型索引模型。该目标学习型索引模型可以根据变长键查找键值对。本申请还提供能够实现上述模型训练方法的装置。置。置。

【技术实现步骤摘要】
模型训练方法,模型同步方法和相关装置


[0001]本申请涉及计算机
,尤其涉及一种模型训练方法,模型同步的方法和相关装置。

技术介绍

[0002]索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。在分布式系统中常用的索引包括B树索引和学习型索引等。
[0003]目前有一种分布式学习型索引模型的训练方法大致如下:获取使用B树索引存储的键,每个键的长度都是固定的。对B树中所有叶子节点的键和每个键对应的逻辑地址进行模型训练,得到学习型索引模型。将键输入学习型索引模型之后,该学习型索引模型可以输出该键对应的逻辑地址。
[0004]在实际应用中,很多数据集包括不同长度的键。上述分布式学习型索引不支持变长键索引,因此不能对包括变长键的数据集进行检索。

技术实现思路

[0005]有鉴于此,本申请提供一种模型训练方法,能够根据目标索引节点中不同长度的键训练出学习型索引模型,该学习型索引模型能够根据变长键快速查找键值对。
[0006]第一方面提供一种模型训练方法,该方法包括:本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:从B树索引中获取目标索引节点集合,所述目标索引节点集合包括多个目标索引节点,所述目标索引节点为叶子节点的父节点,所述B树索引包括不同长度的键;根据所述目标索引节点集合中全部目标索引节点的键生成第一字符串组,所述第一字符串组中每个字符串的长度相等;获取目标索引节点集合中每个键的序号;将所述目标索引节点集合中每个键的序号作为所述第一字符串组中字符串的标签,所述键的序号、所述目标索引节点的键和所述字符串一一对应;根据所述第一字符串组和每个字符串的标签进行训练,得到目标学习型索引模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标索引节点集合中全部目标索引节点的键生成第一字符串组包括:根据目标索引节点集合中全部目标索引节点的键获取公共前缀;将每个目标索引节点的键去除公共前缀,得到剩余字符串;从每个剩余字符串的头部提取标识字符串,任意两个标识字符串不同;根据全部标识字符串生成第一字符串组,所述第一字符串组中每个字符串的长度为最长标识字符串的长度。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述B树索引中获取多个目标索引节点集合;从每个目标索引节点集合中选取一个子模型的枢纽键;根据多个子模型的枢纽键生成第二字符串组,所述第二字符串组中每个字符串的长度相等;获取所述子模型的枢纽键对应的子模型序号,所述子模型序号、所述子模型的枢纽键和第二字符串组中的字符串一一对应;根据所述第二字符串组和子模型序号进行训练,得到学习型索引根模型,所述子模型序号为所述第二字符串组中字符串的标签。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:通过远程直接内存访问RDMA接口接收终端发送的操作指令,所述操作指令用于插入键值对或删除键值对;根据所述操作指令更新所述B树索引的叶子节点;当所述B树索引的叶子节点数量发生改变时,获取更新后的叶子节点的枢纽键;将所述枢纽键输入所述学习型索引根模型,以得到目标子模型序号;根据所述目标子模型序号对应的目标索引节点集合进行子模型重训练。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:接收终端发送的RDMA写请求;根据所述RDMA写请求携带的键对所述B树索引的叶子节点进行修改;当修改后的叶子节点包括左叶子节点和右叶子节点时,根据所述左叶子节点的键和所述右叶子节点的键生成目标索引节点的键,所述目标索引节点的键处于所述左叶子节点的最大键与右叶子节点的最小键之间。6.根据权利要求5所述的方法,其特征在于,所述根据所述左叶子节点的键和所述右叶
子节点的键生成目标索引节点的键包括:获取所述左叶子节点的最大键与所述右叶子节点的最小键的公共前缀;获取第一目标字符和第二目标字符,所述第一目标字符为在所述左叶子节点的最大键中位于所述公共前缀之后的第一个字符,所述第二目标字符为在所述右叶子节点的最小键中位于所述公共前缀之后的第一个字符;按照字典序获取处于所述第一目标字符和所述第二目标字符之间的第三目标字符;根据所述公共前缀和所述第三目标字符组成所述目标索引节点的键。7.一种模型同步方法,其特征在于,包括:接收目标指令,所述目标指令为查询指令或扫描指令;当终端存储有学习型索引根模型时,将所述目标指令包括的目标键输入所述学习型索引根模型;根据所述学习型索引根模型输出的子模型序号确定第一学习型索引子模型;将所述目标键输入所述第一学习型索引子模型;根据所述第一学习型索引子模型输出的节点序号确定所述目标键对应的第一校验字段以及所述目标键对应的第一地址;向服务器发送包括所述第一地址的第一远程直接内存访问RDMA读请求;接收所述服务器的网卡发送的所述第一地址对应的数据,所述第一地址对应的数据是所述网卡根据所述第一RDMA读请求获取的,所述第一地址对应的数据包括第二校验字段;将所述第一校验字段与所述第二校验字段进行比较;当所述第一校验字段与所述第二校验字段不同时,根据学习型索引根模型存储地址和所述子模型序号确定第二地址,所述第二地址为第二学习型索引子模型的存储地址;向所述服务器发送包括所述第二地址的第二RDMA读请求;接收所述服务器的网卡发送的第二学习型索引子模型;将所述第一学习型索引子模型更新为第二学习型索引子模型。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:当所述终端没有存储学习型索引根模型时,向所述服务器发送包括第三地址的第三RDMA读请求,所述第三RDMA读请求用于从服务器获取所述学习型索引根模型;接收所述服务器的网卡发送的学习型索引根模型。9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:当所述终端未存储与所述子模型序号对应的学习型索引子模型时,根据学习型索引根模型存储地址和所述子模型序号确定第二地址;向服务器发送包括所述第二地址的第四RDMA读请求;接收所述服务器的网卡发送的第二学习型索引子模型。10.一种模型同步方法,其特征在于,包括:接收终端发送的第一远程直接内存访问RDMA读请求,所述第一RDMA读请求包括第一地址,所述第一RDMA读请求是在所述终端存储有学习型索引根模型和第一学习型索引子模型的情况下发送的;根据所述第一RDMA读请求获取所述第一地址对应的数据,所述第一地址对应的数据包括第二校验字段;
使用网卡向所述终端发送所述第一地址对应的数据;接收所述终端发送的第二RDMA读请求,所述第二RDMA读请求包括第二地址;根据所述第二RDMA读请求从所述第二地址获取第二学习型索引子模型;根据所述第二RDMA读请求获取第二学习型索引子模型;使用网卡向所述终端发送所述第二学习型索引子模型。11.根据权利要求10所述的方法,其特征在于,所述方法还包括:接收终端发送的第三RDMA读请求,所述第三RDMA读请求包括第三地址,所述第三RDMA读请求是在所述终端没有存储学习型索引根模型的情况下发送的;根据所述第三RDMA读请求从所述第三地址获取学习型索引根模型;使用网卡向所述终端发送所述学习型索引根模型。12.根据权利要求10或11所述的方法,其特征在于,所述方法还包括:接收终端发送的第四RDMA读请求,所述第四RDMA读请求包括所述第二地址,所述第四RDMA读请求是在所述终端没有存储第一学习型索引子模型的情况下发送的;根据所述第一学习型索引子模型的序号和所述第二地址获取第二学习型索引子模型;使用网卡向所述终端发送第二学习型索引子模型。13.一种模型训练装置,其特征在于,包括:获取单元,用于从B树索引中获取目标索引节点集合,所述目标索引节点集合包括多个目标索引节点,所述目标索引节点为叶子节点的父节点,所述B树索引包括不同长度的键;转换单元,用于根据所述目标索引节点集合中全部目标索引节点的键生成第一字符串组,所述第一...

【专利技术属性】
技术研发人员:吴刚左鹏飞张双武
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1