一种确定目标模型的方法、装置、存储介质及设备制造方法及图纸

技术编号：37768635 阅读：11 留言：0更新日期：2023-06-06 13:31

本说明书公开了一种确定目标模型的方法、装置、存储介质及设备，通过获取结构不完全相同的各待定模型构建强化学习的搜索空间，并将从搜索空间中确定作为目标模型的待定模型的操作作为动作，根据执行该动作后得到的目标模型的结构确定状态。并且可通过训练得到的目标模型输出训练样本的预测结果，以根据预测结果确定奖励值。之后则可继续根据搜索空间中剩余的待定模型重新确定作为目标模型的待定模型，并训练重新得到的目标模型以重新确定奖励值。可根据重新确定的奖励值与历史确定的奖励值中，最高的奖励值对应的目标模型的结构更新状态，直至遍历各待定模型为止，根据最终确定出的状态，确定出最优的目标模型的结构。确定出最优的目标模型的结构。确定出最优的目标模型的结构。

全部详细技术资料下载

【技术实现步骤摘要】
一种确定目标模型的方法、装置、存储介质及设备

[0001]本说明书涉及机器学习
，尤其涉及一种确定目标模型的方法、装置、存储介质及设备。

技术介绍

[0002]机器学习模型的结构对训练得到的机器学习模型性能有极大的影响。因此，合理确定机器学习模型的结构，以训练得到用于执行指定任务的目标模型，为机器学习领域的热点问题。
[0003]为了得到合理的目标模型，本说明书提供了一种确定目标模型的方法。

技术实现思路

[0004]本说明书提供一种确定目标模型的方法、装置、存储介质及设备，以至少部分的解决上述存在的问题。
[0005]本说明书采用下述技术方案：
[0006]本说明书提供了一种确定目标模型的方法，包括：
[0007]获取预先确定的结构不完全相同的各待定模型，构建强化学习的搜索空间；
[0008]将从所述搜索空间中确定作为目标模型的待定模型的操作，作为动作，并根据执行所述动作后得到的所述目标模型的结构，确定状态；
[0009]获取训练样本及所述训练样本的标注，以对所述目标模型进行训练，并通过训练得到的所述目标模型，输出所述训练样本的预测结果，以根据所述预测结果确定奖励值；
[0010]继续根据所述搜索空间中剩余的待定模型，重新确定作为目标模型的待定模型，并训练重新得到的所述目标模型，以重新确定奖励值；
[0011]根据重新确定的奖励值与历史确定的奖励值中，最高的奖励值对应的所述目标模型的结构，更新所述状态，直至遍历所述各待定模型为止，...

【技术保护点】

【技术特征摘要】
1.一种确定目标模型的方法，其特征在于，包括：获取预先确定的结构不完全相同的各待定模型，构建强化学习的搜索空间；将从所述搜索空间中确定作为目标模型的待定模型的操作，作为动作，并根据执行所述动作后得到的所述目标模型的结构，确定状态；获取训练样本及所述训练样本的标注，以对所述目标模型进行训练，并通过训练得到的所述目标模型，输出所述训练样本的预测结果，以根据所述预测结果确定奖励值；继续根据所述搜索空间中剩余的待定模型，重新确定作为目标模型的待定模型，并训练重新得到的所述目标模型，以重新确定奖励值；根据重新确定的奖励值与历史确定的奖励值中，最高的奖励值对应的所述目标模型的结构，更新所述状态，直至遍历所述各待定模型为止，根据最终确定出的状态，确定所述目标模型的结构。2.如权利要求1所述的方法，其特征在于，所述各待定模型为命名实体识别模型；获取训练样本及所述训练样本的标注，以对所述目标模型进行训练，具体包括：获取文本，并将所述文本拆分为各语句；针对每个语句，将该语句作为一个训练样本，并将该语句中各实体的标注，作为所述训练样本的标注；针对每个训练样本，将该训练样本输入所述目标模型，得到所述目标模型输出的预测结果；根据该训练样本的标注与所述预测结果的差异，确定该训练样本的损失；根据各训练样本的损失，对所述目标模型进行训练。3.如权利要求1所述的方法，其特征在于，所述各待定模型为命名实体识别模型；所述训练样本为语句；所述各待定模型皆由第一模块以及第二模块构成；所述第一模块包括位置编码模块以及语义编码模块；通过训练得到的所述目标模型，输出所述训练样本的预测结果，以根据所述预测结果确定奖励值，具体包括：确定所述训练样本的各词元；将所述各词元输入训练得到的所述目标模型的语义编码模块，确定所述训练样本的嵌入编码；根据所述训练样本中各词元在所述训练样本中的位置，确定所述训练样本中各词元的位置索引值，并将所述训练样本的各位置索引值输入所述位置编码模块，得到所述训练样本的位置编码；根据所述嵌入编码以及所述位置编码，确定所述训练样本的输入编码，并将所述输入编码输入所述目标模型的第二模块；将所述第二模块输出的所述训练样本中各字符属于预设的各标签类型的分值，作为预测结果，并根据所述预测结果确定奖励值。4.如权利要求3所述的方法，其特征在于，所述各待定模型对输入数据的位置编码方式不同；所述各待定模型至少包括：字符位置编码的待定模型、字词统一位置编码的待定模型、字与词分别位置编码的待定模型、字与字词分别位置编码的待定模型、字词与字分别位置编码的待定模型，以及字词与词分别位置编码的待定模型中的部分；
当作为所述目标模型的待定模型为字与词分别位置编码的待定模型时，所述语义编码模块包括第一语义模块以及第二语义模块，所述位置编码模块包括第一位置模块以及第二位置模块；当作为所述目标模型的待定模型为字与字词分别位置编码的待定模型时，所述语义编码模块包括第三语义模块以及第四语义模块，所述位置编码模块包括第三位置模块以及第四位置模块；当作为所述目标模型的待定模型为字词与字分别位置编码的待定模型时，所述语义编码模块包括第五语义模块以及第六语义模块，所述位置编码模块包括第五位置模块以及第六位置模块；当作为所述目标模型的待定模型为字词与词分别位置编码的待定模型时，所述语义编码模块包括第七语义模块以及第八语义模块，所述位置编码模块包括第七位置模块以及第八位置模块。5.如权利要求4所述的方法，其特征在于，确定所述训练样本的各词元，具体包括：当作为所述目标模型的待定模型为字符位置编码的待定模型时，将所述训练样本以字符为单位切分，得到所述训练样本的各字符词元，作为所述训练样本的各词元；当作为所述目标模型的待定模型为任意剩余的待定模型时，将所述训练样本以字符为单位切分，得到所述训练样本的各字符词元，并将所述训练样本以词汇为单位切分，得到所述训练样本的各词汇词元，以将所述训练样本的各字符词元以及各词汇词元，作为所述训练样本的各词元。6.如权利要求5所述的方法，其特征在于，将所述各词元输入训练得到的所述目标模型的语义编码模块，确定所述训练样本的嵌入编码，具体包括：当作为所述目标模型的待定模型为字符位置编码的待定模型时，将所述训练样本的各字符词元输入训练得到的所述目标模型的语义编码模块，得到所述各字符词元对应的嵌入编码，作为所述训练样本的嵌入编码；当作为所述目标模型的待定模型为字词统一位置编码的待定模型时，将所述训练样本的各词汇词元输入训练得到的所述目标模型的语义编码模块，得到所述各词汇词元对应的嵌入编码，作为所述训练样本的嵌入编码；当作为所述目标模型的待定模型为字与词分别位置编码的待定模型时，将所述训练样本的各字符词元作为第一词元组输入所述第一语义模块，得到所述训练样本的第一嵌入编码，并将所述训练样本的各词汇词元作为第二词元组输入所述第二语义模块，得到所述训练样本的第二嵌入编码，并将所述第一嵌入编码与所述第二嵌入编码，作为所述训练样本的嵌入编码；当作为所述目标模型的待定模型为字与字词分别位置编码的待定模型时，将所述训练样本的各字符词元作为第三词元组输入所述第三语义模块，得到所述训练样本的第三嵌入编码，并将所述训练样本的各字符词元以及各词汇词元作为第四词元组输入所述第四语义模块，得到所述训练样本的第四嵌入编码，并将所述第三嵌入编码与所述第四嵌入编码，作为所述训练样本的嵌入编码；当作为所述目标模型的待定模型为字词与字分别位置编码的待定模型时，将所述训练样本的各字符词元以及各词汇词元作为第五词元组输入所述第五语义模块，得到所述训练
样本的第五嵌入编码，并将所述训练样本的各字符词元作为第六词元组输入所述第六语义模块，得到所述训练样本的第六嵌入编码，并将所述第五嵌入编码与所述第六嵌入编码，作为所述训练样本的嵌入编码；当作为所述目标模型的待定模型为字词与词分别位置编码的待定模型时，将所述训练样本的各字符词元以及各词汇词元作为第七词元组输入所述第七语义模块，得到所述训练样本的第七嵌入编码，并将所述训练样本的各词汇词元作为第八词元组输入所述第八语义模块，得到所述训练样本的第八嵌入编码，并将所述第七嵌入编码与所述第八嵌入编码，作为所述训练样本的嵌入编码。7.如权利要求6所述的方法，其特征在于，将所述训练样本的各位置索引值输入所述位置编码模块，得到所述训练样本的位置编码，具体包括：当作为所述目标模型的待定模型为字符位置编码的待定模型时，将所述训练样本的各字符词元的位置索引值输入所述位置编码模块，得到所述训练样本的位置编码；当作为所述目标模型的待定模型为字词统一位置编码的待定模型时，将所述训练样本的各词汇词元的位置索引值输入所述位置编码模块，得到所述训练样本的位置编码；当作为所述目标模型的待定模型为字与词分别位置编码的待定模型时，将所述训练样本的第一词元组的位置索引值输入所述第一位置模块，得...

【专利技术属性】
技术研发人员：王宏升，陈光，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人