算法比赛关联性预测方法、装置、设备及介质制造方法及图纸

技术编号：30448137 阅读：15 留言：0更新日期：2021-10-24 18:42

本发明专利技术涉及人工智能领域，提供一种算法比赛关联性预测方法、装置、设备及介质，能够在按照比例拆分后，利用每个字的相似字替换每个第一子集中对应的字，将每个第二子集中的字替换为随机字，及将每个第三子集中的字替换为掩码，利用替换后的所述第二样本集训练BERT模型，得到预测模型，采用屏蔽及替换的方法进行完形填空式的训练，由于屏蔽及替换的方式更加符合中文特征，替换方式多样，有效提升了训练效果，使训练得到的预测模型能够适用于中文场景，进而基于改进的模型实现对数据间关联性的准确预测，由于模型的训练方式更加符合中文特征，因此预测的准确率也更高。此外，本发明专利技术还涉及区块链技术，预测模型可存储于区块链节点中。中。中。

全部详细技术资料下载

【技术实现步骤摘要】
算法比赛关联性预测方法、装置、设备及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种算法比赛关联性预测方法、装置、设备及介质。

技术介绍

[0002]随着人工智能技术的不断发展，经常有算法比赛举办，但是各场比赛大同小异。
[0003]因此，举办方为了避免出现相似比赛，通常需要人工进行相似比赛的搜索及判定，不仅耗费人力，且效率较低。参赛选手为了吸取以往类似比赛的经验，也常常需要进行相似比赛的检索。
[0004]但是，现有技术中在判断算法比赛间的关联性时，通常需要人工进行处理，不仅容易产生错误，且效率较低。在利用模型进行关联性预测时，由于现有的模型大多适用于字符形式的文本，对中文场景预测的准确率也不高。

技术实现思路

[0005]本专利技术实施例提供了一种算法比赛关联性预测方法、装置、设备及介质，能够基于改进的模型实现对数据间关联性的准确预测，由于模型的训练方式更加符合中文特征，因此预测的准确率也更高。
[0006]第一方面，本专利技术实施例提供了一种算法比赛关联性预测方法，其包括：获取历史算法比赛数据，并对所述历史算法比赛数据进行标注处理，得到第一样本集；对所述第一样本集中的每个样本进行分词处理，得到第二样本集；对于所述第二样本集中的每个第二样本，从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集；按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分，得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第...

【技术保护点】

【技术特征摘要】
1.一种算法比赛关联性预测方法，其特征在于，包括：获取历史算法比赛数据，并对所述历史算法比赛数据进行标注处理，得到第一样本集；对所述第一样本集中的每个样本进行分词处理，得到第二样本集；对于所述第二样本集中的每个第二样本，从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集；按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分，得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集；确定每个第一子集中每个字的相似字，并利用每个字的相似字替换每个第一子集中对应的字，将每个第二子集中的字替换为随机字，及将每个第三子集中的字替换为掩码；利用替换后的所述第二样本集训练BERT模型，得到预测模型；当接收到待预测数据时，将所述待预测数据输入至所述预测模型，并获取所述预测模型的输出数据；根据所述输出数据计算所述待预测数据中数据间的关联性。2.根据权利要求1所述的算法比赛关联性预测方法，其特征在于，所述对所述第一样本集中的每个样本进行分词处理，得到第二样本集包括：获取预先构建的词典，并根据所述词典构建分词模型；利用所述分词模型对每个样本进行分词处理，得到候选词；利用所述候选词构建有向无环图；对于所述有向无环图中的登录词，基于动态规划算法查找所述有向无环图的最大概率路径，得到基于词频的切分组合，并利用所述切分组合对所述登录词进行切分，得到第一分词结果；对于所述有向无环图中的未登录词，采用HMM算法及Viterbi 算法对所述未登录词进行规划，得到第二分词结果；根据所述第一分词结果及所述第二分词结果生成每个样本的分词；整合每个样本的分词，得到所述第二样本集。3.根据权利要求1所述的算法比赛关联性预测方法，其特征在于，所述确定每个第一子集中每个字的相似字包括：启动WordNet接口；将每个第一子集中的每个字通过所述WordNet接口传输至WordNet词典；在所述WordNet词典中查询每个字，得到候选字集；当接收到通过所述WordNet接口返回的所述候选字集时，从所述候选字集中随机获取任意字作为对应的每个字的相似字。4.根据权利要求1所述的算法比赛关联性预测方法，其特征在于，所述利用替换后的所述第二样本集训练BERT模型，得到预测模型包括：确定所述第二样本集中每个第二样本的标注及替换前的形式；将每个第二样本的标注及替换前的形式确定为训练目标训练所述BERT模型；当所述BERT模型达到收敛时，停止训练；将收敛时得到的模型确定为所述预测模型。
5.根据权利要求1所述的算法比赛关联性预测方法，其特征在于，在得到所述预测模型后，所述方法还包括：从所述第二样本集中获取真正例、真负例、假正例及假负例；将所述真正例的样本量确定为第一样本量，将所述真负例的样本量确定为第二样本量，将所述假正例的样本量确定为第三样...

【专利技术属性】
技术研发人员：陈宇，张莉，姜敏华，张茜，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人