算法比赛关联性预测方法、装置、设备及介质制造方法及图纸

技术编号:30448137 阅读:15 留言:0更新日期:2021-10-24 18:42
本发明专利技术涉及人工智能领域,提供一种算法比赛关联性预测方法、装置、设备及介质,能够在按照比例拆分后,利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码,利用替换后的所述第二样本集训练BERT模型,得到预测模型,采用屏蔽及替换的方法进行完形填空式的训练,由于屏蔽及替换的方式更加符合中文特征,替换方式多样,有效提升了训练效果,使训练得到的预测模型能够适用于中文场景,进而基于改进的模型实现对数据间关联性的准确预测,由于模型的训练方式更加符合中文特征,因此预测的准确率也更高。此外,本发明专利技术还涉及区块链技术,预测模型可存储于区块链节点中。中。中。

【技术实现步骤摘要】
算法比赛关联性预测方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种算法比赛关联性预测方法、装置、设备及介质。

技术介绍

[0002]随着人工智能技术的不断发展,经常有算法比赛举办,但是各场比赛大同小异。
[0003]因此,举办方为了避免出现相似比赛,通常需要人工进行相似比赛的搜索及判定,不仅耗费人力,且效率较低。参赛选手为了吸取以往类似比赛的经验,也常常需要进行相似比赛的检索。
[0004]但是,现有技术中在判断算法比赛间的关联性时,通常需要人工进行处理,不仅容易产生错误,且效率较低。在利用模型进行关联性预测时,由于现有的模型大多适用于字符形式的文本,对中文场景预测的准确率也不高。

技术实现思路

[0005]本专利技术实施例提供了一种算法比赛关联性预测方法、装置、设备及介质,能够基于改进的模型实现对数据间关联性的准确预测,由于模型的训练方式更加符合中文特征,因此预测的准确率也更高。
[0006]第一方面,本专利技术实施例提供了一种算法比赛关联性预测方法,其包括:获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集;对所述第一样本集中的每个样本进行分词处理,得到第二样本集;对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集;按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集;确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码;利用替换后的所述第二样本集训练BERT模型,得到预测模型;当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据;根据所述输出数据计算所述待预测数据中数据间的关联性。
[0007]根据本专利技术优选实施例,所述对所述第一样本集中的每个样本进行分词处理,得到第二样本集包括:获取预先构建的词典,并根据所述词典构建分词模型;利用所述分词模型对每个样本进行分词处理,得到候选词;
利用所述候选词构建有向无环图;对于所述有向无环图中的登录词,基于动态规划算法查找所述有向无环图的最大概率路径,得到基于词频的切分组合,并利用所述切分组合对所述登录词进行切分,得到第一分词结果;对于所述有向无环图中的未登录词,采用HMM算法及Viterbi 算法对所述未登录词进行规划,得到第二分词结果;根据所述第一分词结果及所述第二分词结果生成每个样本的分词;整合每个样本的分词,得到所述第二样本集。
[0008]根据本专利技术优选实施例,所述确定每个第一子集中每个字的相似字包括:启动WordNet接口;将每个第一子集中的每个字通过所述WordNet接口传输至WordNet词典;在所述WordNet词典中查询每个字,得到候选字集;当接收到通过所述WordNet接口返回的所述候选字集时,从所述候选字集中随机获取任意字作为对应的每个字的相似字。
[0009]根据本专利技术优选实施例,所述利用替换后的所述第二样本集训练BERT模型,得到预测模型包括:确定所述第二样本集中每个第二样本的标注及替换前的形式;将每个第二样本的标注及替换前的形式确定为训练目标训练所述BERT模型;当所述BERT模型达到收敛时,停止训练;将收敛时得到的模型确定为所述预测模型。
[0010]根据本专利技术优选实施例,在得到所述预测模型后,所述方法还包括:从所述第二样本集中获取真正例、真负例、假正例及假负例;将所述真正例的样本量确定为第一样本量,将所述真负例的样本量确定为第二样本量,将所述假正例的样本量确定为第三样本量,将所述假负例的样本量确定为第四样本量;计算所述第一样本量与所述第二样本量的和作为第一数值;计算所述第一样本量、所述第二样本量、所述第三样本量及所述第四样本量的和作为第二数值;计算所述第一数值与所述第二数值的商作为准确率;当所述准确率大于或者等于配置准确率时,确定所述预测模型通过验证。
[0011]根据本专利技术优选实施例,所述根据所述输出数据计算所述待预测数据中数据间的关联性包括:从所述输出数据中获取所述预测模型在输出层的CLS输出;利用Sigmoid函数处理所述CLS输出,得到概率值;获取预设阈值;当所述概率值大于或者等于所述预设阈值时,确定所述待预测数据中的数据间具有关联性;或者当所述概率值小于所述预设阈值时,确定所述待预测数据中的数据间不具有关联性。
[0012]根据本专利技术优选实施例,在根据所述输出数据计算所述待预测数据中数据间的关联性后,所述方法还包括:获取上传所述待预测数据的用户;当确定所述待预测数据中的数据间具有关联性时,将所述待预测数据传输至所述用户的终端设备;或者当确定所述待预测数据中的数据间不具有关联性时,向所述用户的终端设备发送提示信息,所述提示信息用于提示所述待预测数据中的数据间不具有关联性。
[0013]第二方面,本专利技术实施例提供了一种算法比赛关联性预测装置,其包括:标注单元,用于获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集;分词单元,用于对所述第一样本集中的每个样本进行分词处理,得到第二样本集;构建单元,用于对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集;拆分单元,用于按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集;替换单元,用于确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码;训练单元,用于利用替换后的所述第二样本集训练BERT模型,得到预测模型;输入单元,用于当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据;计算单元,用于根据所述输出数据计算所述待预测数据中数据间的关联性。
[0014]第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的算法比赛关联性预测方法。
[0015]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的算法比赛关联性预测方法。
[0016]本专利技术实施例提供了一种算法比赛关联性预测方法、装置、设备及介质,能够获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集,对所述第一样本集中的每个样本进行分词处理,得到第二样本集,对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种算法比赛关联性预测方法,其特征在于,包括:获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集;对所述第一样本集中的每个样本进行分词处理,得到第二样本集;对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集;按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集;确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码;利用替换后的所述第二样本集训练BERT模型,得到预测模型;当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据;根据所述输出数据计算所述待预测数据中数据间的关联性。2.根据权利要求1所述的算法比赛关联性预测方法,其特征在于,所述对所述第一样本集中的每个样本进行分词处理,得到第二样本集包括:获取预先构建的词典,并根据所述词典构建分词模型;利用所述分词模型对每个样本进行分词处理,得到候选词;利用所述候选词构建有向无环图;对于所述有向无环图中的登录词,基于动态规划算法查找所述有向无环图的最大概率路径,得到基于词频的切分组合,并利用所述切分组合对所述登录词进行切分,得到第一分词结果;对于所述有向无环图中的未登录词,采用HMM算法及Viterbi 算法对所述未登录词进行规划,得到第二分词结果;根据所述第一分词结果及所述第二分词结果生成每个样本的分词;整合每个样本的分词,得到所述第二样本集。3.根据权利要求1所述的算法比赛关联性预测方法,其特征在于,所述确定每个第一子集中每个字的相似字包括:启动WordNet接口;将每个第一子集中的每个字通过所述WordNet接口传输至WordNet词典;在所述WordNet词典中查询每个字,得到候选字集;当接收到通过所述WordNet接口返回的所述候选字集时,从所述候选字集中随机获取任意字作为对应的每个字的相似字。4.根据权利要求1所述的算法比赛关联性预测方法,其特征在于,所述利用替换后的所述第二样本集训练BERT模型,得到预测模型包括:确定所述第二样本集中每个第二样本的标注及替换前的形式;将每个第二样本的标注及替换前的形式确定为训练目标训练所述BERT模型;当所述BERT模型达到收敛时,停止训练;将收敛时得到的模型确定为所述预测模型。
5.根据权利要求1所述的算法比赛关联性预测方法,其特征在于,在得到所述预测模型后,所述方法还包括:从所述第二样本集中获取真正例、真负例、假正例及假负例;将所述真正例的样本量确定为第一样本量,将所述真负例的样本量确定为第二样本量,将所述假正例的样本量确定为第三样...

【专利技术属性】
技术研发人员:陈宇张莉姜敏华张茜
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1