【技术实现步骤摘要】
融合领域知识的预训练模型训练方法、数据处理方法
[0001]本专利技术涉及数据处理
,尤其涉及一种融合领域知识的预训练模型训练方法、数据处理方法。
技术介绍
[0002]预训练模型是一个通过大量数据上进行训练并被保存下来的模型。可以将其通俗的理解为前人为了解决类似问题所创造出来的一个模型,有了前人的模型,当我们遇到新的问题时,便不再需要从零开始训练新模型,而可以直接用这个模型入手,进行简单的学习便可解决该新问题。
[0003]在实际的应用场景中,可能会存在多个场景下的预训练模型,以自然语言处理领域为例,在电梯交互领域、智能家居交互领域都会具有不同的预训练模型,例如需要开发一个领域为车机交互领域,此时即可以在电梯交互领域、智能家居交互领域的基础上进行训练,即以电梯交互领域或智能家居交互领域的当前交互模型作为预训练模型,对预训练模型进行持续的训练,得到与所需要领域相对应的新训练模型。
[0004]现有技术中,并无法根据用户的部署场景需求,快速的确定最适宜的预训练模型进行后续的数据处理,导致相应模型在部署后计算效果较差。所以,亟需一种技术方案,能够融合领域知识,在多个预训练模型中进行相应的挑选、再次训练,使得相应模型在部署后计算效果较好。
技术实现思路
[0005]本专利技术实施例提供一种融合领域知识的预训练模型训练方法、数据处理方法,能够融合领域知识,在多个预训练模型中进行相应的挑选、再次训练,能够快速、高效的训练,得到功能全面的最终模型,使得相应模型在部署后计算效果较好。
...
【技术保护点】
【技术特征摘要】
1.一种融合领域知识的预训练模型训练方法,其特征在于,包括:服务器在判断接收到请求端发送的模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集,所述目标领域样本集的目标领域为请求端当前的应用领域,所述第一领域样本集为预先存储的第一领域的样本数据,所述第一领域为多个预设的交互应用领域,每个第一领域包括与其对应的第一预训练模型,所述目标领域样本集、第一领域样本集所包括的样本为相应领域所提取的语料样本;依次遍历所述目标领域样本集内的每一个目标训练样本,将所述目标领域样本与第一领域样本集内的第一训练样本进行比对,确定与第一训练样本相同或相对应的目标训练样本,统计每一个第一领域样本集中相同或相对应的目标训练样本的第一数量,以及不同或不相对应的目标训练样本的第二数量,基于第一数量、第二数量对相似度进行计算,分别得到多个第一领域样本集与目标领域样本集的样本集相似度系数,对所有的样本集相似度系数进行比对,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;依次遍历所述目标领域样本集内的每一个目标训练样本,将所述目标领域样本与第二领域样本集内的第二训练样本进行比对,确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集,差异样本集中的每个差异训练样本至少包括一个差异训练语句;将所述第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,根据所述训练词语构建与所述差异训练语句对应的槽位模板,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。2.根据权利要求1所述的融合领域知识的预训练模型训练方法,其特征在于,所述依次遍历所述目标领域样本集内的每一个目标训练样本,将所述目标领域样本与第一领域样本集内的第一训练样本进行比对,确定与第一训练样本相同或相对应的目标训练样本,统计每一个第一领域样本集中相同或相对应的目标训练样本的第一数量,以及不同或不相对应的目标训练样本的第二数量,基于第一数量、第二数量对相似度进行计算,分别得到多个第一领域样本集与目标领域样本集的样本集相似度系数,对所有的样本集相似度系数进行比对,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集,包括:根据所述样本集相似度系数对所有的第一领域样本集进行降序排序,将样本集相似度系数最高的第一领域样本集作为第二领域样本集;若判断样本集相似度系数最高的第一领域样本集与样本集相似度系数次高的第一领域样本集之间的相似度系数之差小于预设差值,则对相似度系数最高、次高的第一领域样本集进行显示。3.根据权利要求2所述的融合领域知识的预训练模型训练方法,其特征在于,所述统计每一个第一领域样本集中相同或相对应的目标训练样本的第一数量,以及不同或不相对应的目标训练样本的第二数量,基于第一数量、第二数量对相似度进行计算,分别得到多个第一领域样本集与目标领域样本集的样本集相似度系数,包括:根据所述第一数量、目标领域样本集内目标训练样本的总数量进行计算,得到第一领域样本集与目标领域样本集的相同评价子系数;
根据所述第二数量、目标领域样本集内目标训练样本的总数量进行计算,得到第一领域样本集与目标领域样本集的不同评价子系数;分别对所述相同评价子系数、不同评价子系数进行加权处理,得到第一领域样本集与目标领域样本集的样本集相似度系数,通过以下公式计算样本集相似度系数,,,,其中,X
Sim
为第一领域样本集与目标领域样本集的样本集相似度系数,为相同评价子系数,为不同评价子系数,S
ide
为相同或相对应的目标训练样本的第一数量,为目标领域样本集内目标训练样本的总数量,为第一计算权重,S
dif
为不同或不相对应的目标训练样本的第二数量,为第二计算权重,为计算常数;其中,所述预设差值为0.05。4.根据权利要求3所述的融合领域知识的预训练模型训练方法,其特征在于,还包括:若判断用户将次高的第一领域样本集作为第二领域样本集,将原最高的第一领域样本集不作为第二领域样本集;则将次高的第一领域样本集的第一数量作为第一待比对数量、次高的第一领域样本集的第二数量作为第二待比对数量,以及将最高的第一领域样本集的第一数量作为第三待比对数量、最高的第一领域样本集的第二数量作为第四待比对数量;若所述第一待比对数量、第二待比对数量、第三待比对数量以及第四待比对数量满足预设条件,则对所述第一计算权重或第二计算权重进行训练,得到训练后的第三计算权重或第四计算权重。5.根据权利要求4所述的融合领域知识的预训练模型训练方法,其特征在于,所述若所述第一待比对数量、第二待比对数量、第三待比对数量以及第四待比对数量满足预设条件,则对所述第一计算权重或第二计算权重进行训练,得到训练后的第三计算权重或第四计...
【专利技术属性】
技术研发人员:黄海峰,熊子奇,孙丽娟,曹扬,李响,蔡惠民,谢真强,
申请(专利权)人:中电科大数据研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。