对比学习的样本构造方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:34967166 阅读:42 留言:0更新日期:2022-09-17 12:48
本发明专利技术属于医学领域和对比学习技术领域,公开了一种对比学习的样本构造方法、装置、计算机设备及存储介质。其中,本发明专利技术方法样本构造通过MeSH医学术语词库匹配出数据文本中的医学术语,并通过医学术语体偏好词进行替换,依此来改变数据样本的字符长度,并且是利用医学偏好词进行替换,原数据文本的语义不会发生变化,再利用Dropout构造对比学习的正样本,通过对训练数据进行Embedding,转化为向量,对向量进行K

【技术实现步骤摘要】
对比学习的样本构造方法、装置、计算机设备及存储介质


[0001]本专利技术属于医学领域和对比学习
,特别涉及一种对比学习的样本构造方法、装置、计算机设备及存储介质。

技术介绍

[0002]在推荐系统中采用召回

粗排

精排的链路对候选数据进行筛选和排序。召回环节是从大量的候选语料数据中获取可能相似的数据,该环节将候选数据的量级快速筛减到千级别甚至百级别或者筛选到指定的数据量,供后续环节进行排序,召回环节的关键是覆盖全面。
[0003]对比学习可应用在推荐系统中的召回环节中,利用对比学习获取所有候选数据的向量表示,将该向量表示存放到向量检索数据库中,输入的文本Query经过向量化进入向量库进行检索,设定相似度阈值获取召回后的候选数据,再进行排序链路,得出最终的推荐结果。
[0004]在利用对比学习实施召回时,很多与Query相似性较高的数据不能被召回,继而无法被送到后续的链路流程中,因而存在召回率低(不全面)的问题,即使后续的粗排和精排模型很优秀,也无法推送出与Query关联性大的数据,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种医学领域对比学习的样本构造方法,其特征在于,包括如下步骤:步骤1. 数据预处理;收集医学领域问题数据,并对获取的医学领域问题数据进行数据清洗,然后将清洗后的数据进行数据切分,并划分为训练集和测试集;将数据切分后训练集和测试集中的样本数据以csv格式文件保存;步骤2. 数据向量化表示;读取训练集中每个样本数据,利用Bert进行Embedding,取Bert的第一层和最后一层的隐藏层状态做平均池化作为向量输出,表示该样本数据对应的向量;步骤3. 基于K

Means聚类方式将训练集中所有样本数据划分为K个簇,K为自然数;步骤4. 对比学习训练batch内第一个样本构建;定义对比学习训练过程中每个epoch包含整数个batch,batch的数量记为batch_num,每个batch中的样本数量记为batch_size;其中,batch_num以及batch_size均为自然数,且batch_size ≤K;在一个batch取样数据开始前,先从K个簇中随机选择一个簇;然后,从选择的簇中选择每个batch的第一个样本,且每个epoch开始前,都会重复该过程;步骤5. 对比学习训练batch内正样本构建;将医学主题词表中的医学术语存入到前缀树Trie字典中,当每个batch内的第一个样本中含有Trie字典中的医学术语时,前缀树会输出匹配到的医学术语的位置索引;通过前缀树方法匹配出每个batch内的第一个样本中的医学术语,并通过医学主题词表MeSH中的偏好词对第一个样本中出现的医学术语进行替换;通过该步骤,构建了与每个batch中第一个样本对应的正样本数据;步骤6. 对比学习训练batch内负样本构建;从除每个batch内第一个样本所在簇外的其他K

1个簇中随机选择batch_size

1个簇,再从选择的batch_size

1个簇中分别随机选择一个样本,作为当前batch的负样本;通过该步骤,构建了与每个batch中的所有负样本数据。2.根据权利要求1所述的医学领域对比学习的样本构造方法,其特征在于,所述步骤3具体为:步骤3.1. 从训练集中所有样本数据对应的向量中随机选取K个样本,作为初始的聚类中心点,即质心,一个质心对应一个聚类类别,以下称为簇;步骤3.2. 分别计算所有向量到当前K个质心的欧氏距离;所有向量中任意一个向量到所有K个质心中,欧氏距离最近的质心对应的聚类类别即为该向量的簇;步骤3.3. 计算每个簇中所有向量数据的均值,将均值作为更新后该簇的质心;步骤3.4. 重复上述步骤3.2至3.3,不断更新簇的质心位置;当簇的质心位置不再发生变化时,即得到当前K值下的各个簇的最佳质心;步骤3.5. 通过上述步骤3.2至3.4,将训练集中所有样本数据对应的向量数据分为对应的K个簇,每个样本数据和向量一一对应,因此样本数据也被映射到K个簇中。3.根据权利要求2所述的医学领域对比学习的样本构造方法,其特征在于,所述步骤3.1中,K值的确定方式如下:从2到N中,取不同的整数K值,以K值为x轴,计算轮廓系数SSE,并以轮廓系数SSE为y轴
绘制直角坐标系,选择拐点所对应的K值作为最佳K值;其中,N表示训练集中样本数量的算术平方根。4.根据权利要求1所述的医学领域对比学习的样本构造方法,其特征在于,所述步骤4中,每个batch中第一个样本的选择方法如下:若选择的簇内样本数量大于等于batch_num...

【专利技术属性】
技术研发人员:张星金霞刘伟
申请(专利权)人:杭州火石数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1