基于对比学习的信息聚类处理方法、装置和计算机设备制造方法及图纸

技术编号:36974320 阅读:54 留言:0更新日期:2023-03-25 17:54
本申请涉及一种基于对比学习的信息聚类处理方法、装置和计算机设备存储介质。所述方法包括:获取待处理的资讯信息;对资讯信息的标题文本进行处理,得到标题文本特征向量;以及对资讯信息的正文文本进行处理,得到正文文本特征向量;根据标题文本特征向量和正文文本特征向量,得到标题和正文的联合语义特征向量;确定联合语义特征向量与各信息类别标签对应的特征向量之间的相似度;根据相似度确定待处理的资讯信息所属的类别标签。采用本方法能够提高信息聚类的准确度。够提高信息聚类的准确度。够提高信息聚类的准确度。

【技术实现步骤摘要】
基于对比学习的信息聚类处理方法、装置和计算机设备


[0001]本申请涉及计算机学习
,特别是涉及一种基于对比学习的信息聚 类方法、装置和计算机设备。

技术介绍

[0002]目前,企业的新闻资讯热点聚类实现方式基本都是通过计算资讯标题的 TF

IDF特征或预训练词向量特征,得到资讯标题的句向量数学表示。再运用传 统的机器学习聚类算法如K

MEANS算法和SinglePass算法等,把句向量距离相 近的资讯标题归类为同一资讯热点。
[0003]由于资讯标题文本内容具有多样性、随意性,包含较多的干扰词。传统的语 义特征提取算法难以准确提取资讯的事件特征。这种情况下传统的新闻资讯热 点聚类方法的效果欠佳,不能对资讯信息进行准确聚类。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高信息聚类的准确度 的基于对比学习的信息聚类方法、装置、计算机设备和存储介质。
[0005]一种基于对比学习的信息聚类处理方法,所述方法包括:
[0006]获取待处理的资讯信息;
[0007]对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所 述资讯信息的正文文本进行处理,得到正文文本特征向量;
[0008]根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合 语义特征向量;
[0009]确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似 度;
[0010]根据所述相似度确定所述待处理的资讯信息所属的类别标签。
[0011]上述基于对比学习的信息聚类方法,通过对待处理资讯信息的标题文本和 正文文本同时进行特征提取,得到了联合语义特征向量;通过增加资讯信息的 正文文本计算与信息类别标签的特征向量之间的相似度,确定待处理信息的所 属类别标签,提高了信息聚类的准确度。
[0012]在其中一个实施例中,所述对所述资讯信息的标题文本进行处理,得到标 题文本特征向量;以及对所述资讯信息的正文文本进行处理,得到正文文本特 征向量,包括:
[0013]通过训练好的语义信息提取模型中的第一信息提取子模型对所述资讯信息 的标题文本进行处理,得到标题文本特征向量;以及
[0014]通过所述语义信息提取模型中的第二信息提取子模型对所述资讯信息的正 文文本进行处理,得到正文文本特征向量;所述训练好的语义信息提取模型是 通过先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监 督的训练方式对所述中间语义信息提取模型进行训练得到的。
[0015]通过无监督和有监督训练方式得到预先训练好的语义信息提取模型对资讯 信息的标题文本以及正本文本进行特征提取,提高模型提取特征能力以及特征 提取的准确性。
[0016]在其中一个实施例中,所述根据所述标题文本特征向量和正文文本特征向 量,得到标题和正文的联合语义特征向量,包括:
[0017]对所述标题文本特征向量和正文文本特征向量进行拼接,得到拼接语义向 量;
[0018]对所述拼接语义向量进行降维映射处理,得到标题和正文的联合语义特征 向量。
[0019]通过对所述标题文本特征向量和正文文本特征向量进行拼接,以及降维映 射处理,减少数据处理量进而提高了数据的处理效率。
[0020]在其中一个实施例中,所述语义信息提取模型的训练,包括:
[0021]构建语义信息提取模型;
[0022]获取用于训练所述语义信息提取模型的信息样本数据集;
[0023]根据所述信息样本数据集,对所述语义信息提取模型先采用无监督的训练 方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间 语义信息提取模型进行训练;
[0024]当满足模型训练的预设条件时,得到训练好的语义信息提取模型。
[0025]通过无监督语义对比学习以及有监督对比学习,提高了语义提取模型的提 取语义信息的能力以及提高模型的准确率。
[0026]在其中一个实施例中,所述根据所述信息样本数据集,对所述语义信息提 取模型先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有 监督的训练方式对所述中间语义信息提取模型进行训练,包括:
[0027]从所述信息样本数据集中确定无监督学习的第一样本数据集和有监督学习 的第二样本数据集;
[0028]对所述第一样本数据集和所述第二样本数据集分别进行特征提取,得到对 应的第一特征向量集和第二特征向量集;
[0029]根据所述第一特征向量集,以无监督的训练方式对所述语义信息提取模型 进行训练,直到所述语义信息提取模型的损失函数收敛时,得到中间语义信息 提取模型;
[0030]根据所述第二特征向量集,以有监督的训练方式对所述中间语义信息提取 模型进行训练,直到满足预设条件时,得到训练好的语义信息提取模型。
[0031]通过无监督语义对比学习的方式训练语义信息提取模型以及通过有监督语 义对比学习的方式精调语义信息提取模型,确定性能最佳的语义信息提取模型, 能够对资讯进行准确聚类处理。
[0032]在其中一个实施例中,所述根据所述第一特征向量集,以无监督的训练方 式对所述语义信息提取模型进行训练,直到所述语义信息提取模型的第一损失 函数收敛时,得到中间语义信息提取模型,包括:
[0033]从所述第一特征向量集中确定预设数量的样本量数据;
[0034]多次将所述样本量数据输入至所述语义信息提取模型中,得到第一矩阵和 第二矩阵;
[0035]根据所述第一矩阵和所述第二矩阵确定第一相似度矩阵;
[0036]根据所述第一相似度矩阵和第二相似度矩阵确定所述损失函数;
[0037]基于所述损失函数,对所述语义信息提取模型进行训练,直到所述语义信 息提取模型的损失函数收敛时,得到中间语义信息提取模型。
[0038]通过迭代模型的参数对模型参数进行优化,使得损失函数达到最小并收敛, 得到性能最佳的中间语义信息提取模型。
[0039]在其中一个实施例中,所述根据所述第二特征向量集,以有监督的训练方 式对所述中间语义信息提取模型进行训练,直到满足预设条件时,得到训练好 的语义信息提取模型,包括:
[0040]根据所述第二特征向量集中的训练数据集,以有监督的训练方式对所述中 间语义信息提取模型进行训练,得到待测试的语义信息提取模型;
[0041]根据所述第二样本数据集中的测试数据集,输入至所述待测试的语义信息 提取模型,得到用于表征测试数据集中各测试数据所属同一类别标签的概率的 第一数组;
[0042]根据所述第一数组和所述测试数据集的标签信息确定所属同一类别标签的 第二数组,计算相关系数;
[0043]当所述相关系数在预设值范围内时,则得到训练好的语义信息提取模型。
[0044]通过有监督语义对比学习的方式对中间语义信息提取模型进行精调,比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的信息聚类处理方法,其特征在于,所述方法包括:获取待处理的资讯信息;对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所述资讯信息的正文文本进行处理,得到正文文本特征向量;根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合语义特征向量;确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似度;根据所述相似度确定所述待处理的资讯信息所属的类别标签。2.根据权利要求1所述的方法,其特征在于,所述对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所述资讯信息的正文文本进行处理,得到正文文本特征向量,包括:通过训练好的语义信息提取模型中的第一信息提取子模型对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及通过所述语义信息提取模型中的第二信息提取子模型对所述资讯信息的正文文本进行处理,得到正文文本特征向量;所述训练好的语义信息提取模型是通过先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间语义信息提取模型进行训练得到的。3.根据权利要求1所述的方法,其特征在于,所述根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合语义特征向量,包括:对所述标题文本特征向量和正文文本特征向量进行拼接,得到拼接语义向量;对所述拼接语义向量进行降维映射处理,得到标题和正文的联合语义特征向量。4.根据权利要求2所述的方法,其特征在于,所述语义信息提取模型的训练,包括:构建语义信息提取模型;获取用于训练所述语义信息提取模型的信息样本数据集;根据所述信息样本数据集,对所述语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间语义信息提取模型进行训练;当满足模型训练的预设条件时,得到训练好的语义信息提取模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述信息样本数据集,对所述语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间语义信息提取模型进行训练,包括:从所述信息样本数据集中确定无监督学习的第一样本数据集和有监督学习的第二样本数据集;对所述第一样本数据集和所述第二样本数据集分别进行特征提取,得到对应的第一特征向量集和第二特征向量集;根据所述第一特征向量集,以无监督的训练方式对所述语义信息提取模型进行训练,直到所述语义信息提取模型的损失函数收敛时,得到中间语义信息提取模型;根据所述第二特征向量集,以有监督的训练方式对所述中间语义信息提取模型进行训练,直到满足预设条件时,得到训练好的语义信息提取模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一特征向量集,以无监督的训练方式对所述语义信息提取模型进行训练,直到所述语义信息提取模型的第一损失函数收敛时,得到中间语义信息提取模型,包括:从所述第一特征向量集中确定预设数量的样本量...

【专利技术属性】
技术研发人员:邹俊逸
申请(专利权)人:广东博智林机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1