【技术实现步骤摘要】
基于对比学习的信息聚类处理方法、装置和计算机设备
[0001]本申请涉及计算机学习
,特别是涉及一种基于对比学习的信息聚 类方法、装置和计算机设备。
技术介绍
[0002]目前,企业的新闻资讯热点聚类实现方式基本都是通过计算资讯标题的 TF
‑
IDF特征或预训练词向量特征,得到资讯标题的句向量数学表示。再运用传 统的机器学习聚类算法如K
‑
MEANS算法和SinglePass算法等,把句向量距离相 近的资讯标题归类为同一资讯热点。
[0003]由于资讯标题文本内容具有多样性、随意性,包含较多的干扰词。传统的语 义特征提取算法难以准确提取资讯的事件特征。这种情况下传统的新闻资讯热 点聚类方法的效果欠佳,不能对资讯信息进行准确聚类。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种能够提高信息聚类的准确度 的基于对比学习的信息聚类方法、装置、计算机设备和存储介质。
[0005]一种基于对比学习的信息聚类处理方法,所述方法包括:
[0006]获取待处理的资讯信息;
[0007]对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所 述资讯信息的正文文本进行处理,得到正文文本特征向量;
[0008]根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合 语义特征向量;
[0009]确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似 度;
[0010]根据所述相似 ...
【技术保护点】
【技术特征摘要】
1.一种基于对比学习的信息聚类处理方法,其特征在于,所述方法包括:获取待处理的资讯信息;对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所述资讯信息的正文文本进行处理,得到正文文本特征向量;根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合语义特征向量;确定所述联合语义特征向量与各信息类别标签对应的特征向量之间的相似度;根据所述相似度确定所述待处理的资讯信息所属的类别标签。2.根据权利要求1所述的方法,其特征在于,所述对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及对所述资讯信息的正文文本进行处理,得到正文文本特征向量,包括:通过训练好的语义信息提取模型中的第一信息提取子模型对所述资讯信息的标题文本进行处理,得到标题文本特征向量;以及通过所述语义信息提取模型中的第二信息提取子模型对所述资讯信息的正文文本进行处理,得到正文文本特征向量;所述训练好的语义信息提取模型是通过先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间语义信息提取模型进行训练得到的。3.根据权利要求1所述的方法,其特征在于,所述根据所述标题文本特征向量和正文文本特征向量,得到标题和正文的联合语义特征向量,包括:对所述标题文本特征向量和正文文本特征向量进行拼接,得到拼接语义向量;对所述拼接语义向量进行降维映射处理,得到标题和正文的联合语义特征向量。4.根据权利要求2所述的方法,其特征在于,所述语义信息提取模型的训练,包括:构建语义信息提取模型;获取用于训练所述语义信息提取模型的信息样本数据集;根据所述信息样本数据集,对所述语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间语义信息提取模型进行训练;当满足模型训练的预设条件时,得到训练好的语义信息提取模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述信息样本数据集,对所述语义信息提取模型先采用无监督的训练方式训练得到中间语义信息提取模型后,再采用有监督的训练方式对所述中间语义信息提取模型进行训练,包括:从所述信息样本数据集中确定无监督学习的第一样本数据集和有监督学习的第二样本数据集;对所述第一样本数据集和所述第二样本数据集分别进行特征提取,得到对应的第一特征向量集和第二特征向量集;根据所述第一特征向量集,以无监督的训练方式对所述语义信息提取模型进行训练,直到所述语义信息提取模型的损失函数收敛时,得到中间语义信息提取模型;根据所述第二特征向量集,以有监督的训练方式对所述中间语义信息提取模型进行训练,直到满足预设条件时,得到训练好的语义信息提取模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一特征向量集,以无监督的训练方式对所述语义信息提取模型进行训练,直到所述语义信息提取模型的第一损失函数收敛时,得到中间语义信息提取模型,包括:从所述第一特征向量集中确定预设数量的样本量...
【专利技术属性】
技术研发人员:邹俊逸,
申请(专利权)人:广东博智林机器人有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。