一种基于RoBERTa知识蒸馏的相似度文本挖掘方法及系统技术方案

技术编号：43899428 阅读：17 留言：0更新日期：2025-01-03 13:11

本发明专利技术公开了一种基于RoBERTa知识蒸馏的相似度文本挖掘方法及系统，包括：将句子嵌入映射到概率分布空间以转化为概率分布，利用KL散度衡量句子嵌入之间的语义差异，调整嵌入向量的参数，减小相似句子对的KL散度的同时增加不相似句子的KL散度；基于KL散度优化后的损失函数进行反向传播，更新词向量参数，保存优化后的句子向量，生成词向量空间；对基于RoBERTa的知识蒸馏嵌入模型进行训练，将深层模型中的丰富语义信息迁移至轻量化的学生模型；采用训练完成的学生模型执行相似度文本挖掘任务。本发明专利技术能够更好地捕捉句子之间的细微语义差异，显著提升了语义相似度计算的精度和计算效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理，具体涉及一种基于roberta知识蒸馏的相似度文本挖掘方法及系统。

技术介绍

1、语义文本相似度（semantic textual similarity, sts）是自然语言处理（nlp）中的重要任务，旨在评估两个文本片段之间的语义相似程度。该任务广泛应用于搜索引擎优化、信息检索、机器翻译、文本摘要以及对话系统等领域。然而，传统的词向量模型，如word2vec、glove和fasttext，尽管能够有效生成词汇的分布式表示，但在捕捉上下文依赖性和多义词的语义表达时存在局限。此外，简单的词向量平均法难以全面反映句子中的复杂语义结构，在面对复杂的语义依赖关系时往往表现不足，导致在语义相似度评估中的准确性有限。传统的嵌入方法往往仅支持单一的相似度计算方式，如余弦相似度。这种单一的相似度度量在处理某些复杂文本时可能无法提供足够的灵活性，在扩展至其他应用场景时往往受到限制。

2、近年来，深度学习模型如bert和roberta等预训练语言模型在语义表达方面取得了显著进展。roberta的全称是 "a robustly optim本文档来自技高网...

【技术保护点】

1.一种基于RoBERTa知识蒸馏的相似度文本挖掘方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法，其特征在于，步骤S1进一步包括：

3.根据权利要求2所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法，其特征在于，步骤S11中，对输入的句子进行预处理的过程包括以下步骤：

4.根据权利要求1所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法，其特征在于，步骤S2进一步包括：

5.根据权利要求4所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法，其特征在于，步骤S24中，所...

【技术特征摘要】

1.一种基于roberta知识蒸馏的相似度文本挖掘方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于roberta知识蒸馏的相似度文本挖掘方法，其特征在于，步骤s1进一步包括：

3.根据权利要求2所述的基于roberta知识蒸馏的相似度文本挖掘方法，其特征在于，步骤s11中，对输入的句子进行预处理的过程包括以下步骤：

4.根据权利要求1所述的基于roberta知识蒸馏的相似度文本挖掘方法，其特征在于，步骤s2进一步包括：

5.根据权利要求4所述的基于roberta知识蒸馏的相似度文本挖掘方法，其特征在于，步骤s24中，所述性能指标包括训练过程的损失值、皮尔逊相关系数、斯皮尔曼相关系数和平均绝对误差中的一种或者多种。

6....

【专利技术属性】
技术研发人员：韩进，杨良，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人