【技术实现步骤摘要】
本专利技术属于自然语言处理,具体涉及一种基于roberta知识蒸馏的相似度文本挖掘方法及系统。
技术介绍
1、语义文本相似度(semantic textual similarity, sts)是自然语言处理(nlp)中的重要任务,旨在评估两个文本片段之间的语义相似程度。该任务广泛应用于搜索引擎优化、信息检索、机器翻译、文本摘要以及对话系统等领域。然而,传统的词向量模型,如word2vec、glove和fasttext,尽管能够有效生成词汇的分布式表示,但在捕捉上下文依赖性和多义词的语义表达时存在局限。此外,简单的词向量平均法难以全面反映句子中的复杂语义结构,在面对复杂的语义依赖关系时往往表现不足,导致在语义相似度评估中的准确性有限。传统的嵌入方法往往仅支持单一的相似度计算方式,如余弦相似度。这种单一的相似度度量在处理某些复杂文本时可能无法提供足够的灵活性,在扩展至其他应用场景时往往受到限制。
2、近年来,深度学习模型如bert和roberta等预训练语言模型在语义表达方面取得了显著进展。roberta的全称是 "a robu
...【技术保护点】
1.一种基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在于,步骤S1进一步包括:
3.根据权利要求2所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在于,步骤S11中,对输入的句子进行预处理的过程包括以下步骤:
4.根据权利要求1所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在于,步骤S2进一步包括:
5.根据权利要求4所述的基于RoBERTa知识蒸馏的相似度文本挖掘方法,其特征在
...【技术特征摘要】
1.一种基于roberta知识蒸馏的相似度文本挖掘方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于roberta知识蒸馏的相似度文本挖掘方法,其特征在于,步骤s1进一步包括:
3.根据权利要求2所述的基于roberta知识蒸馏的相似度文本挖掘方法,其特征在于,步骤s11中,对输入的句子进行预处理的过程包括以下步骤:
4.根据权利要求1所述的基于roberta知识蒸馏的相似度文本挖掘方法,其特征在于,步骤s2进一步包括:
5.根据权利要求4所述的基于roberta知识蒸馏的相似度文本挖掘方法,其特征在于,步骤s24中,所述性能指标包括训练过程的损失值、皮尔逊相关系数、斯皮尔曼相关系数和平均绝对误差中的一种或者多种。
6....
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。