一种基于RAG和对比学习的Tor语料高效标注方法技术

技术编号:45494067 阅读:28 留言:0更新日期:2025-06-10 17:50
本发明专利技术公开了一种基于RAG和对比学习的Tor语料高效标注方法,涉及Tor语料库数据的标注技术领域,包括Tor语料分割与初步标注、基于大语言模型的数据增强处理、基于对比学习训练Tor语料文本嵌入以及基于RAG框架的大批量Tor语料高效标注。本发明专利技术设计合理,使得标注成本显著降低、标注效率大幅提升以及同时标注准确率明显提高。

【技术实现步骤摘要】

本专利技术涉及tor语料库数据的标注,更具体的是涉及一种基于rag和对比学习的tor语料高效标注方法。


技术介绍

1、鉴于tor的高度匿名性,在常规网络环境中难以直接获取,市面上通行的主题分类模型即便经过一定程度的预训练,由于语义空间上存在隔离,也无法直接应用于tor数据的处理。若试图从基础模型起步进行大规模训练,则面临真实标注数据匮乏的困境,导致模型训练缺乏有效监督。更进一步,tor语料库中充斥着大量冗余与复杂数据,传统标注方法不仅效率低下,而且标注的准确性也难以保证。因此,当前亟需解决的技术难题在于,如何有效提升tor语料库数据的标注效率与准确性。


技术实现思路

1、本专利技术的目的在于:为了解决上述技术问题,本专利技术提供一种基于rag和对比学习的tor语料高效标注方法。

2、本专利技术为了实现上述目的具体采用以下技术方案:

3、本专利技术提供一种基于rag和对比学习的tor语料高效标注方法,包括如下步骤:

4、s1、tor语料分割与初步标注:精选高质量tor语料并利本文档来自技高网...

【技术保护点】

1.一种基于RAG和对比学习的Tor语料高效标注方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于RAG和对比学习的Tor语料高效标注方法,其特征在于,步骤S1中,Tor语料分割与初步标注,具体方式如下:

3.根据权利要求1所述的一种基于RAG和对比学习的Tor语料高效标注方法,其特征在于,步骤S13中,为确保标注的准确性,需要对每位标注者给出的标签进行汇总,计算每个标签的总分数,并采纳分数最高的标签作为该句子的最终标签,若存在多个标签分数相同且均较高,则考虑这些标签的互补性,可保留多个标签;对于分数低于设定阈值的标签,将其提交给专家进行二次审核。...

【技术特征摘要】

1.一种基于rag和对比学习的tor语料高效标注方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于rag和对比学习的tor语料高效标注方法,其特征在于,步骤s1中,tor语料分割与初步标注,具体方式如下:

3.根据权利要求1所述的一种基于rag和对比学习的tor语料高效标注方法,其特征在于,步骤s13中,为确保标注的准确性,需要对每位标注者给出的标签进行汇总,计算每个标签的总分数,并采纳分数最高的标签作为该句子的最终标签,若存在多个标签分数相同且均较高,则考虑这些标签的互补性,可保留多个标签;对于分数低于设定阈值的标签,将其提交给专家进行二次审核。

4.根据权利要求1所述的一种基于rag和对比学习的tor语料高效标注方法,其特征在于,步骤s13中,在数据清洗与一致性检查阶段,识别并剔除那些不适合所有标签的文本数据,这些数据可能由于内容过于模糊或标签分布过于均匀而不适合用于后续分析;同时,对保留的语料数据进行一致性检查,确保标注结果在不同标注者之间保持高度一致。

5.根据权利要求1所述的一种基于rag和对比学习的tor语料高效标注方法,其特征在于,步骤s13中,还需对构建好的语料库进行质量评估,包括标注准确率、一致性、上下文连贯性等方面的评估,根据评估结果,向标注者提供反馈,指导其改进标注方法,提高标注质量。<...

【专利技术属性】
技术研发人员:丁建伟李欣泽陈周国孙恩博李航李斌李梦颖王鑫易佳昕黎艺泉
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1