一种基于LLM预标注的文本分类设备及方法技术

技术编号:40249537 阅读:30 留言:0更新日期:2024-02-02 22:44
本发明专利技术提供一种基于LLM预标注的文本分类设备及方法,涉及自然语言处理技术领域。该基于LLM预标注的文本分类设备及方法,包括以下过程:步骤S1、LLM模型预标注利用开源的LLM模型对样本数据进行标注;步骤S2、分类模型训练采用传统的机器学习模型SVM(支持向量机)算法进行分类训练。本发明专利技术中,该方法基于LLM大语言模型进行预标注,在标注时采用Few‑Shot Prompting+Self‑Consistency Prompting提升预标注的准确率,能够有效减少标注的人力,通过上述设备及方法,可以在大量未标注的文本数据上进行预训练,提高模型的泛化能力,从而有效解决标注数据不足的问题,同时,由于LLM具有强大的语义理解和生成能力,因此可以大大提高文本分类的准确性和效率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体为一种基于llm预标注的文本分类设备及方法。


技术介绍

1、llm(large language model)是一种基于深度学习的自然语言处理技术,能够从大量无标注数据中学习语言的表达方式和语法结构,并利用这些知识对新的文本进行分类、生成、摘要等操作。通过大语言模型预标注技术,可以对海量文本数据进行自动化标注和分类,提高分类准确率和效率。

2、随着人工智能技术的快速发展,文本分类技术在各个领域得到了广泛应用。然而,现有的文本分类方法通常面临着标注数据不足的问题,这会导致模型训练不充分,进而影响分类准确性和效率。

3、针对这一问题,本专利技术提出了一种基于llm预标注的文本分类设备及方法,以解决上述
技术介绍
中提出的问题。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本专利技术提供了一种基于llm预标注的文本分类设备及方法,解决了随着人工智能技术的快速发展,文本分类技术在各个领域得到了广泛应用。然而,现有的文本分类方法通常面临本文档来自技高网...

【技术保护点】

1.一种基于LLM预标注的文本分类设备及方法,其特征在于,包括以下过程:

2.根据权利要求1所述的基于LLM预标注的文本分类设备及方法,其特征在于,所述步骤S1中,选择开源LLama2-Chinese模型作为基座模型来进行初始的预标注,采用两种预标注提示策略Few-Shot Prompting和Self-Consistency Prompting相结合,提升模型标注效果的准确率。

3.根据权利要求1所述的基于LLM预标注的文本分类设备及方法,其特征在于,所述步骤S2中采用的SVM算法是一种常用的监督学习算法,其用于处理分类和回归问题,其原理基于统计学习理论和结构风...

【技术特征摘要】

1.一种基于llm预标注的文本分类设备及方法,其特征在于,包括以下过程:

2.根据权利要求1所述的基于llm预标注的文本分类设备及方法,其特征在于,所述步骤s1中,选择开源llama2-chinese模型作为基座模型来进行初始的预标注,采用两种预标注提示策略few-shot prompting和self-consistency prompting相结合,提升模型标注效果的准确率。

3.根据权利要求1所述的基于llm预标注的文本分类设备及方法,其特征在于,所述步骤s2中采用的svm算法是一种常用的监督学习算法,其用于处理分类和回归问题,其原理基于统计学习理论和结构风险最小化原则,svm的目标是找到一个最优的超平面,将不同类别的样本数据分隔开,它通过将样本映射到高维特征空间,并在特征空间中找到一个最优的超平面,这个超平面使得离它最近的样本点到超平面的距离最大化,这个距离被称为间隔。

4.根据权利要求1所述的基于llm预标注的文本分类设备及方法,其特征在于,所述步骤s3中,在进行人工标注时,因为这些样本是比较容易出错的样本,人工标注的时候进行交叉验证以保证人工标注的准确度。

5.根据权利要求1所述的基于llm预标注的文本分类设备及方法,其特征在于,...

【专利技术属性】
技术研发人员:陈懿周明夏石昱馨尹佳音
申请(专利权)人:北京远问智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1