【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体为一种基于llm预标注的文本分类设备及方法。
技术介绍
1、llm(large language model)是一种基于深度学习的自然语言处理技术,能够从大量无标注数据中学习语言的表达方式和语法结构,并利用这些知识对新的文本进行分类、生成、摘要等操作。通过大语言模型预标注技术,可以对海量文本数据进行自动化标注和分类,提高分类准确率和效率。
2、随着人工智能技术的快速发展,文本分类技术在各个领域得到了广泛应用。然而,现有的文本分类方法通常面临着标注数据不足的问题,这会导致模型训练不充分,进而影响分类准确性和效率。
3、针对这一问题,本专利技术提出了一种基于llm预标注的文本分类设备及方法,以解决上述
技术介绍
中提出的问题。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本专利技术提供了一种基于llm预标注的文本分类设备及方法,解决了随着人工智能技术的快速发展,文本分类技术在各个领域得到了广泛应用。然而,现有的
...【技术保护点】
1.一种基于LLM预标注的文本分类设备及方法,其特征在于,包括以下过程:
2.根据权利要求1所述的基于LLM预标注的文本分类设备及方法,其特征在于,所述步骤S1中,选择开源LLama2-Chinese模型作为基座模型来进行初始的预标注,采用两种预标注提示策略Few-Shot Prompting和Self-Consistency Prompting相结合,提升模型标注效果的准确率。
3.根据权利要求1所述的基于LLM预标注的文本分类设备及方法,其特征在于,所述步骤S2中采用的SVM算法是一种常用的监督学习算法,其用于处理分类和回归问题,其原理基于
...【技术特征摘要】
1.一种基于llm预标注的文本分类设备及方法,其特征在于,包括以下过程:
2.根据权利要求1所述的基于llm预标注的文本分类设备及方法,其特征在于,所述步骤s1中,选择开源llama2-chinese模型作为基座模型来进行初始的预标注,采用两种预标注提示策略few-shot prompting和self-consistency prompting相结合,提升模型标注效果的准确率。
3.根据权利要求1所述的基于llm预标注的文本分类设备及方法,其特征在于,所述步骤s2中采用的svm算法是一种常用的监督学习算法,其用于处理分类和回归问题,其原理基于统计学习理论和结构风险最小化原则,svm的目标是找到一个最优的超平面,将不同类别的样本数据分隔开,它通过将样本映射到高维特征空间,并在特征空间中找到一个最优的超平面,这个超平面使得离它最近的样本点到超平面的距离最大化,这个距离被称为间隔。
4.根据权利要求1所述的基于llm预标注的文本分类设备及方法,其特征在于,所述步骤s3中,在进行人工标注时,因为这些样本是比较容易出错的样本,人工标注的时候进行交叉验证以保证人工标注的准确度。
5.根据权利要求1所述的基于llm预标注的文本分类设备及方法,其特征在于,...
【专利技术属性】
技术研发人员:陈懿,周明夏,石昱馨,尹佳音,
申请(专利权)人:北京远问智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。