一种基于大语言模型的标签体系建设方法技术

技术编号：43495443 阅读：29 留言：0更新日期：2024-11-29 17:03

本发明专利技术提供了一种基于大语言模型的标签体系建设方法，包括如下步骤：第一步：待处理文本整理和入库，第二步：调用预训练大模型使用其生成能力打出标签；第三步：对经过第二步得到的所有标签进行标签后处理；第四步：对经过第三步中标签后处理得到的标签进行聚类；第五步：对经过第四步得到的聚类结果利用预训练大模型得到标签体系；第六步：标签体系入库；第七步：使用构建的标签体系对第一步中得到的文本库打标签；该方法结合了深度学习、自然语言处理和大规模预训练模型的最新进展，解决当前文本分类需要预先建立标签体系以及标签体系不能完全反映文本内容分类问题，适用于多种文本类型，解决了现有技术中的弊端。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其是涉及一种基于大语言模型的标签体系建设方法。

技术介绍

1、对文本进行标签化是一种重要的文本处理技术，它涉及从文本中抽取关键信息，并使用标签来表示这些信息的类别或属性。标签化的主要目的是使文本更易于计算、索引和表示，从而方便后续的文本分析、信息检索或机器学习等任务。

2、标签用于标识某个对象的特性，为了能够更好的描述对象，可以从不同的维度来凸显对象的特点，通过总结和归纳，对某个对象的主要特征进行突出，基于此来凸显出对象的个性和不同点。标签体系，是根据多个标签建立的体系，为了能够对整个企业或者集团中所包含的对象进行系统性，规范性的标签梳理，通过标签体系能更好地了解平台里的内容特性、也更了解平台中的用户特征，而更充分的了解，也意味着更好的满足用户需求。

3、标签体系建设的意义深远且广泛，它不仅有助于组织内部的信息管理和业务流程优化，还能提升用户体验、加强数据驱动决策能力，并推动业务创新和增长。以下是标签体系建设的具体意义：(1)优化信息管理，标签体系可以将海量的数据和信息进行有序的分类和标...

【技术保护点】

1.一种基于大语言模型的标签体系建设方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于大语言模型的标签体系建设方法，其特征在于，所述第一步中明确待处理文本的来源包括：明确待处理文本的来源是从网站爬取、从数据库提取、或从合作方获取。

3.根据权利要求1所述的基于大语言模型的标签体系建设方法，其特征在于，统一待处理文本的格式为将待处理文本转换为纯文本格式，以确保后续处理的一致性，停用词过滤中移除词语包括：的、了、啊。

4.根据权利要求1所述的基于大语言模型的标签体系建设方法，其特征在于，第三步中标签清洗包括去除无关符号：删除与文本内容无关的符号...

【技术特征摘要】

1.一种基于大语言模型的标签体系建设方法，其特征在于，包括如下步骤：

4.根据权利要求1...

【专利技术属性】
技术研发人员：刘彤，武豪杰，邴振凯，李毅，张佳琪，张名芳，胡玲玲，胡风雪，左琦，裴智勇，
申请(专利权)人：北京市计算中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人