【技术实现步骤摘要】
本专利技术涉及数据处理,尤其是涉及一种基于大语言模型的标签体系建设方法。
技术介绍
1、对文本进行标签化是一种重要的文本处理技术,它涉及从文本中抽取关键信息,并使用标签来表示这些信息的类别或属性。标签化的主要目的是使文本更易于计算、索引和表示,从而方便后续的文本分析、信息检索或机器学习等任务。
2、标签用于标识某个对象的特性,为了能够更好的描述对象,可以从不同的维度来凸显对象的特点,通过总结和归纳,对某个对象的主要特征进行突出,基于此来凸显出对象的个性和不同点。标签体系,是根据多个标签建立的体系,为了能够对整个企业或者集团中所包含的对象进行系统性,规范性的标签梳理,通过标签体系能更好地了解平台里的内容特性、也更了解平台中的用户特征,而更充分的了解,也意味着更好的满足用户需求。
3、标签体系建设的意义深远且广泛,它不仅有助于组织内部的信息管理和业务流程优化,还能提升用户体验、加强数据驱动决策能力,并推动业务创新和增长。以下是标签体系建设的具体意义:(1)优化信息管理,标签体系可以将海量的数据和信息进行有序的分类和标
...【技术保护点】
1.一种基于大语言模型的标签体系建设方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于大语言模型的标签体系建设方法,其特征在于,所述第一步中明确待处理文本的来源包括:明确待处理文本的来源是从网站爬取、从数据库提取、或从合作方获取。
3.根据权利要求1所述的基于大语言模型的标签体系建设方法,其特征在于,统一待处理文本的格式为将待处理文本转换为纯文本格式,以确保后续处理的一致性,停用词过滤中移除词语包括:的、了、啊。
4.根据权利要求1所述的基于大语言模型的标签体系建设方法,其特征在于,第三步中标签清洗包括去除无关符号:删除
...【技术特征摘要】
1.一种基于大语言模型的标签体系建设方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于大语言模型的标签体系建设方法,其特征在于,所述第一步中明确待处理文本的来源包括:明确待处理文本的来源是从网站爬取、从数据库提取、或从合作方获取。
3.根据权利要求1所述的基于大语言模型的标签体系建设方法,其特征在于,统一待处理文本的格式为将待处理文本转换为纯文本格式,以确保后续处理的一致性,停用词过滤中移除词语包括:的、了、啊。
4.根据权利要求1...
【专利技术属性】
技术研发人员:刘彤,武豪杰,邴振凯,李毅,张佳琪,张名芳,胡玲玲,胡风雪,左琦,裴智勇,
申请(专利权)人:北京市计算中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。