【技术实现步骤摘要】
本专利技术涉及人工智能,具体为涉及一种基于大语言模型的画像体系构建方法和系统及介质。
技术介绍
1、现有画像体系通常依赖知识图谱技术,知识图谱技术通过结构化表示对画像的数据进行组织与管理。在这个数据组织的过程中,首先需要通过多种预处理手段将原始的文本数据转化为结构化数据,多种预处理手段包括文本分词处理、实体识别处理、关系抽取处理等等,通过这些预处理手段来确保数据的可读性和可操作性。之后基于结构化数据生成标签,实现对个体或实体的特征描述和分类。这种数据处理流程中对原始文本数据的直接利用程度较低,往往会忽视原始文本数据之间的关联性,从而导致生成出的画像体系表达不够全面。
2、随着数据驱动的ai时代的到来,庞大的数据量和多样化的数据源为ai模型训练提供了丰富的资源,然而,如果直接将如此规模的数据量作为ai模型输入,会导致资源消耗显著增加,训练操作的复杂度显著提升,造成对计算资源的需求激增,影响ai模型的训练效率。
3、基于上述技术问题,申请人提出本申请的技术方案。
技术实现思路
>1、有鉴于现本文档来自技高网...
【技术保护点】
1.一种基于大语言模型的画像体系构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大语言模型的画像体系构建方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的基于大语言模型的画像体系构建方法,其特征在于,所述第一数据集、第二数据集和第三数据集的数据量均近似。
4.根据权利要求1所述的基于大语言模型的画像体系构建方法,其特征在于,所述基于大语言模型对每个所述第一文本片段进行观点归纳总结,生成与每个所述第一文本片段相对应的初级画像标签,包括以下步骤:
5.根据权利要求4所述的基于大语言模型的画像体系构
...【技术特征摘要】
1.一种基于大语言模型的画像体系构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大语言模型的画像体系构建方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的基于大语言模型的画像体系构建方法,其特征在于,所述第一数据集、第二数据集和第三数据集的数据量均近似。
4.根据权利要求1所述的基于大语言模型的画像体系构建方法,其特征在于,所述基于大语言模型对每个所述第一文本片段进行观点归纳总结,生成与每个所述第一文本片段相对应的初级画像标签,包括以下步骤:
5.根据权利要求4所述的基于大语言模型的画像体系构建方法,其特征在于,所述基于大语言模型对每个所述初级画像标签进行聚类,生成多个次级画像标签,包括以下步骤:
6.根据权利要求5所述的基于大语言模型的画像体系构建方法,其特征在于,所述基于大语言模型对每个所述次级画像标签进行相关度检查,将强相关的多个次级画像标签进行迭代聚类,直至生成的聚类标签之间的相关性均小于第一阈值或大语言模型认为生成的聚类标签无法再次聚类,包括以下步骤:
7.根据权利要求1所述的基于大语言模型的画像...
【专利技术属性】
技术研发人员:范宏婷,薛利,赵博,申震,谢思昊,王砚溱,李子烨,
申请(专利权)人:上海期货信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。