一种基于大语言模型的画像体系构建方法和系统及介质技术方案

技术编号：43881939 阅读：29 留言：0更新日期：2024-12-31 19:06

本发明专利技术公开一种基于大语言模型的画像体系构建方法和系统及介质，该方法中获取原始文本数据并分类处理；筛选后得到初始文本数据；切片处理后计算各切片文本片段之间的相似度数值，合并处理得到若干个第一文本片段；基于大语言模型对第一文本片段归纳总结并生成初级画像标签，对每个初级画像标签进行聚类生成次级画像标签；对每个次级画像标签进行相关度检查和迭代聚类，直至生成的聚类标签与目标画像实体相一致；对初级画像标签、次级画像标签和聚类标签进行结构化处理，利用知识图谱生成目标画像实体的用户画像。本发明专利技术通过大语言模型对文本数据进行深度处理，捕捉到文本中的复杂模式和深层次特征，为画像体系的精准描绘提供强有力支持。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体为涉及一种基于大语言模型的画像体系构建方法和系统及介质。

技术介绍

1、现有画像体系通常依赖知识图谱技术，知识图谱技术通过结构化表示对画像的数据进行组织与管理。在这个数据组织的过程中，首先需要通过多种预处理手段将原始的文本数据转化为结构化数据，多种预处理手段包括文本分词处理、实体识别处理、关系抽取处理等等，通过这些预处理手段来确保数据的可读性和可操作性。之后基于结构化数据生成标签，实现对个体或实体的特征描述和分类。这种数据处理流程中对原始文本数据的直接利用程度较低，往往会忽视原始文本数据之间的关联性，从而导致生成出的画像体系表达不够全面。

2、随着数据驱动的ai时代的到来，庞大的数据量和多样化的数据源为ai模型训练提供了丰富的资源，然而，如果直接将如此规模的数据量作为ai模型输入，会导致资源消耗显著增加，训练操作的复杂度显著提升，造成对计算资源的需求激增，影响ai模型的训练效率。

3、基于上述技术问题，申请人提出本申请的技术方案。

技术实现思路>

1、有鉴于现本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的画像体系构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大语言模型的画像体系构建方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的基于大语言模型的画像体系构建方法，其特征在于，所述第一数据集、第二数据集和第三数据集的数据量均近似。

4.根据权利要求1所述的基于大语言模型的画像体系构建方法，其特征在于，所述基于大语言模型对每个所述第一文本片段进行观点归纳总结，生成与每个所述第一文本片段相对应的初级画像标签，包括以下步骤：

5.根据权利要求4所述的基于大语言模型的画像体系构建方法，其特征在于，...

【技术特征摘要】

1.一种基于大语言模型的画像体系构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大语言模型的画像体系构建方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的基于大语言模型的画像体系构建方法，其特征在于，所述第一数据集、第二数据集和第三数据集的数据量均近似。

5.根据权利要求4所述的基于大语言模型的画像体系构建方法，其特征在于，所述基于大语言模型对每个所述初级画像标签进行聚类，生成多个次级画像标签，包括以下步骤：

6.根据权利要求5所述的基于大语言模型的画像体系构建方法，其特征在于，所述基于大语言模型对每个所述次级画像标签进行相关度检查，将强相关的多个次级画像标签进行迭代聚类，直至生成的聚类标签之间的相关性均小于第一阈值或大语言模型认为生成的聚类标签无法再次聚类，包括以下步骤：

7.根据权利要求1所述的基于大语言模型的画像...

【专利技术属性】
技术研发人员：范宏婷，薛利，赵博，申震，谢思昊，王砚溱，李子烨，
申请(专利权)人：上海期货信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人