一种基于大语言模型的用户画像方法、装置、设备及介质制造方法及图纸

技术编号：40415676 阅读：7 留言：0更新日期：2024-02-20 22:32

本申请公开了一种基于大语言模型的用户画像方法、装置、设备及介质，涉及人工智能技术领域。所述方法是先预先建立一套覆盖面广的人格模板数据库，利用大语言模型训练对话机器人，建立对话机器人的最优对话策略，通过对话机器人在元宇宙、互联网及智能交互设备等多种场景下与用户进行自然语言交流，在多轮对话中进行语义分析，获得关键词与人格模版匹配，从而获得用户精准画像，能够同时挖掘用户显性特征和隐性特征，具有更高的准确性，是一种主动式、动态的用户画像方式，极大提高用户画像的精准度和即时性，便于实际应用和推广。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，具体涉及一种基于大语言模型的用户画像方法、装置、设备及介质。

技术介绍

1、用户画像是许多企业，特别是广告营销、运营、电商、游戏、金融等等行业企业，必不可少的运营步骤，通过各种方式精确获得用户偏好，以减少广告投放成本，提高营销推广效率。传统的用户画像方式是从各个维度收集用户数据，如用户浏览过的网页、网购订单、订购刊物、发表帖子，以及各种问卷填表和测试等等，进行收集和分析。

2、为了使收集的数据能产生画像效果，需要建立有效的鉴别方法和算法，或标签系统，或知识图谱，或行为分析，或测试题库等等。但是这些现有方法都是基于用户已产生的信息数据基础上，是被动式的、静态的收集和分析方式，只能刻画用户的消费偏好、行为偏好等显性特征，不仅效率低，若用户状态发生变化，也无法及时更新修正用户画像信息。同时，这种被动、静态的用户画像方法无法深度挖掘、刻画用户的隐形特征。实际上，一个人的人格特征非常复杂，不仅有表面上呈现出来的各种消费偏好、行为偏好，还有内在的精神状态、观点倾向，特别是在某种特定情况下产生的应激反应，往往才能体现出该人的真实性格特征，而这类隐性的人格特征在现有的互联网模式下是很难获得的，因为现有互联网模式仅是一个信息交换系统，而非一个生命体验系统，因此现有的用户画像方式无法真正获得用户内在的生命状态的画像。

3、专利文献cn116127204a记载了一种多视角用户画像方法、多视角用户画像系统、设备和介质。该方法包括对用户的原始数据集进行数据清洗，并进行向量化处理，构建用户图结构数据，得到降维

4、专利文献cn112231556a记载了一种基于对话场景的用户画像方法、装置、设备及介质，该方法涉及数字医疗
，包括获取目标对话数据；根据所述目标对话数据，获取历史对话数据；对所述目标对话数据、所述历史对话数据进行预处理，得到待理解对话数据；对所述待理解对话数据进行特征提取，得到目标意图特征、目标实体特征、目标标签属性特征；根据所述目标意图特征、所述目标实体特征、所述目标标签属性特征进行用户画像，得到目标用户画像特征。从而基于上下文依赖丰富了特征，解决了无特征或只有少量人工特征的情况，得到了丰富的用户画像。该方法采用用户已产生历史对话数据，建立一套评分系统，按轮次衰减法进行评分筛选用户特征。该方式的缺点在于，作为基础的上下文对话往往分散零碎，且有很多语义不明确的情形，据此提取的各项特征会与实际产生较大偏差，生成的用户画像也不够精确。

技术实现思路

1、本专利技术的目的是提供一种基于大语言模型的用户画像方法、装置、计算机设备及计算机可读存储介质，用以解决现有用户画像技术因无法真正获得用户内在生命状态画像而导致生成的用户画像不够精确的问题。

2、为了实现上述目的，本专利技术采用以下技术方案：

3、第一方面，提供了一种基于大语言模型的用户画像方法，包括：

4、获取基于人格理论建立的多个用户画像分类集，其中，所述用户画像分类集包含有m个人物类型模板，所述人物类型模板包含有n个人格特征标签，m和n分别表示正整数；

5、针对在所述多个用户画像分类集中的各个用户画像分类集，先采用半人工模拟自然对话的方式，通过人工调试获得专用的语料生成提示词模版库，然后根据对应的人物类型模板，在所述语料生成提示词模版库中采用相应的提示词模版，生成对应的话术语料库，其中，所述话术语料库包含有多个话术语料以及与所述多个话术语料一一对应的多个语料标注信息，所述语料标注信息包含有话术意图和用户人格特征类型，所述提示词模版用于向大语言模型提供与当前对话文本语义相关的用户人格特征标签的可选列表；

6、根据所述各个用户画像分类集的话术语料库，利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库，并得到能够体现思维链推理能力的数据标注集，其中，所述数据标注集由标签对的序列构成，所述标签对是指具有关联性的话题标签与人格特征标签；

7、利用所述数据标注集和基于transformer架构的语言生成模型，基于用户画像分类集，训练多个transformer架构的任务型垂直领域对话模型，并针对各个所述任务型垂直领域对话模型，通过对应模型训练，在每次用户进入对应领域话题时，由对应模型输出在最小轮次对话成本的对话策略，以便作为对应的最优对话策略，其中，所述任务型垂直领域对话模型的每轮对话均有一个属于对应的用户画像分类领域的话题ti，以便对抽取出来的用户特征cti进行标注，所述任务型垂直领域对话模型是通过标注和训练优质的领域话术语料，达到优化对话成本和提高用户画像完成度的目的；

8、使用基于所述多轮对话语料库进行大语言模型训练得到的对话机器人，按照所述最优对话策略使用自然语言与目标用户进行对话交流，并由预训练的对话模型基于当前对话状态自动调整对话策略，获取用户应答内容，然后进行语义分析，提取在所述用户应答内容中的关键词，再然后与各个所述人物类型模板进行语义相似度计算的对比匹配，最后选取具有最大相似度的人物类型模板作为匹配结果，建立用户人格特征标签集，以便完成对所述目标用户的用户画像。

9、基于上述
技术实现思路
，提供了一种能够在互联网或元宇宙等场景下以自然语言方式与用户交流互动并完成用户画像的新方案，即是先预先建立一套覆盖面广的人格模板数据库，利用大语言模型训练对话机器人，建立对话机器人的最优对话策略，通过对话机器人在元宇宙、互联网及智能交互设备等多种场景下与用户进行自然语言交流，在多轮对话中进行语义分析，获得关键词与人格模版匹配，从而获得用户精准画像，能够同时挖掘用户显性特征和隐性特征，具有更高的准确性，是一种主动式、动态的用户画像方式，极大提高用户画像的精准度和即时性，便于实际应用和推广。

10、在一个可能的设计中，所述多个用户画像分类集包含有基于身体特征信息、家庭信息、职业信息、健康信息、教育信息、知识偏好信息、运动偏好信息、音乐偏好信息、休闲偏好信息、娱乐偏好信息、饮食偏好信息、出行偏好信息、消费偏好信息、旅游偏好信息和/或游戏偏好信息进行用户画像分类所得的多个人物类型模板集合；

11、和/或，所述多个用户画像分类集包含有若干对用户画像分类父集与用户画像分类子集，进而形成有基于决策树的用户画像分类结构，以建立多项人格特征之间的关联关系，其中，每个用户画像分类父集包含有至少一个用户画像分类子集。

12、在一个可能的设计中，根据所述各个用户画像分类集的话术语料库，利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库，并得到能够体现思维链推理能力的数据标注集，包括：

13、根据所述各个用户画像分类集的对话语料库，由人工撰写专用提示词模版，形成模板对话策略，并将专用提示词模版本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的用户画像方法，其特征在于，包括：

2.根据权利要求1所述的用户画像方法，其特征在于，所述多个用户画像分类集包含有基于身体特征信息、家庭信息、职业信息、健康信息、教育信息、知识偏好信息、运动偏好信息、音乐偏好信息、休闲偏好信息、娱乐偏好信息、饮食偏好信息、出行偏好信息、消费偏好信息、旅游偏好信息和/或游戏偏好信息进行用户画像分类所得的多个人物类型模板集合；

3.根据权利要求1所述的用户画像方法，其特征在于，根据所述各个用户画像分类集的话术语料库，利用大语言模型建立以获取用户画像特征为目的的多轮对话语料库，并得到能够体现思维链推理能力的数据标注集，包括：

4.根据权利要求3所述的用户画像方法，其特征在于，在所述多轮多次对话模拟中按照如下步骤S311～S314来生成对话：

5.根据权利要求1所述的用户画像方法，其特征在于，所述对话成本基于大语言模型调用次数和会话消耗量来计算得到，其中，所述会话消耗量是指每次大语言模型调用时输入和输出的文本总长度；

6.根据权利要求1所述的用户画像方法，其特征在于，在获取

7.根据权利要求1所述的用户画像方法，其特征在于，在通过某轮对话得到所述目标用户的至少一个新人格特征标签后，所述方法还包括：

8.一种基于大语言模型的用户画像装置，其特征在于，包括有依次通信连接的分类集获取模块、语料库编辑模块、大语言模型应用模块、对话策略优化模块和对话语义分析模块；

9.一种计算机设备，其特征在于，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～7中任意一项所述的用户画像方法。

10.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～7中任意一项所述的用户画像方法。

...

【技术特征摘要】

1.一种基于大语言模型的用户画像方法，其特征在于，包括：

4.根据权利要求3所述的用户画像方法，其特征在于，在所述多轮多次对话模拟中按照如下步骤s311～s314来生成对话：

5.根据权利要求1所述的用户画像方法，其特征在于，所述对话成本基于大语言模型调用次数和会话消耗量来计算得到，其中，所述会话消耗量是指...

【专利技术属性】
技术研发人员：李兵，刘一立，徐东，李原，李薪宇，
申请(专利权)人：碳丝路文化传播成都有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人