一种心理领域数据生成、模型训练方法、装置及存储介质制造方法及图纸

技术编号：40957261 阅读：29 留言：0更新日期：2024-04-18 20:34

本发明专利技术人工智能技术领域，提供了一种心理领域数据生成、模型训练方法、装置及存储介质。目的在于解决目前缺乏有效的生成心理领域高质量对话数据生成和训练垂直领域大语言模型的方法。输入策略标注语料和开源数据集，构建马尔科夫链生成策略，去重并初始化话题和策略组列表，供多轮对话生成。通过策略匹配找到最相似对话案例，提供给专家级语言模型引导回复。定义模板并用案例、问题和策略填充，生成多轮对话并保存为心理领域数据集。训练大语言模型以适应心理领域多轮对话任务，采用特殊标识符、因果语言模型和加权平均损失函数提升专业度和针对性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能技术人机对话系统中的自然语言理解领域，提供了一种心理领域数据生成、模型训练方法、装置及存储介质。

技术介绍

1、近年来，随着大规模语料库和硬件容量的迅速增长，研究人员发现通过扩大模型和训练数据的规模可以持续提高模型容量，这最终催生了大语言模型，如gpt-3（1750亿参数）、palm（5400亿参数）和llama（650亿参数）。与较小模型相比，大语言模型在理解和生成文本方面表现显著，并逐渐成为热门的人工智能研究趋势。通过利用大语言模型进行高效的文献分析、复杂数据解释、文档写作等彻底改变了自然和社会科学的研究方法，并促进了跨学科合作。

2、虽然大语言模型在通用领域方面完成各式各样的任务具有巨大的潜力，但要有效地将其打造成一个能解决实际问题的“对话机器人”依然面临着巨大挑战。这就导致了“大语言模型领域专业化”的出现。具体而言，不同领域、角色和任务之间的对话和语言风格存在显著差异，比如从心理学疏导到法律咨询再到在线聊天等，不同场景下对大语言模型回复的针对性、专业度要求不一，某些场景需要丰富的过往案例经验，...

【技术保护点】

1.一种心理领域数据生成、模型训练方法,其特征在于，包括以下步骤：

2.根据权利要求1所述的一种心理领域数据生成、模型训练方法,其特征在于，策略模拟步骤具体包括以下步骤：

3.根据权利要求1所述的一种心理领域数据生成、模型训练方法,其特征在于，对话案例检索步骤,具体包括以下步骤：

4.根据权利要求3所述的一种心理领域数据生成、模型训练方法,其特征在于，在策略匹配单元中，通过计算两组策略的最小编辑距离来判断二者的相似度。

5.根据权利要求3所述的一种心理领域数据生成、模型训练方法,其特征在于，在策略匹配单元中，采用动态规划的方式在策略标注语料...

【技术特征摘要】

1.一种心理领域数据生成、模型训练方法,其特征在于，包括以下步骤：

2.根据权利要求1所述的一种心理领域数据生成、模型训练方法,其特征在于，策略模拟步骤具体包括以下步骤：

3.根据权利要求1所述的一种心理领域数据生成、模型训练方法,其特征在于，对话案例检索步骤,具体包括以下步骤：

5.根据权利要求3所述的一种心理领域数据生成、模型训练方法,其特征在于，在策略匹...

【专利技术属性】
技术研发人员：唐天驰，刘昌松，刘胜坤，张汝民，
申请(专利权)人：广东数业智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人