一种利用大语言模型生成高质量问答数据的方法及装置制造方法及图纸

技术编号：39731961 阅读：21 留言：0更新日期：2023-12-17 23:35

本发明专利技术提供一种利用大语言模型生成高质量问答数据的方法，包括：将目标领域的知识文本填入预设的生成模板，得到若干第一提示数据；将若干第一提示数据输入大语言模型，得到对应的第一问答对；将若干第一提示数据分别填入改写模板，得到若干改写提示数据；将若干改写提示数据输入大语言模型，得到对应的第二问答对；基于若干第一问答对和若干第二问答对，确定目标问答对

全部详细技术资料下载

【技术实现步骤摘要】
一种利用大语言模型生成高质量问答数据的方法及装置

[0001]本申请涉及人工智能
，尤其涉及一种利用大语言模型生成高质量问答数据的方法及装置
。

技术介绍

[0002]训练与微调一个遵循用户指令且满足特定需求
(
如精通某专业领域知识
)
的大语言模型需要构造大量数据集，人工构造数据集成本昂贵，且费时费力，无法满足短期大量生产数据的要求
。
由于低成本
、
高效率的特点，调用大语言模型开放接口生成数据的方法成为一种流行的数据生成方法
。
尽管利用大语言模型生成数据廉价高效，但大语言模型本身存在着编造数据
、
长文本遗忘
、
生成错乱等问题，如何生成高质量的问答数据成为一个难点
。

技术实现思路

[0003]为了解决上述问题，本申请提出一种利用大语言模型生成高质量问答数据的方法
、
装置及电子设备，能高效且便捷的生成高质量的问答数据
。
[0004...

【技术保护点】

【技术特征摘要】
1.
一种利用大语言模型生成高质量问答数据的方法，其特征在于，所述方法包括：将目标领域的知识文本填入预设的生成模板，得到若干第一提示数据；所述第一提示数据为提问形式或指令形式；所述第一提示数据针对第一知识点提出问题；将所述若干第一提示数据输入大语言模型，得到对应的第一问答对；将所述若干第一提示数据分别填入改写模板，得到若干改写提示数据；所述改写提示数据中包含针对目标知识点提出的问题，该目标知识点与所述第一知识点具有相关性，所述第一知识点和所述目标知识点均根据所述目标领域确定；将所述若干改写提示数据输入所述大语言模型，得到对应的第二问答对；基于所述若干第一问答对和若干所述第二问答对，确定目标问答对
。2.
根据权利要求1所述的方法，其特征在于，所述生成模板至少包括指令
/
提示语句；所述将目标领域的知识文本填入预设的生成模板，得到若干第一提示数据，包括：将所述目标领域知识文本按照预设单元进行划分，得到若干知识片段；对所述若干知识片段中的每个知识片段，将该知识片段按照所述生成模板中的指令
/
提示语句填写到所述生成模板，得到该知识片段对应的第一提示数据；基于所述若干知识片段对应的第一提示数据，得到所述若干第一提示数据
。3.
根据权利要求1所述的方法，其特征在于，所述将目标领域的知识文本填入预设的生成模板之前，还包括：接收与所述目标领域相关的数据集，并将所述数据集进行识别转换；从识别转换后的数据集中过滤干扰数据，并对过滤后得到的文本数据进行分章节处理，得到所述目标领域的知识文本
。4.
根据权利要求1所述的方法，其特征在于，所述改写模板至少包括指令
/
提示语句和示例问答对；所述将所述若干第一提示数据分别填入改写模板，得到若干改写提示数据，包括：对所述若干第一提示数据中的每个第一提示数据，将该第一提示数据按照所述改写模板中的指令
/
提示语句和示例问答对填写到所述改写模板，得到该第一提示数据对应的改写提示数据；基于所述若干第一提示数据对应的改写提示数据，得到所述若干改写提示数据
。5.
根据权利要求1所述的方法，其特征在于，所述改写模板包括深度改写模板和广度改写模板；所述将所述若干第一提示数据分别填入改写模板，得到若干改写提示数据，包括：将所述若干第一提示数据分别输入所述深度改写模板，得到若干第二提示数据，所述第二提示数据中的目标知识点在所述目标领域的知识体系中处于所述第一知识点的更下游；将所述若干第一提示数据分别输入所述广度改写模板，得到若干第三提示数据，所述第三提示数据...

【专利技术属性】
技术研发人员：郭芷君，唐添翼，夏敏，易丛文，管健，
申请(专利权)人：深圳智现未来工业软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人