一种对话数据集生成方法、装置、存储器和设备制造方法及图纸

技术编号:43470446 阅读:23 留言:0更新日期:2024-11-27 13:08
本发明专利技术涉及一种提出的对话数据集生成方法和装置,包括采集预设领域的参考文本信息;构建所述预设领域的提示,所述提示包括示范示例、思考链和逻辑链;将所述预设领域的参考文本信息和提示输入大型语言模型LLM中,生成所述预设领域的对话数据集。本发明专利技术利用大型语言模型自动化地生成高质量、多样化且具有广泛应用场景的对话数据集,以支持对话系统的快速发展和应用。本发明专利技术还涉及一种设备和存储介质。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种对话数据集生成方法、装置、存储器和设备


技术介绍

1、随着人工智能技术的快速发展,对话系统已经成为人机交互的重要组成部分。高质量的对话数据集是训练和评估对话系统的关键资源。然而,现有的对话数据集往往存在规模有限、覆盖场景不全面、缺乏多样性等问题,这限制了对话系统的性能提升和应用范围的扩展。

2、传统的对话数据集生成方法主要依赖于人工收集和标注,这种方法成本高昂、效率低下,并且难以快速适应新的对话场景和领域。此外,人工标注的数据集可能包含偏见和错误,影响对话系统的准确性和公正性。

3、近年来,大型语言模型如gpt-3等在自然语言理解和生成方面取得了显著进展,为自动生成高质量对话数据集提供了新的可能性。然而,如何有效利用大型语言模型生成具有真实性、多样性和广泛覆盖度的对话数据集,仍然是一个亟待解决的技术挑战。


技术实现思路

1、为了解决如何有效利用大型语言模型生成具有真实性、多样性和广泛覆盖度的对话数据集的技术问题,本专利技术提供了一种对话数据集生成方本文档来自技高网...

【技术保护点】

1.一种对话数据集生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,所述将所述预设领域的参考文本信息和提示输入大型语言模型LLM中,生成所述预设领域的对话数据集,具体包括:

4.根据权利要求3所述的方法,其特征在于,所述LLM根据所述对话内容的输出格式和所述参考文本信息,生成所述预设领域的对话数据集,具体包括:

5.根据权利要求3所述的方法,其特征在于,所述LLM根据所述对话内容的输出格式和所述参考文本信息,生成所述预设领域的对话数据集,具体包括:

6.根...

【技术特征摘要】

1.一种对话数据集生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,所述将所述预设领域的参考文本信息和提示输入大型语言模型llm中,生成所述预设领域的对话数据集,具体包括:

4.根据权利要求3所述的方法,其特征在于,所述llm根据所述对话内容的输出格式和所述参考文本信息,生成所述预设领域的对话数据集,具体包括:

5.根据权利要求3所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:李彤亮侯霞李奇峰宋文凤杨鸿波
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1