当前位置: 首页 > 专利查询>清华大学专利>正文

基于自然语言模型的交互方法、装置、电子设备及介质制造方法及图纸

技术编号:41373604 阅读:17 留言:0更新日期:2024-05-20 10:18
本发明专利技术涉及计算机数据处理领域,特别涉及一种基于自然语言模型的交互方法、装置、电子设备及介质。方法包括:接收用户的当前交互内容;将当前交互内容输入至预先训练的自然语言模型,输出当前交互内容对应的交互结果,其中,预先训练的自然语言模型基于通用训练数据和多个学科知识数据,利用第一学习率和第二学习率训练得到;发送当前交互内容对应的交互结果至用户。由此,通过利用第一学习率和第二学习率对自然语言模型进行多阶段训练,解决了现有的训练注入领域知识的方案不明确,以及对于同样的学科问题更换提问方式后,可能导致语言模型回答结果截然不同的问题,提高自然语言模型的精确性和泛化能力。

【技术实现步骤摘要】

本专利技术涉及计算机数据处理领域,特别涉及一种基于自然语言模型的交互方法、装置、电子设备及介质


技术介绍

1、自然语言大模型(large language model,简称llm),如chatgpt(chatgenerative pre-trained transformer,聊天生成预训练转换器)应用较为广泛,它强大的文本理解和对话能力令人惊叹,不仅如此,它还具备丰富的学科知识(例如对中学、大学的数、理、物、化、生、托福、雅思、计算机、法律等知识有比较深入的了解),可以咨询它各种相关问题,在给出问题答案的同时还能根据用户的提问详细地解释,相比于传统搜索引擎搜到的碎片化的结果更容易让人理解,极大提高了学习生产效率。已经开源的自然语言大模型的训练数据主要由互联网爬虫数据构成,仅具备少量的学科知识数据,回答学科问题的能力比较薄弱,所以,需要在已经开源的自然语言大模型上进行微调,使其具备一些特定领域的知识。

2、相关技术中,微调的具体方式目前还没有统一的做法,如何更好地为自然语言大模型注入学科知识,以提高模型的交互体验是亟待解决的问题。

...

【技术保护点】

1.一种基于自然语言模型的交互方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于自然语言模型的交互方法,其特征在于,在将所述当前交互内容输入至所述预先训练的自然语言模型,输出所述当前交互内容对应的交互结果之前,所述方法还包括:

3.根据权利要求2所述的基于自然语言模型的交互方法,其特征在于,在得到所述预先训练的自然语言模型之前,所述方法还包括:

4.根据权利要求2所述的基于自然语言模型的交互方法,其特征在于,在从所述预设的提示库中获取所述第一训练样本对应的第一提示信息之前,所述方法还包括:

5.根据权利要求1-4中任一项所述的基...

【技术特征摘要】

1.一种基于自然语言模型的交互方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于自然语言模型的交互方法,其特征在于,在将所述当前交互内容输入至所述预先训练的自然语言模型,输出所述当前交互内容对应的交互结果之前,所述方法还包括:

3.根据权利要求2所述的基于自然语言模型的交互方法,其特征在于,在得到所述预先训练的自然语言模型之前,所述方法还包括:

4.根据权利要求2所述的基于自然语言模型的交互方法,其特征在于,在从所述预设的提示库中获取所述第一训练样本对应的第一提示信息之前,所述方法还包括:

5.根据权利要求1-4中任一项所述的基于自然语言模型的交互方法,其特征在于,所述第二学习率小于所述第一学习率。

【专利技术属性】
技术研发人员:汪玉宁雪妃
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1