【技术实现步骤摘要】
本说明书一个或多个实施例涉及计算机,尤其涉及一种模型持续预训练和信息推荐方法、装置、介质及设备。
技术介绍
1、随着人工智能的飞速发展,自然语言处理技术也得到了革命性突破,其中,基于深度神经网络架构的大型语言模型通过海量互联网文本数据的预训练,在通用语言理解与生成任务中展现出强大的泛化能力。此类模型通过捕捉语言统计规律,在开放域对话、文本创作及常识性问答等场景中实现了接近甚至超越人类水平的表现,成为人工智能技术产业化的重要基石。
2、然而,目前通常采用广域的互联网公开数据以及通识性知识来对大语言模型进行预训练,但是预训练后的模型在面对一些样本较为稀缺的专业性领域时,往往会存在错误率高、逻辑推理能力不足等问题,尤其是金融保险领域,其中特有的专业术语、复杂业务逻辑和高频更新的政策使得样本获取的难度较大,在此类样本稀缺的情况下所预训练出的模型对相关内容的语义理解能力较差,难以满足特定行业的精准性需求。
技术实现思路
1、有鉴于此,本说明书一个或多个实施例提供技术方案如下:
【技术保护点】
1.一种模型持续预训练方法,包括:
2.如权利要求1所述的方法,基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练,具体包括:
3.如权利要求1所述的方法,基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练,具体包括:
4.如权利要求1所述的方法,基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练,具体包括:
5.如权利要求4所述的方法,若该token所在的输入文本为查询文本,则基于双向注意力机制,确定该token对应的特征表示,具体包括:
6.如权利要求4述的方法,若该toke
...【技术特征摘要】
1.一种模型持续预训练方法,包括:
2.如权利要求1所述的方法,基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练,具体包括:
3.如权利要求1所述的方法,基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练,具体包括:
4.如权利要求1所述的方法,基于所述多轮对话样本对经过预训练的通用问答模型进行持续预训练,具体包括:
5.如权利要求4所述的方法,若该token所在的输入文本为查询文本,则基于双向注意力机制,确定该token对应的特征表示,具体包括:
6.如权利要求4述的方法,若该token所在的输入文本为领域知识信息,则基于单向注意力机制,确定该token对应的输出特征表示,具体包括:
7.如权利要求1...
【专利技术属性】
技术研发人员:李政,王峰,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。