基因组学问答处理方法、系统、电子设备及存储介质技术方案

技术编号:41336346 阅读:21 留言:0更新日期:2024-05-20 09:55
本申请公开了一种基因组学问答处理方法、系统、电子设备及存储介质,方法包括:获取预设基因数据集;对所述预设基因数据集进行预处理,得到第一混合问答语料数据;通过预设分词器对所述第一混合问答语料数据进行分词处理,得到第二混合问答语料数据;将所述第二混合问答语料数据输入至预设生成式语言模型进行训练,得到基因组自然语言大模型;获取基因组学自然问答任务,以通过所述基因组自然语言大模型对所述基因组学自然问答任务进行处理,得到目标处理结果。本申请实施例能够实现混合基因序列和自然语言的问答对话,并且有效提高了模型预测的准确性。本申请可以广泛应用于人工智能领域。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种基因组学问答处理方法、系统、电子设备及存储介质


技术介绍

1、基因组学正在向数据驱动的科学方向发展,随着人类基因组学中高通量数据生成技术的出现,基因组数据的产生速度呈指数级增长。为了从这些基因组数据中提取知识和模式,人工智能,尤其是深度学习方法发挥了重要作用。相关技术中,一些深度学习工具或神经网络,直接针对下游任务进行全量参数或者部分参数的微调,成本较高,灵活性较差,需要针对每个任务单独微调和保存一组模型,可复用性较低,并且不支持自然语言,使用起来比较困难,对用户极不友好。另外,一些大语言模型难以理解基因组学的相关内容,如基因碱基和序列等,因此也无法回答基因组深层次的问题。

2、综上,相关技术中存在的技术问题有待得到改善。


技术实现思路

1、本申请实施例的主要目的在于提出一种基因组学问答处理方法、系统、电子设备及存储介质,能够实现混合基因序列和自然语言的问答对话,并且有效提高了模型预测的准确性。

2、为实现上述目的,本申请实施例的一方面提出了一种基因组本文档来自技高网...

【技术保护点】

1.一种基因组学问答处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设基因数据集包括第一基因数据集、第二基因数据集以及第三基因数据集;

3.根据权利要求2所述的方法,其特征在于,所述对所述预设基因数据集进行预处理,得到第一混合问答语料数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述目标基因数据集进行问题及答案数据整理,生成所述第一混合问答语料数据,包括:

5.根据权利要求1所述的方法,其特征在于,所述通过预设分词器对所述第一混合问答语料数据进行分词处理,得到第二混合问答语料数据,包括:...

【技术特征摘要】

1.一种基因组学问答处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述预设基因数据集包括第一基因数据集、第二基因数据集以及第三基因数据集;

3.根据权利要求2所述的方法,其特征在于,所述对所述预设基因数据集进行预处理,得到第一混合问答语料数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述目标基因数据集进行问题及答案数据整理,生成所述第一混合问答语料数据,包括:

5.根据权利要求1所述的方法,其特征在于,所述通过预设分词器对所述第一混合问答语料数据进行分词处理,得到第二混合问答语料数据,包括:

【专利技术属性】
技术研发人员:刘华清周淑仙霍喾赓刘嘉惠陈沛逸
申请(专利权)人:清华珠三角研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1