一种基于GPT模型的生化知识问答方法、系统及存储介质技术方案

技术编号:38687880 阅读:27 留言:0更新日期:2023-09-02 23:01
本发明专利技术提供一种基于GPT模型的生化知识问答方法、系统及存储介质,涉及智能问答技术领域,包括:步骤S1,收集生化知识相关的语料,记为生化知识语料;建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;步骤S2,将生化知识问答语料库中的文本数据进行分词并构建字典进行编码;步骤S3,构建生化问答模型;步骤S4,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用;本发明专利技术用于解决现有技术中通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进,导致无法对生化领域的问答系统进行比较细致的改进的问题。行比较细致的改进的问题。行比较细致的改进的问题。

【技术实现步骤摘要】
一种基于GPT模型的生化知识问答方法、系统及存储介质


[0001]本专利技术涉及智能问答
,尤其涉及一种基于GPT模型的生化知识问答方法、系统及存储介质。

技术介绍

[0002]GPT是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型,使用GPT可以将文本录入并根据需要的条件对模型进行训练;同时目前生成式问答系统主要基于ELMo、BERT、XLNet、Transformer、GPT等经典的深度学习算法来实现。这些预训练模型通过提高训练样本数量与质量、增加深度神经网络成熟的方式来对文本自动生成算法进行优化;现有的基于GPT用于问答方面的改进通常是对问答系统中文本生成方面的改进,比如在申请公开号为:“CN115809322A”的专利技术专利中,公开了“一种基于GPT3的问答系统文本生成方法及装置”,该方案就是“通过该生成式问答系统,能够对答案库进行扩展,便于与用户进行无感交互,解决了现有业务知识库中业务问答对较多,但无法覆盖所有业务场景、无法覆盖用户问题的技术问题”,其他现有的问答系统通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进,这会导致无法对某一领域的问答系统进行比较细致的改进,比如生物领域以及化学领域,鉴于此,有必要对现有的基于GPT模型的问答系统进行改进。

技术实现思路

[0003]针对现有技术存在的不足,本专利技术目的是提供一种基于GPT模型的生化知识问答方法、系统及存储介质,用于解决现有技术中通常是对问答系统中覆盖的问题数量以及涉及的领域数量进行改进,导致无法对生化领域的问答系统进行比较细致的改进的问题。
[0004]为了实现上述目的,第一方面,本专利技术提供一种基于GPT模型的生化知识问答方法,包括:步骤S1,使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料,记为生化知识语料;使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;步骤S2,将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;步骤S3,构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;步骤S4,基于步骤S3中生化问答模型的模拟训练结果,判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问
使用。
[0005]进一步地,所述步骤S1包括如下子步骤:步骤S101,使用网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索并获取生化知识相关的语料,记为生化基础语料;步骤S102,对生化基础语料进行数据清洗;步骤S103,对生化基础语料进行数据去噪;步骤S104,对生化基础语料进行标准化处理;步骤S105,将经过步骤S102、步骤S103以及步骤S104处理后的生化基础语料记为生化知识语料。
[0006]进一步地,所述步骤S101包括如下子步骤:步骤S1011,将网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索到的若干语料记为未处理语料;步骤S1012,在化学图片素材库中获取若干图片,记为化学图片,使用图像比对法将化学图片与未处理语料中的图片进行比对,将比对结果一致的未处理语料记为生化基础语料;获取未处理语料中的六边形,记为语料六边形,当语料六边形的顶点连接有直线且直线末端为字母时,将语料六边形所在的未处理语料记为生化基础语料;步骤S1013,使用网络爬虫在数据库中获取若干生物学相关的符号,记为生物符号,将生物符号逐一与未处理语料中的符号进行比对,将比对结果一致的未处理语料记为生化基础语料。
[0007]进一步地,进一步地,所述步骤S102包括如下子步骤:步骤S1021,将生化基础语料中的若干文本语料记为文本语料1至文本语料N,其中,N为正整数;步骤S1022,对文本语料1至文本语料N使用第一数据清洗法,所述第一数据清洗法包括,将文本语料1至文本语料N中的每一个文本语料与其余所有文本语料进行查重,获取每个文本语料对应的查重率最高的文本语料,记为相似文本语料;对于文本语料1至文本语料N中的任意一个文本语料,当文本语料与其对应的相似文本语料的查重率大于第一标准查重率时,将该文本语料在生化基础语料中删除;步骤S1023,对经过步骤S1022的文本语料1至文本语料M使用第二数据清洗法,其中,M为正整数且小于等于N;所述第二数据清洗法包括,获取文本语料1至文本语料M中所有文本语料的文本格式,记为文本格式1至文本格式M;在文件格式查询信息库中以生化为关键词获取所有与生化相关的文本格式,记为生化格式库;将文本格式1至文本格式M中的每一个文本格式放入生化格式库中进行逐一匹配,当文本格式未在生化格式库中匹配到对应的格式时,将该文本格式对应的文本语料在生化基础语料中删除。
[0008]进一步地,所述步骤S103包括如下子步骤:步骤S1031,以生化为关键词在关键词数据库中获取生化相关的关键词,记为生化
关键词库;步骤S1032,对文本语料1至文本语料N使用数据去噪法得到关键数量1至关键数量N,所述数据去噪法包括,对于文本语料1至文本语料N中的任意一个文本语料,对文本语料进行中文分词处理,将所有的中文词记为中文词1至中文词Z;将中文词1至中文词Z与生化关键词库中的所有关键词进行逐一匹配,当中文词1至中文词Z中的任意一个中文词与生化关键词库中的任意一个关键词完全相同时记为匹配成功,获取文本语料中匹配成功的中文词的数量,记为关键数量;步骤S1033,对于关键数量1至关键数量N中的任意一个关键数量,当关键数量小于等于标准关键数量时,将该关键数量对应的文本语料在生化基础语料中删除。
[0009]进一步地,所述步骤S104包括如下子步骤:步骤S1041,对文本语料1至文本语料N中的所有文本语料使用指标一致化处理,其中,对于指标一致化处理中的逆指标一致化处理使用减法一致化进行处理;步骤S1042,对经过步骤S1041处理后的文本语料1至文本语料N使用无量纲化处理。
[0010]进一步地,所述步骤S1还包括如下子步骤:步骤S106,将生化知识语料录入GPT,使用GPT基于生化知识语料生成问题语料,记为问题语料库;步骤S107,将问题语料库中的问题语料与其对应的生化知识语料记为一对问答语料;步骤S108,将所有成对的问答语料记为生化知识问答语料库,将生化知识问答语料库中的若干对问答语料记为问答语料1至问答语料T。
[0011]进一步地,所述步骤S2包括如下子步骤:步骤S201,使用生化关键词库获取问答语料1至问答语料T中每个问答语料出现次数最多的关键词,并记为该语料的头部关键词;步骤S202,将生化知识问答语料库中的所有问答语料放入字典内,并基于所有问答语料的头部关键词建立字典的目录,所述字典的目录使用若干头部关键词的第一个字的首字母进行排序;随机选取生化知识语料库中第一百分比的问答语料,记为训练集,并将剩下的若干问答语料记为测试集;步骤S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GPT模型的生化知识问答方法,其特征在于,包括:步骤S1,使用网络爬虫以及API下载从科学论文以及数据库中收集生化知识相关的语料,记为生化知识语料;使用GPT基于生化知识语料生成问题语料,建立若干成对的问答语料,将若干成对的问答语料记为生化知识问答语料库;步骤S2,将生化知识问答语料库中的文本数据进行分词并构建字典进行编码,将生化知识问答语料库中的文本数据记为数据集,将数据集划分为训练集、验证集以及测试集;步骤S3,构建生化问答模型,使用生化问答模型对生化知识问答语料库内的文本数据进行模拟训练;步骤S4,基于步骤S3中生化问答模型的模拟训练结果,判断生化训练模型是否通过测试,当生化问答模型通过测试时,将生化问答模型部署在服务器上,通过接口进行访问使用。2.根据权利要求1所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S1包括如下子步骤:步骤S101,使用网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索并获取生化知识相关的语料,记为生化基础语料;步骤S102,对生化基础语料进行数据清洗;步骤S103,对生化基础语料进行数据去噪;步骤S104,对生化基础语料进行标准化处理;步骤S105,将经过步骤S102、步骤S103以及步骤S104处理后的生化基础语料记为生化知识语料。3.根据权利要求2所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S101包括如下子步骤:步骤S1011,将网络爬虫以及API下载在科学论文以及数据库中以生化知识为关键词搜索到的若干语料记为未处理语料;步骤S1012,在化学图片素材库中获取若干图片,记为化学图片,使用图像比对法将化学图片与未处理语料中的图片进行比对,将比对结果一致的未处理语料记为生化基础语料;获取未处理语料中的六边形,记为语料六边形,当语料六边形的顶点连接有直线且直线末端为字母时,将语料六边形所在的未处理语料记为生化基础语料;步骤S1013,使用网络爬虫在数据库中获取若干生物学相关的符号,记为生物符号,将生物符号逐一与未处理语料中的符号进行比对,将比对结果一致的未处理语料记为生化基础语料。4.根据权利要求3所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S102包括如下子步骤:步骤S1021,将生化基础语料中的若干文本语料记为文本语料1至文本语料N,其中,N为正整数;步骤S1022,对文本语料1至文本语料N使用第一数据清洗法,所述第一数据清洗法包括,将文本语料1至文本语料N中的每一个文本语料与其余所有文本语料进行查重,获取每
个文本语料对应的查重率最高的文本语料,记为相似文本语料;对于文本语料1至文本语料N中的任意一个文本语料,当文本语料与其对应的相似文本语料的查重率大于第一标准查重率时,将该文本语料在生化基础语料中删除;步骤S1023,对经过步骤S1022的文本语料1至文本语料M使用第二数据清洗法,其中,M为正整数且小于等于N;所述第二数据清洗法包括,获取文本语料1至文本语料M中所有文本语料的文本格式,记为文本格式1至文本格式M;在文件格式查询信息库中以生化为关键词获取所有与生化相关的文本格式,记为生化格式库;将文本格式1至文本格式M中的每一个文本格式放入生化格式库中进行逐一匹配,当文本格式未在生化格式库中匹配到对应的格式时,将该文本格式对应的文本语料在生化基础语料中删除。5.根据权利要求4所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S103包括如下子步骤:步骤S1031,以生化为关键词在关键词数据库中获取生化相关的关键词,记为生化关键词库;步骤S1032,对文本语料1至文本语料N使用数据去噪法得到关键数量1至关键数量N,所述数据去噪法包括,对于文本语料1至文本语料N中的任意一个文本语料,对文本语料进行中文分词处理,将所有的中文词记为中文词1至中文词Z;将中文词1至中文词Z与生化关键词库中的所有关键词进行逐一匹配,当中文词1至中文词Z中的任意一个中文词与生化关键词库中的任意一个关键词完全相同时记为匹配成功,获取文本语料中匹配成功的中文词的数量,记为关键数量;步骤S1033,对于关键数量1至关键数量N中的任意一个关键数量,当关键数量小于等于标准关键数量时,将该关键数量对应的文本语料在生化基础语料中删除。6.根据权利要求5所述的一种基于GPT模型的生化知识问答方法,其特征在于,所述步骤S1...

【专利技术属性】
技术研发人员:何加铭郑韶伟王家功金錱
申请(专利权)人:宁波甬恒瑶瑶智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1