面向开放域科普的问答库自动更新方法和装置制造方法及图纸

技术编号:38074884 阅读:9 留言:0更新日期:2023-07-06 08:43
本申请提出了一种面向开放域科普的问答库自动更新方法,包括:获取问题库,并检索问题对应的答案和文本得到文本

【技术实现步骤摘要】
面向开放域科普的问答库自动更新方法和装置


[0001]本申请涉及自然语言处理
,尤其涉及一种面向开放域科普的问答库自动更新方法和装置。

技术介绍

[0002]自动问答系统被广泛应用于现实场景中,如聊天机器人、智能客服、语音助手等。传统的自动问答系统存在若干问题:首先,对于开放域的问答场景,很难获取大规模的有效数据来构建相应的问答系统;其次,开放域下的问答场景,每次问题检索都需要花费一定的资源,不能做到根据检索到的文本进行“举一反三”;同时针对开放域的中文问答算法,缺少质量较高的数据机。

技术实现思路

[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此,本申请的第一个目的在于提出一种面向开放域科普的问答库自动更新方法,解决了现有方法很难获取大规模的有效数据来构建相应的问答系统,问题检索花费大量资源,且缺少质量较高的数据机技术问题,提高了问答对生成的准确度,同时能够使开放域问答功能学会“举一反三”,通过检索一个问题可以根据检索到的文本生成多条问答对,自动更新知识库。
[0005]本申请的第二个目的在于提出一种面向开放域科普的问答库自动更新装置。
[0006]本申请的第三个目的在于提出一种计算机设备。
[0007]本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
[0008]为达上述目的,本申请第一方面实施例提出了一种面向开放域科普的问答库自动更新方法,包括:获取问题库,并根据问题库检索问题对应的答案和文本,得到文本

问题

答案数据集;将文本

问题

答案的监督信号添加至文本

问题

答案数据集,并将有监督信号的文本

问题

答案的数据集划分为训练集和测试集;对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。
[0009]可选地,在本申请的一个实施例中,根据问题库检索问题对应的答案和文本,得到文本

问题

答案数据集,包括:
[0010]根据问题库中的问题进行检索,得到检索页面;
[0011]当检索页面中含有精选框,则将精选框中的答案和文本作为问题的答案和文本;
[0012]当检索页面不包含精选框,则选取检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的
网页内容作为问题的答案和文本。
[0013]可选地,在本申请的一个实施例中,将文本

问题

答案的监督信号添加至文本

问题

答案数据集,包括:
[0014]将文本

问题

答案的监督信号以字符串形式添加至答案的起始位置,以生成有监督信号的文本

问题

答案的数据集。
[0015]可选地,在本申请的一个实施例中,对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,包括:
[0016]获取高频的标点符号、数字、英文字母和中文词替换多语言预训练模型的输入向量表示和输出向量表示的参数,以更新多语言预训练模型,保存更新后的多语言预训练模型的词汇表;
[0017]将更新后的多语言预训练模型与训练集结合进行微调得到中文问答对生成模型。
[0018]可选地,在本申请的一个实施例中,使用测试集对中文问答对生成模型进行评测,包括:
[0019]将测试集中的文本输入至中文问答对生成模型中,预测生成最佳的预设个数的问题

答案对;
[0020]将问题

答案对与标准问题

答案对进行对比,并使用BLEU

4、Rouge

L以及基于GAN网络的方法三个评测指标对模型进行评测。
[0021]可选地,在本申请的一个实施例中,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库,包括:
[0022]根据待预测问题库中的问题进行检索,得到检索页面;
[0023]根据检索页面得到最优页面内容,并将最优页面内容作为文本输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库;
[0024]其中,当检索页面中含有精选框,则将精选框中的页面内容作为最优页面内容;
[0025]当检索页面不包含精选框,则选取检索页面中非广告的网页内容作为最优页面内容。
[0026]为达上述目的,本申请第二方面实施例提出了一种面向开放域科普的问答库自动更新装置,包括:
[0027]获取模块,用于获取问题库,并根据问题库检索问题对应的答案和文本,得到文本

问题

答案数据集;
[0028]划分模块,用于将文本

问题

答案的监督信号添加至文本

问题

答案数据集,并将有监督信号的文本

问题

答案的数据集划分为训练集和测试集;
[0029]微调模块,用于对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;
[0030]生成模块,用于构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。
[0031]可选地,在本申请的一个实施例中,获取模块,具体用于:
[0032]根据问题库中的问题进行检索,得到检索页面;
[0033]当检索页面中含有精选框,则将精选框中的答案和文本作为问题的答案和文本;
[0034]当检索页面不包含精选框,则选取检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的网页内容作为问题的答案和文本。
[0035]为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向开放域科普的问答库自动更新方法,其特征在于,包括以下步骤:获取问题库,并根据所述问题库检索问题对应的答案和文本,得到文本

问题

答案数据集;将文本

问题

答案的监督信号添加至所述文本

问题

答案数据集,并将有监督信号的文本

问题

答案的数据集划分为训练集和测试集;对多语言预训练模型进行模型剪枝,使用所述训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用所述测试集对所述中文问答对生成模型进行评测;构建待预测问题库,根据所述待预测问题库进行检索,并将检索得到的最优页面内容输入至所述中文问答对生成模型,预测生成多个问答对,并根据所述多个问答对自动更新问答库。2.如权利要求1所述的方法,其特征在于,所述根据所述问题库检索问题对应的答案和文本,得到文本

问题

答案数据集,包括:根据问题库中的问题进行检索,得到检索页面;当所述检索页面中含有精选框,则将所述精选框中的答案和文本作为所述问题的答案和文本;当所述检索页面不包含精选框,则选取所述检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据所述预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的网页内容作为所述问题的答案和文本。3.如权利要求1所述的方法,其特征在于,所述将文本

问题

答案的监督信号添加至所述文本

问题

答案数据集,包括:将文本

问题

答案的监督信号以字符串形式添加至答案的起始位置,以生成有监督信号的文本

问题

答案的数据集。4.如权利要求1所述的方法,其特征在于,所述对多语言预训练模型进行模型剪枝,使用所述训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,包括:获取高频的标点符号、数字、英文字母和中文词替换多语言预训练模型的输入向量表示和输出向量表示的参数,以更新所述多语言预训练模型,保存更新后的多语言预训练模型的词汇表;将更新后的多语言预训练模型与训练集结合进行微调得到中文问答对生成模型。5.如权利要求1所述的方法,其特征在于,所述使用所述测试集对所述中文问答对生成模型进行评测,包括:将所述测试集中的文本输入至所述中文问答对生成模型中,预测生成最佳的预设个数的问题

答案对;将所述问题

答...

【专利技术属性】
技术研发人员:冯慧子刘佳郭政毛文静王路路
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1