基于BERT的机器阅读理解方法、装置、设备及存储介质制造方法及图纸

技术编号:27600681 阅读:15 留言:0更新日期:2021-03-10 10:22
本发明专利技术涉及人工智能技术领域,公开了一种基于BERT的机器阅读理解方法、装置、计算机设备及计算机可读存储介质,该方法包括:根据待训练问题文档对训练第一预置预训练语言模型,生成文档排序模型;根据所述待训练问题文档对训练预置多文档答案预测模型,生成阅读理解模型;根据待预测问题文档对和文档排序模型,输出所述第二问题对应的目标文档;基于所述阅读理解模型,根据所述第二问题和所述目标文档,获取所述阅读理解模型输出所述目标文档中的目标文本,并将所述目标文本作为所述第二问题的阅读理解答案,实现将多文档阅读理解问题转换为单文档阅读理解问题,降低阅读理解时抽取答案的干扰,从而提高多文档阅读理解答案的准确性。确性。确性。

【技术实现步骤摘要】
基于BERT的机器阅读理解方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种基于BERT的机器阅读理解方法、装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]机器阅读理解是人工智能技术的重要组成部分,过去几年里,随着深度学习的出现,机器阅读理解(其要求机器基于给定的上下文回答问题)已经赢得了越来越广泛的关注,尤其是随着以BERT(Bidirectional EncoderRepresentations from Transformers预训练语言模型)为代表的预训练语言模型的发展,机器阅读理解任务都有着飞速的发展,主要体现为从关注限定文本到结合外部知识,从关注特定片段到对上下文的全面理解。然而在实际的应用场景中,常常会面临单个问题对应多个搜索引擎检索获得的文档,即需要整合多个文档的信息来预测答案。
[0003]目前对于多文档阅读理解,多采用多个文档进行拼接成一个长文档,再采用文档滑动窗口,将长文档拆分为固定长度的多个段文本,每个文本段均与问题进行拼接后进行阅读理解,对同一个问题选择多个文本段中得分最高的答案作为该问题的阅读理解答案。例如,MS MARCO(Microsoft MAchineReading Comprehension微软机器阅读理解)的Question Answering(智能问答)数据集是一个国际上权威的阅读理解数据集,其每条记录包含一个问题,十个候选文档,这十个候选答案有一个或者两个是包含问题答案文档。使用基于bert预训练语言模型在测试集上进行对比测试,直接使用十个候选文档拼接的长文本进行阅读理解的答案ROUGEL值大概为0.48,而比直接在含有答案的单个文档中进行阅读理解的答案ROUGEL值大概为0.56,两者相差约0.08分。其中,ROUGEL包括ROUGE(Recall-Oriented Understudy for Gisting Evaluation评估自动文摘以及机器翻译的一组指标)和L(longest common subsequence,最长公共子序列),ROUGEL值是机器阅读理解领域通用的答案质量评价指标, ROUGEL值越大,代表预测答案质量越好。使用基于bert预训练语言模型在一定程度上解决了现有模型对于多文档场景的输入长度受限的缺点,但其准确率与对单个文档进行阅读理解的准确率较低。

技术实现思路

[0004]本申请的主要目的在于提供一种基于BERT的机器阅读理解方法、装置、计算机设备及计算机可读存储介质,旨在解决现有使用基于bert预训练语言模型在一定程度上解决了现有模型对于多文档场景的输入长度受限的缺点,但其准确率与对单个文档进行阅读理解的准确率较低的技术问题。
[0005]第一方面,本申请提供一种基于BERT的机器阅读理解方法,所述基于 BERT的机器阅读理解方法包括以下步骤:
[0006]获取待训练的第一问题和多个候选文档,将所述第一问题分别与各个候选文档组合,生成待训练问题文档对;
[0007]根据所述待训练问题文档对训练第一预置预训练语言模型,生成文档排序模型;
[0008]根据所述待训练问题文档对训练预置多文档答案预测模型,生成阅读理解模型;
[0009]获取待预测问题文档对,其中,所述待预测问题文档对包括第二问题和所述第二问题对应的多个候选文档;
[0010]基于所述文档排序模型,根据所述待预测问题文档对,输出所述第二问题对应的目标文档;
[0011]基于所述阅读理解模型,根据所述第二问题和所述目标文档,获取所述阅读理解模型输出所述目标文档中的目标文本,并将所述目标文本作为所述第二问题的阅读理解答案。
[0012]第二方面,本申请还提供一种基于BERT的机器阅读理解装置,所述基于BERT的机器阅读理解装置包括:
[0013]第一生成模块,用于获取待训练的第一问题和多个候选文档,将所述第一问题分别与各个候选文档组合,生成待训练问题文档对;
[0014]第二生成模块,用于根据所述待训练问题文档对训练第一预置预训练语言模型,生成文档排序模型;
[0015]第三生成模块,用于根据所述待训练问题文档对训练预置多文档答案预测模型,生成阅读理解模型;
[0016]第一获取模块,用于获取待预测问题文档对,其中,所述待预测问题文档对包括第二问题和所述第二问题对应的多个候选文档;
[0017]输出模块,用于基于所述文档排序模型,根据所述待预测问题文档对,输出所述第二问题对应的目标文档;
[0018]第二获取模块,用于基于所述阅读理解模型,根据所述第二问题和所述目标文档,获取所述阅读理解模型输出所述目标文档中的目标文本,并将所述目标文本作为所述第二问题的阅读理解答案。
[0019]第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的基于BERT的机器阅读理解方法的步骤。
[0020]第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的基于BERT的机器阅读理解方法的步骤。
[0021]本申请提供一种基于BERT的机器阅读理解方法、装置、计算机设备及计算机可读存储介质,通过获取待训练的第一问题和多个候选文档,将所述第一问题分别与各个候选文档组合,生成待训练问题文档对;根据所述待训练问题文档对训练第一预置预训练语言模型,生成文档排序模型;根据所述待训练问题文档对训练预置多文档答案预测模型,生成阅读理解模型;获取待预测问题文档对,其中,所述待预测问题文档对包括第二问题和所述第二问题对应的多个候选文档;基于所述文档排序模型,根据所述待预测问题文档对,输出所述第二问题对应的目标文档;基于所述阅读理解模型,根据所述第二问题和所述目标文档,获取所述阅读理解模型输出所述目标文档中的目标文本,并将所述目标文本作为所述第二问题的阅读理解答案,实现在文档排序模型中,加入词性标注信息、文档中的字符是否
在问题中出现的信息,以及命名实体识别信息,来捕捉问题与多个候选文档之间的相关性,从而先对候选文档进行得分排序,输出得分最高的一个文档,作为阅读理解模型的输入文档。以此来把多文档阅读理解问题转换为单文档阅读理解问题,降低阅读理解时抽取答案的干扰,从而提高多文档阅读理解答案的准确性。
附图说明
[0022]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本申请实施例提供的一种基于BERT的机器阅读理解方法的流程示意图;
[0024]图2为图1中的基于BERT的机器阅读理解方法的子步骤流程示意图;
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的机器阅读理解方法,其特征在于,包括:获取待训练的第一问题和多个候选文档,将所述第一问题分别与各个候选文档组合,生成待训练问题文档对;根据所述待训练问题文档对训练第一预置预训练语言模型,生成文档排序模型;根据所述待训练问题文档对训练预置多文档答案预测模型,生成阅读理解模型;获取待预测问题文档对,其中,所述待预测问题文档对包括第二问题和所述第二问题对应的多个候选文档;基于所述文档排序模型,根据所述待预测问题文档对,输出所述第二问题对应的目标文档;基于所述阅读理解模型,根据所述第二问题和所述目标文档,获取所述阅读理解模型输出所述目标文档中的目标文本,并将所述目标文本作为所述第二问题的阅读理解答案。2.如权利要求1所述的基于BERT的机器阅读理解方法,其特征在于,所述第一预置预训练语言模型包括字典文件、自注意力网络模型、结巴工具和中文分词工具;所述根据所述待训练问题文档对训练第一预置预训练语言模型,生成文档排序模型,包括:根据所述字典文件和所述待训练问题文档对,确定所述待训练问题文档对的第一文本向量信息;根据所述自注意力网络模型和所述第一文本向量信息,获取所述第一文本向量信息对应的第一文本语义向量信息;基于结巴工具,获取所述待训练问题文档对中第一问题和所述各个候选文档的位置特征向量信息;确定所述待训练问题文档对中所述第一问题与所述各个候选文档的相同字词特征和非共同字词特征,得到对应的字词特征向量信息;根据所述中文分词工具和所述待训练问题文档对,获取所述待训练问题文档对的命名实体特征向量信息;根据所述第一文本语义向量信息、所述位置特征向量信息、所述相同字词特征向量信息和所述命名实体特征向量信息,得到所述待训练问题文档对的第一文本语义特征向量信息;根据所述第一文本语义特征向量信息,得到对应的第一损失函数;根据所述第一损失函数更新所述第一预置预训练语言模型的模型参数,生成文档排序模型。3.如权利要求2所述的基于BERT的机器阅读理解方法,其特征在于,所述根据所述字典文件和所述待训练问题文档对,确定所述待训练问题文档对的第一文本向量信息,包括:根据所述字典对所述待训练问题文档对进行字词切分,得到所述待训练问题文档对中第一问题的第一问题序列以及所述各个文档的文档序列;将所述第一问题序列和所述文档序列进行拼接,生成对应的第一文本序列;将所述第一文本序列进行特征向量转换,得到对应的第一文本向量信息。4.如权利要求2所述的基于BERT的机器阅读理解方法,其特征在于,所述根据所述自注意力网络模型和所述第一文本向量信息,获取所述第一文本向量信息对应的第一文本语义向量信息,包括:
将所述第一文本向量信息输入所述自注意力网络模型,得到所述第一文本向量信息的各个语义空间的文本语义向量信息;根据所述各个语义空间的文本语义向量信息,获取所述自注意力网络模型输出的第一文本语义向量信息。5.如权利要求1所述的基于BERT的机器阅读理解方法,其特征在于,所述根据所述待训练问题文档对训练预置多文档答案预测模型,生成阅读理解模型,包括:确定所述待训练问题文档对的多个候选文档中与所述第一问题的答案最相似的目标候选文档,并将所...

【专利技术属性】
技术研发人员:侯丽刘翔
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1