当前位置: 首页 > 专利查询>山西大学专利>正文

一种联合语言模型和知识表示学习的常识问答模型及方法技术

技术编号:38761492 阅读:27 留言:0更新日期:2023-09-10 10:34
本发明专利技术涉及深度学习、自然语言处理等领域,具体涉及一种联合语言模型和知识表示学习的常识问答模型及方法,模型包括异构知识图构建模块,文本编码模块,动态剪枝模块,知识表示学习模块,答案推理模块和答案预测模块。本发明专利技术在多个知识源的基础上构建异构知识图,并通过引入动态剪枝策略和知识表示学习优化异构知识图的结构和知识表示;同时在语言模型的编码阶段对问答上下文和异构知识图进行融合,实现了更好的推理性能。现了更好的推理性能。现了更好的推理性能。

【技术实现步骤摘要】
一种联合语言模型和知识表示学习的常识问答模型及方法


[0001]本专利技术涉及深度学习、自然语言处理等领域,具体涉及一种联合语言模型和知识表示学习的常识问答模型及方法。

技术介绍

[0002]问答(Question Answering,QA)是一个极具挑战的任务,它需要机器理解由自然语言提问的问题,理解问题的语义含义,然后根据掌握的知识来对问题进行回复。近几年,随着语言模型(Language Model,LM)的快速发展,问答技术取得了明显的进步。目前,基于LM进行微调已经成为问答任务的一个主要范式。通过在大规模语料上对LM进行预训练,LM蕴含了丰富的世界知识,机器在进行微调时能够充分利用这些知识。在一些简单的、事实类问答任务(如SQuAD、RACE等),机器的答题准确率已经超越了人类水平。然而,在一些需要常识知识的结构化推理的QA任务中,机器的表现仍然不尽人意。
[0003]常识是人类通过观察、学习和思考有关客观世界的各种现象而总结出来的一般规律,它被无数人漫长的经验所验证,是人与人之间普遍存在的日常共识。在回答问题时,人们会不自觉的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种联合语言模型和知识表示学习的常识问答模型,其特征在于:所述模型包括:异构知识图构建模块,用于识别问答上下文中的关键实体,然后根据关键实体在多个知识库中检索相关知识,并构建异构知识图;文本编码模块,用于利用语言模型对问答上下文及异构知识图中的实体和关系进行编码,同时在编码过程中融合问答上下文与异构知识图;动态剪枝模块,用于根据语言模型的注意力权重对异构知识图中的概念实体进行动态剪枝;知识表示学习模块,用于引入知识表示学习算法来优化异构知识图中的实体和关系表示;答案推理模块,用于基于关系掩码自注意力在异构知识图上推理答案;答案预测模块,用于根据问答上下文和异构知识图的语义向量表示来预测答案。2.一种采用权利要求1所述模型的联合语言模型和知识表示学习的常识问答方法,其特征在于,所述方法包括:步骤1:通过异构知识图构建模块识别问答上下文中的关键实体,根据关键实体在多个知识库中检索相关知识,并构建异构知识图;步骤2:通过文本编码模块利用语言模型对问答上下文和异构知识图中的实体和关系进行编码,同时在编码过程中融合问答上下文与异构知识图;步骤3:通过动态剪枝模块利用语言模型对异构知识图中的概念实体进行动态剪枝;步骤4:通过知识表示学习模块引入知识表示学习算法来优化异构知识图的实体和关系表示;步骤5:通过答案推理模块基于关系掩码自注意力在异构知识图上推理答案;步骤6:通过答案预测模块根据问答上下文和异构知识图的语义向量表示来预测答案。3.根据权利要求2所述的一种联合语言模型和知识表示学习的常识问答方法,其特征在于:所述步骤1的具体过程如下:步骤1.1:通过KeyBERT模型识别问答上下文中的候选实体;步骤1.2:根据WordNet和Wiktionary的词汇表识别候选实体中的嵌套实体,并在候选实体中去掉组成嵌套实体的子词,得到问题关键实体、选项关键实体及它们相应的释义;步骤1.3:根据关键实体在ConceptNet中检索两跳以内的相关知识子图G;步骤1.4:将关键实体的释义描述作为释义实体,并与G中对应的关键实体进行连接,得到异构知识图G
hkg
,异构知识图G
hkg
包括两种实体,即概念实体和释义实体。4.根据权利要求3所述的一种联合语言模型和知识表示学习的常识问答方法,其特征在于,所述步骤2的具体过程如下:步骤2.1:将问答上下文与G
hkg
中的概念实体进行连接,并根据它们之间的关系构建可见矩阵M;M的构建规则为:

问答上下文包含的tokens是相互可见的;

概念实体中属于同一实体的tokens是相互可见的;

概念实体中包含的关键实体的tokens与问答上下问中相对应的tokens是相互可见的;步骤2.2:将问答上下文、G
hkg
中的概念实体、可见矩阵M输入到RoBERTa模型中,分别得到问答上下文所有token的嵌入表示概念实体所有token的嵌入表示
其中,A和Z分别表示问答上下文和概念实体包含的tokens数量,d表示嵌入维度;步骤2.3:将G
hkg
中的概念实体进行连接,并构建可见矩阵的构建规则为:属于同一概念实体的tokens是相互可见的,而其他tokens不可见;步骤2.4:将G
hkg
中的释义实体和可见矩阵输入到RoBERTa模型中,得到释义实体所有token的嵌入表示F表示释义实体包含的tokens数量;步骤2.5:将G
hkg
中的关系分别输入到RoBERTa模型中,得到关系所有token的嵌入表示B表示关系包...

【专利技术属性】
技术研发人员:王宇杰梁吉业张虎范越张广军
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1