一种在深度语言模型中融入额外知识信息的方法技术

技术编号:25637139 阅读:23 留言:0更新日期:2020-09-15 21:29
本发明专利技术公开了一种在深度语言模型中融入额外知识信息的方法,其特点是采用将知识信息融入到深度语言模型中进行预训练的方法,通过大规模自然语言语料上进行实体标注,并对自然语言文本进行实体级别的扰动构造负样本用以强化和提升知识库问答系统中关系匹配模块的性能,模型的训练和知识融入具体包括:构建词表、识别实体信息、创建训练所需的负样本和预训练深度语言模型步骤。本发明专利技术与现有技术相比具有将结构化知识信息引入深度语言模型的参数中,使得模型具备针对自然语言输入文本进行包含事实性结构化信息的语义理解,在对应任务上获得性能提升,方法简便,效率高。

【技术实现步骤摘要】
一种在深度语言模型中融入额外知识信息的方法
本专利技术涉及计算机问答系统
,尤其是一种基于知识图谱在深度语言模型中融入额外知识信息的方法。
技术介绍
自然语言处理旨在研究使用计算机自动处理、理解与生成自然语言的技术。问答系统是自然语言处理中的一个重要的子领域,旨在针对用户输入的问题通过计算机自动给出回答。问答系统分为多种类型,包括基于阅读理解的问答系统,基于社区检索的问答系统以及基于知识库的问答系统;基于阅读理解的问答系统通过在给定的文章片段中搜索潜在的答案来回答相关的问题;基于社区检索的问答系统通过一个检索系统查询社区中可能相关的回答或者文本片段,并对所有的候选回答根据上下文与给定信息进行重排序来回答用户输入的问题;以及基于知识库的问答系统通过在一个给定的知识库中确定检索子图查询范围并且在子图中搜索最为相关的实体,将这些候选实体作为针对问题的事实性回答返回给用户。知识库是指将一系列事实等信息通过结构化存储方法保存的数据库。一般情况下,这些事实信息通过“实体-谓词-实体”的三元组形式保存。不同的实体之间通过各种关系谓词相互连接,形成了一种网状的图结构为知识图谱。知识库在多个领域有着广泛的应用,在自然语言处理领域,常常通过引入知识库来在编码器阶段引入额外的事实性信息,从而提高神经网络在自然语言处理任务上的性能。近年来,BERT、ELMo等深度语言模型极大地影响了自然语言处理领域的模型设计。这些深度语言模型的特点是拥有极大的参数量,同时有着数目庞大的预训练语料,通过语言模型等无监督任务来自动编码自然语言中潜藏的语法与语义信息。以BERT为例,BERT使用了12层768维度隐层的Transformer模型作为其编码器,并通过从互联网多个来源爬取的上千万条篇章语料信息构建训练集合。由深度学习获得的词语向量表示含有丰富的上下文信息于语义信息,有着强大的表示能力,而与之相对的传统词向量并没有上下文信息以及庞大的语料信息,需要在对应数据集中输入一个额外的编码器进行微调才可获得理想的性能。深度语言模型的应用极大地提升了自然语言处理中多个子任务的准确率,显著改进了自然语言模型对语言的理解能力。现有技术的深度语言模型大多使用自然语言语料作为其训练集,存在着缺乏结构化知识库信息的问题,当遇到需要事实性信息的任务时,这些深度语言模型会因为缺乏结构化知识信息而出现性能不佳的情形。
技术实现思路
本专利技术的目的是针对现有技术不足而提供的一种在深度语言模型中融入额外知识信息的方法,采用将结构化知识信息融入深度语言模型的预训练方法,用以强化知识库问答系统中关系匹配模块性能,通过在大规模自然语言语料上进行实体标注,并对自然语言文本进行实体级别的扰动构造负样本,将结构化知识信息引入深度语言模型的参数中,使得模型具备针对自然语言输入文本进行包含事实性结构化信息的语义理解,在对应任务上获得性能提升,方法简便,效率高。实现本专利技术目的具体技术方案是:一种在深度语言模型中融入额外知识信息的方法,其特点是采用将知识信息融入到深度语言模型中进行预训练的方法,强化知识库问答系统中关系匹配模块的性能,其模型的具体训练和知识融入包括以下步骤:1)构建实体到指称的词表;2)通过构建的词表识别文本中的实体信息;3)对自然语言文本进行扰动,创建训练所需的负样本;4)使用创建的新训练集预训练深度语言模型参数,强化其性能。所述步骤1)中的词表所涉及到的实体一般都来源于某一个知识库或者含有结构化知识信息的文本,例如维基百科。所述步骤2)中的文本来自于从互联网中爬取的大规模自然语言语料,例如维基百科、纽约时报等。通过第一步构建的词表判断文本中是否包含实体,并链接到知识库中所对应的实体中为训练正样本。所述步骤3)中是根据实体链接后所得到的结构化信息对原语料进行扰动。所述步骤4)中的新训练集是由爬取的原语料以及扰动后所创建的负样本构成。本专利技术与现有技术相比具有以下优点:1)、实用性:通过引入了结构化知识信息,使得模型具备针对自然语言输入文本进行包含事实性结构化信息的语义理解,在需要进行事实性问答的领域带来性能提升。2)、高效性:在构建训练语料阶段,无需其他远程监督手段,应用大量繁琐的步骤来对齐自然语言文本与知识库结构化三元组信息,规避了复杂的工程细节,同时降低了标注的出错率。3)、易用性:无需修改深度语言模型的内部结构与外部接口,训练完成的模型参数可直接导入其他场景中使用。训练过程中也无需对模型代码做出任何修改,使用方便快捷。附图说明图1为本专利技术的模型示意图。具体实施方式通过以下具体实施例对本专利技术作进一步的详细说明。实施例1参阅附图1,本专利技术使用构造好的词表对语料进行实体标注,对文档进行扰动构建正、负样本训练数据,然后通过在深度语言模型上叠加分类器,判断输入文本的准确性,并对模型参数进行微调,得到的深度语言模型参数应用到基于知识库的问答系统中提升对应任务上的性能。将知识信息融入到深度语言模型中进行预训练具体包括以下步骤:步骤一:构建实体到指称的词表通过维基百科等富含人工标注的超链接文本构建实体指称到实体的词表。对于任意的实体e,统计其作为超链接出现的所有锚文本名称mi,将其作为该实体的实体指称,构建一个用于实体识别与标注的词表。除了统计实体与指称之间的信息外,还应统计一系列相关的先验概率。首先统计某一个指称作为实体的概率pe(m),该概率的具体值为该指称作为实体出现次数,以及该指称在文本中出现的总次数之间的比值。如果该概率较高,说明该指称在当前文本中有极高的概率是一个实体。如果该概率较低,说明当前指称是一个常用词,对其的超链接标注可能存在噪音。此外,还统计当前指称对于某一个实体ej的条件概率pm(ej|mi)。由于实体和指称之间满足多对多的关系,既同一个实体可能有多个指称,同一个指称也有可能对应于多个实体,统计条件概率可以在需要实体消歧的情形下根据上下文选择最为合适的实体。步骤二:通过构建的词表识别文本中的实体信息利用构建好的词表对自然语言文本进行标注,寻找出其中所有可能的实体为训练正样本。所述标注的文本来源于在互联网上自动爬取的文本,包括维基百科以及纽约时报等报刊网站。考虑到网页中的超链接信息多有缺失,同时存在噪音,可能导致构建的训练集质量不佳。因此,没有使用网页中的超链接作为实体指称标注,而选择使用构建的词表重新标注。在标注过程中通过构建的词表建立一颗字典树,字典树也被称为前缀树,可以快速地匹配所有文本中在词表中出现的信息。在匹配得到可能的实体指称后,按下述a式计算当前候选实体指称的条件概率:式中:Em表示当前指称m所对应的所有潜在候选实体集合。如果条件概率低于某一个预设的阈值c,则认为当前匹配到的候选实体可能是噪音并将其滤掉。由此,得到一个包含标注好的、富含结构化信息的实体序列[e1,e2,e3,...,ek]的自然文本。...

【技术保护点】
1.一种在深度语言模型中融入额外知识信息的方法,其特征在于采用将知识信息融入到深度语言模型中进行预训练的方法,用以强化和提升知识库问答系统中关系匹配模块的性能,模型的训练和知识融入包括以下具体步骤:/n步骤一:构建实体到指称的词表/n采用知识库或富含人工标注的超链接文本,构建实体指称到实体的词表;/n步骤二:识别文本中的实体信息/n利用构建的词表对自然语言文本进行标注,识别文本中的实体信息,并链接到知识库中所对应的实体中为训练正样本;/n步骤三:创建训练所需的负样本/n根据实体链接后所得到的结构化信息,对自然语言文本进行扰动,创建训练所需的负样本;/n步骤四:预训练深度语言模型参数/n使用创建的负样本为新训练集进行预训练深度语言模型参数,并对所获得的训练集对深度语言模型进行无监督预训练,以将知识信息融入到模型参数中强化其性能。/n

【技术特征摘要】
1.一种在深度语言模型中融入额外知识信息的方法,其特征在于采用将知识信息融入到深度语言模型中进行预训练的方法,用以强化和提升知识库问答系统中关系匹配模块的性能,模型的训练和知识融入包括以下具体步骤:
步骤一:构建实体到指称的词表
采用知识库或富含人工标注的超链接文本,构建实体指称到实体的词表;
步骤二:识别文本中的实体信息
利用构建的词表对自然语言文本进行标注,识别文本中的实体信息,并链接到知识库中所对应的实体中为训练正样本;
步骤三:创建训练所需的负样本
根据实体链接后所得到的结构化信息,对自然语言文本进行扰动,创建训练所需的负样本;
步骤四:预训练深度语言模型参数<...

【专利技术属性】
技术研发人员:杨燕郑淇陈成才贺樑
申请(专利权)人:华东师范大学上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1