基于外部知识嵌入的文本理解方法技术

技术编号:27685503 阅读:26 留言:0更新日期:2021-03-17 03:52
本发明专利技术公开了一种基于外部知识嵌入的文本理解方法,采用下述步骤:先聚类算法将数据集中的实体划分,并通过随机采样拼接在数据集中添加负例三元组;再,在Keras深度学习框架下搭建BERT网络,对知识图谱中的实体关系进行编码,获得相应的表征向量;又,使用多粒度卷积,抽取不同维度的低级特征,更加提升模型特征抽取能力;通过胶囊神经网络来挖掘实体间深层次关系,从而补全知识图谱并提高知识准确性;又再,该实体关系的编码作为外部知识与文本实体信息进行融合;最后,使用自注意力机制将知识向量与文本上下文交互,通过多层感知机得出答案。故该方法能使机器很好地理解上、下文含义,使得网络的智能化水平更高,更接近于人类的认知思维。

【技术实现步骤摘要】
基于外部知识嵌入的文本理解方法
本专利技术属于自然语言处理,知识表示与机器阅读理解
,特别涉及一种基于外部知识嵌入的文本理解方法。
技术介绍
知识图谱,由Google于2012年正式提出,其初衷是为了优化搜索返回结果,增强用户搜索质量和体验。知识图谱为互联网上海量,异构,动态的大数据表示,组织,管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更接近于人类的认知思维。其通常被表示为三元组G(Eh,R,Et),其中E是知识图谱中的实体集合,Eh和Et分别表示头部实体和尾部实体,R表示实体之间的关系。用预训练语言模型来解决自然语言处理领域的问题是十分有效的,它可以将原本无语义信息的独热编码(One-hot)转变为包含语义的词嵌入(wordembedding),为下游任务提供良好支撑。Word2Vec,ELMO,Glove等等都是目前主流使用的预训练语言模型,并在各个下游任务中都获得了很好的效果。目前将预训练语言表征应用于下游任务主要有两种策略,一种是基于特征使用,即直接取得模型的输出作为下游模型的输入;第二种是基于微调的架构使用,即引入特定任务的参数、输入输出,微调预训练的参数以使得模型更加适合下游任务。目前的研究证明,第二种方式能够在各个应用任务中获得更好的效果。BERT是2018年谷歌率先提出的语言模型,由多层Transformer组成,能够准确有效地提取文本的有效信息。其模型结构可以随下游任务进行变换以适应下游任务的要求。机器阅读理解就是让机器学会阅读和理解文章,即对于给定的问题,从相关文章中寻找答案。传统的解决方案往往是采用基于规则或是基于统计机器学习的方法。虽然此类方法在特定数据集上获得了一定的效果,但是它们大多基于统计学方法进行序列建模,而未将词与词之间的语义联系考虑在内,因而存在一定的局限性。目前学术界多数解决方案是使用基于循环神经网络,如长短期记忆网络(LongShortTimeMemory,LSTM)或门口循环结构(GatedRecurrentUnit,GRU),来对段落、问句以及选项进行序列建模,或基于TEXT-CNN等结构来抽取文本中的关键信息。此类做法虽然能够一定程度上得到较好的效果,但循环神经网络由于其循环性质,导致现有的模型结构较为耗时因而难以在实际场景中落地,而卷积神经网络则由于其丢失位置信息导致最终并没有得到较好的效果。机器在进行阅读理解时,往往限制于训练数据,只掌握本篇文章少量的语义信息,当涉及到常识或者外部数据时不能够很好的得出结果。因此,将知识图谱作为外部知识库引入阅读理解任务会大大提升模型的泛化能力和准确性。虽然目前知识图谱已经有着广泛的应用,不仅在数据量上也在数据三元组的准确性上有着大量的提升,但是目前仍然存在几个问题:其一是数据三元组的数量在不同的知识图谱中参差不齐,随着每天知识量的不停增长,知识图谱需要快速的补全;其二是目前现存知识图谱中仍然存在着知识关系不准确的问题,因此如何保证知识图谱知识准确也是一个难题。
技术实现思路
为了克服上述缺陷,本专利技术提供一种基于外部知识嵌入的文本理解方法。该方法能使机器很好地理解上、下文含义,使得网络的智能化水平更高,更接近于人类的认知思维。本专利技术为了解决其技术问题所采用的技术方案是:一种基于外部知识嵌入的文本理解方法,包含以下步骤:步骤1:通过聚类算法将数据集中的实体划分,并通过随机采样拼接在数据集中添加负例三元组;步骤2:在Keras深度学习框架下搭建BERT网络,对知识图谱中的实体关系进行编码,获得相应的表征向量步骤3:使用多粒度卷积,抽取不同维度的低级特征,更加提升模型特征抽取能力;步骤4:通过胶囊神经网络来挖掘实体间深层次关系,从而补全知识图谱并提高知识准确性;步骤5:将步骤2中实体关系的编码作为外部知识与文本实体信息进行融合;步骤6:使用自注意力机制将知识向量与文本上下文交互,通过多层感知机得出答案。本专利技术的进一步技术方案是:所述步骤1中的聚类算法采用K-Means聚类算法将知识图谱中的实体集合划分为多组,然后从正例三元组中头实体所在的簇中选择一个实体替换,并用同样的方法来替换尾实体,从而在数据集中加入负例。K-Means聚类算法公式为:其中k为类别数,x为实体集合S中的样本,μi为第i类的质心。本专利技术的进一步技术方案是:所述步骤2中的BERT网络将输入实体替换成其实体概念,从而在编码过程中获取包含更丰富语义信息的表征向量。其输入形式可表示为:[‘[CLS]’,‘TokH1’,‘TokH2’,‘…’,‘TokHn’,’[SEP]’,’TokR’,’[SEP]’,’TokT1’,’TokT2’,’…’,’TokTm’]其中’[CLS]’表示为BERT中用于句子分类的token,‘[CLS]’的最终输出能够代表整个句子的信息被用在文本分类任务中,‘[SEP]’表示为BERT中用于句子分割的token,能够告诉BERT模型句子之间的相关程度,‘TokHn’表示头向量的单词,‘TokR’表示关系的单词,‘TokTm’表示尾向量的单词。本专利技术的进一步技术方案是:所述步骤3中的多粒度卷积分别使用卷积核大小为1*1,1*2,1*3进行计算。通过最大池化层将所有特征向量固定到同一尺寸后拼接。具体公式如下:Ti=f(W·Ci:i+m-1+b)Tk=[T1,...,Tn]其中表示在三元组的表示向量中,第i到第j维的拼接。f是双曲正切函数,W是权值信息,m是卷积核宽度,b是偏置量,k代表第几个卷积核,是最大池化后的特征向量。本专利技术的进一步技术方案是:所述步骤4中胶囊神经网络的动态路由算法具体为:1)对所有I层的胶囊i和I+1层的胶囊j初始化:bij=0;2)对所有I层的胶囊i计算:ci=softmax(bi);3)对于所有I+1层的胶囊j计算:4)对于所有I+1层的胶囊j计算:vj=squash(sj);5)对于所有I层的胶囊i和I+1层的胶囊j计算:6)重复2-5,循环r次。本专利技术的进一步技术方案是:所述步骤5中信息融合过程方式如下:Ui=[HTi,HKi]ifSiinEntityUi=[HTi,0…0]ifSinotinEntity其中HTi表示BERT编码的输出向量,HKi表示知识编码输出向量。即当当前Token被检测为实体时,将知识图谱嵌入向量与BERT编码向量拼接,否则BERT编码与全零向量拼接以得到大小一致的隐藏表示向量。本专利技术的进一步技术方案是:所述步骤6中使用全连接层以及Softmax得出每个位置答案边界的概率;每个Token作为答案标签的开始或者结束标志的概率计算如下所示:其中vi表示知识融合层的输出,w1,w2表示学习的权重参数,最终训练的损失函数如下所示:其中,N表示批度的大小,表示该样本中标签开本文档来自技高网
...

【技术保护点】
1.一种基于外部知识嵌入的文本理解方法,其特征是:/n包含以下步骤:/n步骤1:通过聚类算法将数据集中的实体划分,并通过随机采样拼接在数据集中添加负例三元组;/n步骤2:在Keras深度学习框架下搭建BERT网络,对知识图谱中的实体关系进行编码,获得相应的表征向量/n步骤3:使用多粒度卷积,抽取不同维度的低级特征,更加提升模型特征抽取能力;/n步骤4:通过胶囊神经网络来挖掘实体间深层次关系,从而补全知识图谱并提高知识准确性;/n步骤5:将步骤2中实体关系的编码作为外部知识与文本实体信息进行融合;/n步骤6:使用自注意力机制将知识向量与文本上下文交互,通过多层感知机得出答案。/n

【技术特征摘要】
1.一种基于外部知识嵌入的文本理解方法,其特征是:
包含以下步骤:
步骤1:通过聚类算法将数据集中的实体划分,并通过随机采样拼接在数据集中添加负例三元组;
步骤2:在Keras深度学习框架下搭建BERT网络,对知识图谱中的实体关系进行编码,获得相应的表征向量
步骤3:使用多粒度卷积,抽取不同维度的低级特征,更加提升模型特征抽取能力;
步骤4:通过胶囊神经网络来挖掘实体间深层次关系,从而补全知识图谱并提高知识准确性;
步骤5:将步骤2中实体关系的编码作为外部知识与文本实体信息进行融合;
步骤6:使用自注意力机制将知识向量与文本上下文交互,通过多层感知机得出答案。


2.根据权利要求1所述的基于外部知识嵌入的文本理解方法,其特征是:所述步骤1中的聚类算法采用K-Means聚类算法将知识图谱中的实体集合划分为多组,然后从正例三元组中头实体所在的簇中选择一个实体替换,并用同样的方法来替换尾实体,从而在数据集中加入负例;K-Means聚类算法公式为:



其中k为类别数,x为实体集合S中的样本,μi为第i类的质心。


3.根据权利要求1所述的基于外部知识嵌入的文本理解方法,其特征是:所述步骤2中的BERT网络将输入实体替换成其实体概念,从而在编码过程中获取包含更丰富语义信息的表征向量;其输入形式可表示为:
[‘[CLS]’,‘TokH1’,‘TokH2’,‘…’,‘TokHn’,’[SEP]’,’TokR’,’[SEP]’,’TokT1’,’TokT2’,’…’,’TokTm’]
其中’[CLS]’表示为BERT中用于句子分类的token,‘[CLS]’的最终输出能够代表整个句子的信息被用在文本分类任务中,‘[SEP]’表示为BERT中用于句子分割的token,能够告诉BERT模型句子之间的相关程度,‘TokHn’表示头向量的单词,‘TokR’表示关系的单词,‘TokTm’表示尾向量的单词。


4.根据权利要求1所述的基于外部知识嵌入的文本理解方...

【专利技术属性】
技术研发人员:何慧华
申请(专利权)人:苏州元启创人工智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1