当前位置: 首页 > 专利查询>山东大学专利>正文

一种融合区分度信息的神经网络关系分类方法及其实现系统技术方案

技术编号:20363246 阅读:33 留言:0更新日期:2019-02-16 16:41
本发明专利技术涉及一种融合区分度信息的神经网络关系分类方法及其实现系统,包括:(1)数据预处理;(2)训练词向量;(3)抽取位置向量;将每一个词的词向量与高维位置特征向量级联,得到联合特征;(4)计算句子语义表示;利用双向LSTM编码实体的上下文信息和语义信息;(5)计算区分度向量;将两个实体向量做差与位置特征级联后,用一个Bi‑LSTM单元编码该输入;(6)将(4)和(5)的输出输入至CNN,输出融合了区分度信息的特征向量,输入至分类器中进行分类;(5)采用损失函数训练模型。本发明专利技术不需要人工抽取任何特征,联合模型也不需要借助另外的自然语言处理工具对数据做预处理,算法简单明了,效果达到了目前最好。

【技术实现步骤摘要】
一种融合区分度信息的神经网络关系分类方法及其实现系统
本专利技术涉及一种融合区分度信息的神经网络关系分类方法及其实现系统,属于自然语言处理

技术介绍
随着智能时代的到来,对大数据的处理方法向着自动化、智能化的方向发展,各种工作也逐渐被智能机器代替,人类社会与智能机器的交叉越来越多,在这样的时代背景下,智能、方便的人机交互变得越来越重要。因此,问答系统、知识库的自动构建技术在工业界和学术界都得到很大关注并取得了一些成果。而这些成果的背后离不开自然语言处理等基础理论的支持,其中,关系抽取就起到了重要作用。随着机器学习的发展,很多自然语言处理任务得到了很好的解决,尤其是支持向量机的提出使很多NLP任务的结果得到了很大的提升,这种方法的核心思想是认为抽取很多适合自然语言处理任务的特征,根据这些特征构造核函数,再利用数据训练分类器,但是抽取特征是一件很复杂的任务,需要研究人员对相应领域有很深入的研究和理解才能找到合适的特征,而且需要花费大量的精力构建提取特征的模型,如果选择的特征不适合,对模型的结果不会有改善,往往会做很多无用功。最近随着深度学习的发展,以卷积神经网络和循环神经网络为代表的深度神经网络模型在图像识别、计算机视觉和语音识别领域取得了巨大成功,在自然语言处理领域也取得了很大进展,之前的研究成果表明长短时记忆神经网络对处理具有时序特征的自然语言有天然的优势,也有很多研究者将长短时记忆神经网络用于关系分类任务中。由于关系分类本身的特点,卷积神经网络擅长捕获局部特征的特点很适合用于关系分类的特征抽取,所以基于卷积神经网络的模型是另一大类用于关系分类的方法。在现实世界中,将关系分类用于知识图谱的自动构建时,会涉及到实体的方向问题(同种语义关系但实体方向不同则属于不同的关系类别),但是在目前出现的方法中都忽略了一个问题:实体语义关系相同但实体方向相反的关系属于两种相互独立的不同关系。不管是基于长短时记忆神经网络的模型还是基于卷积神经网络的模型其基本思想都是用相应的神经网络编码得到句子的语义特征,而这样得到的语义特征并不能区分语义关系相同但实体方向不同的两类关系类别,反而由于语义关系相同其编码的语义特征也是相似的造成实体方向不同的两类关系类别容易混淆。所以现有的方法中没有出现解决这一类问题的有效方法。
技术实现思路
针对现有技术的不足,本专利技术提供了一种融合区分度信息的神经网络关系分类方法;本专利技术还提供了上述神经网络关系分类方法的实现系统。本专利技术提出了一种新的特征(区分度信息)来解决关系相同但实体方向不同的两类关系容易混淆的问题。整个模型分为三个模块,分别是句子表示模块、区分度模块、特征融合模块。句子表示模块的主体模型是一个双向长短时记忆神经网络模型,输出为经过编码的句子矩阵;区分度模块中将两个实体向量相减,并将得到的向量映射到一个高位空间中作为区分度向量;特征融合模块将前面得到的句子表示矩阵和区分度向量这两种特征融合起来,然后将该模块的结果输入到分类器中进行关系分类,取得了很好的效果。该模型完全不用人工处理数据,不需要借助其他的自然语言处理工具,也不需要引入另外的信息,充分挖掘自身包含的信息,创造性的提出了区分度信息这一特征,与原有特征融合,解决了关系分类中同种关系不同方向容易混淆的问题。本专利技术的技术方案为:一种融合区分度信息的神经网络关系分类方法,包括步骤如下:(1)数据预处理:本申请采用公开的数据集进行结果评测,而公开的数据集是原始数据,不符合模型的输入要求,需要进行预处理。先采用one-hot形式来表示数据集中的实体词;再根据数据集中的文本类别对数据进行类别标定;数据集中的文本类别共分为19类,采用一个19维的one-hot向量表示每一类的类别,one-hot向量中1对应的位置就是该类别的索引位置,将这个19维的向量与文本中的句子放在同一行,用“/”分开,读取数据时将样本与标签一起读进内存中,就获得了每一个句子的标签;将数据集分为训练集和测试集。(2)训练词向量;将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量;(3)抽取位置向量;(4)针对具体任务建模;利用双向LSTM编码实体词的上下文信息和语义信息;进一步优选的,所述步骤(4),利用双向LSTM编码实体词的上下文信息和语义信息,包括:单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LSTM结构只能捕捉到上文信息,无法捕捉到下文信息,双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;两个LSTM的联合输出就是整个句子的上下文信息,而上下文信息是由整个句子提供的,自然包含比较抽象的语义信息,这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势,而且由于输入了位置特征,其经过双向LSTM编码后可以抽取出位置特征中包含的实体方向信息,其他的方法就没有这样的优点。双向LSTM编码后,隐藏层输出每个词对应的经过编码后的向量,作为整个句子的语义特征;(5)将句子中指定的两个实体词的词向量相减,即将句子中的后面的实体词的词向量减去句子中的前面的实体词的词向量,得到新的向量;与此同时,将句子中的后面的实体词的位置向量减去句子中的前面的实体词的位置向量,并将得到的结果线性变换映射到高维向量空间中,将得到的向量与新的向量级联后输入到Bi-LSTM单元中,经过该Bi-LSTM单元编码后的向量为区分度特征;(6)将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,得到融合了区分度特征的整个句子对关系分类任务最重要的信息;进一步优选的,所述步骤(6)中,将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,包括:将语义特征、区分度特征输入特征融合模块,经过卷积神经网络提取特征,输出融合了区分度特征的整个句子对关系分类任务最重要的信息,特征融合模块是一维卷积神经网络。(7)采用损失函数训练模型。根据本专利技术优选的,所述步骤(5),获得区分度信息的过程是将两个实体向量相减,同时为保证一致性,两个实体的位置向量以同样的方式相减,然后将这两个相减得到的结果用一个Bi-LSTM单元,两个实体词的词向量相减的实现过程如式(Ⅰ)所示:edic=e2-e1(Ⅰ)式(Ⅰ)中,e2,e1是指两个实体词的词向量,edic是两个实体词的词向量相减的结果;两个实体词的词向量相减的结果、两个实体词的位置向量相减的结果级联后输入Bi-LSTM单元编码的实现过程如式(Ⅱ)所示:式(Ⅱ)中,表示两个实体词的位置向量相减的结果,dic表示edic与级联后用Bi-LSTM单元编码后得到的编码向量。根据本专利技术优选的,所述步骤(7),采用交叉熵损失函数训练模型,模型损失计算公式如式(Ⅲ)所示:式(Ⅲ)中,x是要判断的样本,px是样本类别的标准分布,qx是样本类别的预测分布。根据本专利技术优选的,所述步骤(2),训练词向量,包括:A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据,并对这些初始训练数据进行清洗,去掉没有意义的特殊字符和格式,将HTML格式的数据处理成TXT格式的数据;B、将步骤A处理后的本文档来自技高网
...

【技术保护点】
1.一种融合区分度信息的神经网络关系分类方法,其特征在于,包括步骤如下:(1)数据预处理:先采用one‑hot形式来表示数据集中的实体词;再根据数据集中的文本类别对数据进行类别标定;将数据集分为训练集和测试集;(2)训练词向量;将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量;(3)抽取位置向量;(4)针对具体任务建模;利用双向LSTM编码实体词的上下文信息和语义信息;(5)将句子中指定的两个实体词的词向量相减,即将句子中的后面的实体词的词向量减去句子中的前面的实体词的词向量,得到新的向量;与此同时,将句子中的后面的实体词的位置向量减去句子中的前面的实体词的位置向量,并将得到的结果线性变换映射到高维向量空间中,将得到的向量与新的向量级联后输入到Bi‑LSTM单元中,经过该Bi‑LSTM单元编码后的向量为区分度特征;(6)将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,得到融合了区分度特征的整个句子对关系分类任务最重要的信息;(7)采用损失函数训练模型。

【技术特征摘要】
2018.10.29 CN 20181126843441.一种融合区分度信息的神经网络关系分类方法,其特征在于,包括步骤如下:(1)数据预处理:先采用one-hot形式来表示数据集中的实体词;再根据数据集中的文本类别对数据进行类别标定;将数据集分为训练集和测试集;(2)训练词向量;将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量;(3)抽取位置向量;(4)针对具体任务建模;利用双向LSTM编码实体词的上下文信息和语义信息;(5)将句子中指定的两个实体词的词向量相减,即将句子中的后面的实体词的词向量减去句子中的前面的实体词的词向量,得到新的向量;与此同时,将句子中的后面的实体词的位置向量减去句子中的前面的实体词的位置向量,并将得到的结果线性变换映射到高维向量空间中,将得到的向量与新的向量级联后输入到Bi-LSTM单元中,经过该Bi-LSTM单元编码后的向量为区分度特征;(6)将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,得到融合了区分度特征的整个句子对关系分类任务最重要的信息;(7)采用损失函数训练模型。2.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(6)中,将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,包括:将语义特征、区分度特征输入特征融合模块,经过卷积神经网络提取特征,输出融合了区分度特征的整个句子对关系分类任务最重要的信息,特征融合模块是一维卷积神经网络。3.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(4),利用双向LSTM编码实体词的上下文信息和语义信息,包括:双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;双向LSTM编码后,输出每个词对应的经过编码后的向量,作为整个句子的语义特征。4.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(5),两个实体词的词向量相减的实现过程如式(Ⅰ)所示:edic=e2-e1(Ⅰ)式(Ⅰ)中,e2,e1是指两个实体词的词向量,edic是两个实体词的词向量相减的结果;两个实体词的词向量相减的结果、两个实体词的位置向量相减的结果级联后输入Bi-LSTM单元编码的实现过程如式(Ⅱ)所示:式(Ⅱ)中,表示两个实体词的位置向量相减的结果,dic表示edic与级联后用Bi-LSTM单元编码后得到的编码向量。5.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(7),采用交叉熵损失函数训练模型,模型损失计算公式如式(Ⅲ)所示:式(Ⅲ)中,x是要判断的样本,px是样本类别的标准分布,qx是样本类别的预测分布。6.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(2),训练词向量,包括:A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据,并对这些初始训练数据进行清洗,去掉没有意义的特殊字符和格式,将HTML格式的数据处理成TXT格式的数据;B、将步骤A处理后的数据喂入Word2vec进行训练,训练时,采用skip-gram模型,窗口大小设为3-8,迭代周期设为2-15,设定词向量的维度是200-400维,训练结束后,得到一个词向量映射表;C、根据步骤B得到的词向量映射表,获取训练集的每一个词对应的词向量。7.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(3),抽取位置向量,包括:获取训练集中的每一个词的位置向量特征,位置向量特征包括句子中的每个词到实体词的相对距离组成,根据步骤(1)得到的每个实体词在句子中的位置,以实体位置为原点,得到句子中的每个词相对实体词的位置,每个词对两个实体的相对位置组成该词的位置向量特征;并获取每个位置向量特征的高维位置特征向量,将步骤(2)...

【专利技术属性】
技术研发人员:李玉军王玥张文真
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1