【技术实现步骤摘要】
一种融合区分度信息的神经网络关系分类方法及其实现系统
本专利技术涉及一种融合区分度信息的神经网络关系分类方法及其实现系统,属于自然语言处理
技术介绍
随着智能时代的到来,对大数据的处理方法向着自动化、智能化的方向发展,各种工作也逐渐被智能机器代替,人类社会与智能机器的交叉越来越多,在这样的时代背景下,智能、方便的人机交互变得越来越重要。因此,问答系统、知识库的自动构建技术在工业界和学术界都得到很大关注并取得了一些成果。而这些成果的背后离不开自然语言处理等基础理论的支持,其中,关系抽取就起到了重要作用。随着机器学习的发展,很多自然语言处理任务得到了很好的解决,尤其是支持向量机的提出使很多NLP任务的结果得到了很大的提升,这种方法的核心思想是认为抽取很多适合自然语言处理任务的特征,根据这些特征构造核函数,再利用数据训练分类器,但是抽取特征是一件很复杂的任务,需要研究人员对相应领域有很深入的研究和理解才能找到合适的特征,而且需要花费大量的精力构建提取特征的模型,如果选择的特征不适合,对模型的结果不会有改善,往往会做很多无用功。最近随着深度学习的发展,以卷积神经网络和循环神经网络为代表的深度神经网络模型在图像识别、计算机视觉和语音识别领域取得了巨大成功,在自然语言处理领域也取得了很大进展,之前的研究成果表明长短时记忆神经网络对处理具有时序特征的自然语言有天然的优势,也有很多研究者将长短时记忆神经网络用于关系分类任务中。由于关系分类本身的特点,卷积神经网络擅长捕获局部特征的特点很适合用于关系分类的特征抽取,所以基于卷积神经网络的模型是另一大类用于关系分类的 ...
【技术保护点】
1.一种融合区分度信息的神经网络关系分类方法,其特征在于,包括步骤如下:(1)数据预处理:先采用one‑hot形式来表示数据集中的实体词;再根据数据集中的文本类别对数据进行类别标定;将数据集分为训练集和测试集;(2)训练词向量;将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量;(3)抽取位置向量;(4)针对具体任务建模;利用双向LSTM编码实体词的上下文信息和语义信息;(5)将句子中指定的两个实体词的词向量相减,即将句子中的后面的实体词的词向量减去句子中的前面的实体词的词向量,得到新的向量;与此同时,将句子中的后面的实体词的位置向量减去句子中的前面的实体词的位置向量,并将得到的结果线性变换映射到高维向量空间中,将得到的向量与新的向量级联后输入到Bi‑LSTM单元中,经过该Bi‑LSTM单元编码后的向量为区分度特征;(6)将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,得到融合了区分度特征的整个句子对关系分类任务最重要的信息;(7)采用损失函数训练模型。
【技术特征摘要】
2018.10.29 CN 20181126843441.一种融合区分度信息的神经网络关系分类方法,其特征在于,包括步骤如下:(1)数据预处理:先采用one-hot形式来表示数据集中的实体词;再根据数据集中的文本类别对数据进行类别标定;将数据集分为训练集和测试集;(2)训练词向量;将文本数据转换成数学数据,即获取训练集中的每一个词相应的词向量;(3)抽取位置向量;(4)针对具体任务建模;利用双向LSTM编码实体词的上下文信息和语义信息;(5)将句子中指定的两个实体词的词向量相减,即将句子中的后面的实体词的词向量减去句子中的前面的实体词的词向量,得到新的向量;与此同时,将句子中的后面的实体词的位置向量减去句子中的前面的实体词的位置向量,并将得到的结果线性变换映射到高维向量空间中,将得到的向量与新的向量级联后输入到Bi-LSTM单元中,经过该Bi-LSTM单元编码后的向量为区分度特征;(6)将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,得到融合了区分度特征的整个句子对关系分类任务最重要的信息;(7)采用损失函数训练模型。2.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(6)中,将步骤(4)得到的语义特征和步骤(5)得到的区分度特征进行融合,包括:将语义特征、区分度特征输入特征融合模块,经过卷积神经网络提取特征,输出融合了区分度特征的整个句子对关系分类任务最重要的信息,特征融合模块是一维卷积神经网络。3.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(4),利用双向LSTM编码实体词的上下文信息和语义信息,包括:双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;双向LSTM编码后,输出每个词对应的经过编码后的向量,作为整个句子的语义特征。4.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(5),两个实体词的词向量相减的实现过程如式(Ⅰ)所示:edic=e2-e1(Ⅰ)式(Ⅰ)中,e2,e1是指两个实体词的词向量,edic是两个实体词的词向量相减的结果;两个实体词的词向量相减的结果、两个实体词的位置向量相减的结果级联后输入Bi-LSTM单元编码的实现过程如式(Ⅱ)所示:式(Ⅱ)中,表示两个实体词的位置向量相减的结果,dic表示edic与级联后用Bi-LSTM单元编码后得到的编码向量。5.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(7),采用交叉熵损失函数训练模型,模型损失计算公式如式(Ⅲ)所示:式(Ⅲ)中,x是要判断的样本,px是样本类别的标准分布,qx是样本类别的预测分布。6.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(2),训练词向量,包括:A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据,并对这些初始训练数据进行清洗,去掉没有意义的特殊字符和格式,将HTML格式的数据处理成TXT格式的数据;B、将步骤A处理后的数据喂入Word2vec进行训练,训练时,采用skip-gram模型,窗口大小设为3-8,迭代周期设为2-15,设定词向量的维度是200-400维,训练结束后,得到一个词向量映射表;C、根据步骤B得到的词向量映射表,获取训练集的每一个词对应的词向量。7.根据权利要求1所述的一种融合区分度信息的神经网络关系分类方法,其特征在于,所述步骤(3),抽取位置向量,包括:获取训练集中的每一个词的位置向量特征,位置向量特征包括句子中的每个词到实体词的相对距离组成,根据步骤(1)得到的每个实体词在句子中的位置,以实体位置为原点,得到句子中的每个词相对实体词的位置,每个词对两个实体的相对位置组成该词的位置向量特征;并获取每个位置向量特征的高维位置特征向量,将步骤(2)...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。