一种融合多知识图谱的神经网络文本分类方法技术

技术编号：19745473 阅读：18 留言：0更新日期：2018-12-12 04:47

本发明专利技术涉及一种融合多知识图谱的神经网络文本分类方法，包括以下步骤：将训练集中文本输入至长短期记忆网络中，得到文本的上下文向量；对训练集中各文本抽取实体，在知识图谱中进行实体匹配；分别计算匹配到的各实体、知识图谱中各关系在上下文向量下的注意力权重，得到文本的总体实体向量、总体关系向量，进而得到事实三元组向量；计算不同知识图谱下的事实三元组向量，计算这些事实三元组的注意力权重，得到文本表征向量并输入到神经网络的全连接层，使用分类器计算各文本属于各类别的概率来训练网络；利用训练好的深度神经网络模型预测待预测文本所属类别。该方法提升了模型对文本语义的理解，可以更可靠、准确且鲁棒地对文本内容进行分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合多知识图谱的神经网络文本分类方法
本专利技术涉及自然语言处理及数据挖掘
，特别是一种融合多知识图谱的神经网络文本分类方法。
技术介绍
文本分类(textcategorization)技术是信息检索和文本挖掘的重要基础，其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。近年来,利用深度学习来建立语言模型的研究思路逐渐走向成熟，大大提升了文本的特征质量。有学者最早提出一种基于卷积神经网络的句子分类模型，通过卷积层对预训练的词向量矩阵进行特征提取，利用梯度下降法优化网络权重参数，达到优于传统基于机器学习分类方法的分类精度；有学者提出一种对句子建模的深度神经网络模型，底层通过组合邻近的词语信息，逐步向上传递，上层则又组合新的Phrase信息，从而使得句子中即使相离较远的词语也有交互行为；有学者提出一种结合卷积神经网络和循环神经网络的网络模型，利用循环神经网络的结构得到词的上下文信息，将词本身与其上下文视为一个整体，共同参与卷积层的特征提取以及输出层的分类；有学者提出一种结合大型的分类知识库Probase于卷积神经网络的分类模型，将一个短文本概念化为一组相关概念，然后，在预训练的词向量上，通过合并词与相关概念得到短文本的嵌入；有学者提出一种增强模型，运用知识图谱来进行NLP任务，运用注意力机制来从知识图谱中提取与任务相关的事实三元组。目前借助知识图谱来增强深度神经网络语义建模的研究还相对较少，且这些研究在知识图谱中的信息与训练集文本的结合匹配...

【技术保护点】
1.一种融合多知识图谱的神经网络文本分类方法，其特征在于，包括以下步骤：步骤A：将训练集中文本输入至长短期记忆网络中，得到文本的上下文向量；步骤B：对训练集中各文本抽取实体，在知识图谱中进行实体匹配；步骤C：计算步骤B中匹配到的各实体在步骤A中得到的上下文向量下的注意力权重，得到文本的总体实体向量，同时，计算知识图谱中各关系在所述上下文向量下的注意力权重，得到文本的总体关系向量，进而得到事实三元组向量；步骤D：在不同知识图谱中重复步骤B、C，得到不同知识图谱下的事实三元组向量，计算这些事实三元组在步骤A中得到的上下文向量下的注意力权重，得到最终的文本表征向量，将所述文本表征向量输入到神经网络的全连接层，使用分类器计算各文本属于各类别的概率来训练网络；步骤E：利用训练好的深度神经网络模型预测待预测文本所属类别，取概率最大的类别作为预测的类别输出。

【技术特征摘要】
1.一种融合多知识图谱的神经网络文本分类方法，其特征在于，包括以下步骤：步骤A：将训练集中文本输入至长短期记忆网络中，得到文本的上下文向量；步骤B：对训练集中各文本抽取实体，在知识图谱中进行实体匹配；步骤C：计算步骤B中匹配到的各实体在步骤A中得到的上下文向量下的注意力权重，得到文本的总体实体向量，同时，计算知识图谱中各关系在所述上下文向量下的注意力权重，得到文本的总体关系向量，进而得到事实三元组向量；步骤D：在不同知识图谱中重复步骤B、C，得到不同知识图谱下的事实三元组向量，计算这些事实三元组在步骤A中得到的上下文向量下的注意力权重，得到最终的文本表征向量，将所述文本表征向量输入到神经网络的全连接层，使用分类器计算各文本属于各类别的概率来训练网络；步骤E：利用训练好的深度神经网络模型预测待预测文本所属类别，取概率最大的类别作为预测的类别输出。2.根据权利要求1所述的一种融合多知识图谱的神经网络文本分类方法，其特征在于，所述步骤A中，将训练集中文本输入至长短期记忆网络中，得到文本的上下文向量，包括以下步骤：步骤A1：对任一文本D，进行分词处理，并使用词嵌入工具将文本中的词转为词向量形式，计算公式如下：v＝W·v′其中，文本中每个词随机初始化为一个d’维的实数向量v’；W为词嵌入矩阵，W∈Rd×d′，由大规模语料在神经网络语言模型中训练得到，用于将d’维实数向量投射为d维词向量；v∈Rd，表示词向量，d为词向量的维度；步骤A2：对于文本D，将构成句子的词看作一个时序序列，将词向量按照词序依次输入到一个双向的长短期记忆网络中，对于长短期记忆网络的正向，依次输入x1,x2,…,xn，对于长短期记忆网络的反向，则依次输入xn,xn-1,...,x1，其中，xn表示文本中第n个词的词向量，n为文本D中词的个数；计算每个词在正向和反向的隐层状态值，将这些隐层状态值求平均，乘以权重矩阵，最后使用激活函数得到文本D的上下文向量，计算公式如下：C＝ReLU(oTWc)其中，xt为文本中第t个词的词向量，表示文本D中第t个词的在正向长短期记忆网络中的隐层状态向量，表示文本D中第t个词在反向长短期记忆网络中的隐层状态向量，f为长短期记忆网络中对隐层状态的计算函数，ht为正向和反向状态向量的串联，o为隐层状态的平均值向量，oT为向量o的转置向量，Wc为权重参数矩阵，ReLU为使用的激活函数，C为文本的上下文向量。3.根据权利要求2所述的一种融合多知识图谱的神经网络文本分类方法，其特征在于，所述步骤B中，对训练集中各文本抽取实体，在知识图谱中进行实体匹配，包括以下步骤：步骤B1：对于每一分词后的训练文本D，对其进行词性标注，取其中的名词及名词短语，构成集合S，对于集合S中的每一个元素si，利用CrossWikis数据集，从中得到名词或名词短语si到实体列表的映射，所述实体列表指实体及其各自别名，即通过CrossWikis得到集合ei表示以si为名称或别名在CrossWikis中匹配到的第i个实体，eij表示实体ei在CrossWikis中的第j个别名，m是以si为名称或别名在CrossWikis中匹配到的实体的个数，nm表示第m个实体的别名个数；设当前使用的知识图谱为KG，对于集合S中的元素，大部分都能从CrossWikis中匹配到实体，对于不能从CrossWikis中匹配到实体的s’i，则在当前知识图谱KG中按照字面进行实体匹配，得到在KG中的实体集合{e’1,e’2,…,e’k}，e’k表示在当前知识图谱KG中，对不存在于KG中的实体按照字面进行实体匹配，得到的第k个实体；将得到的所有实体e’1,e’2,…,e’k构成一个集合，记为Es；步骤B2：计算给定s条件下各实体e的置信分数：对于集合S中的元素s及s所对应的实体集合Es中的元素e，其中s为si或s’i，e为ei、eij或e’i，对于存在于Cro...

【专利技术属性】
技术研发人员：陈羽中，张伟智，郭昆，林剑，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人