【技术实现步骤摘要】
一种融合文本和标签网络的社交内容表征方法和系统
本申请涉及神经网络技术,尤其涉及一种融合文本和标签网络的社交内容表征方法和系统。
技术介绍
文本分类是自然语言处理(NaturalLanguageProcessing,NLP)领域的一项基础工作,在工业界拥有大量且丰富的应用场景。传统的文本分类需要依赖很多词法、句法相关的人为提取的特征,而利用深度学习能够实现无监督的训练。自深度学习技术快速发展之后,尤其是循环神经网络(RecurrentNeuralNetwork,RNN)、卷积神经网络(ConvolutionalNeuralNetWork,CNN)在NLP领域逐渐获得广泛应用,使得传统的文本分类任务变得更加容易,准确率也不断提升。基于预先训练好的词嵌入向量(wordembedding),采用CNN训练了一个词级别的句子分类器,并进行了一系列的实验来验证分类效果。实验证明,一个简单的CNN模型,如图1所示,只需要调整少量超参数和wordembedding,在多个标准数据集上都取得了很好的效果。RNN也是NLP任务中最常用的网络结构之一,因为它的递归结构非常适合处理不同长度的文本。RNN可以基于词(word)的嵌入向量(embedding),把句子文本抽取成一个矩阵。然而利用文本CNN(TextCNN)模型完成文本分类时,创建的文本序列的矩阵包括2个维度,一个维度是文本中的词,另一个维度是各个词维度。在进行卷积操作的时候并不能对矩阵的宽维度进行卷积,只能用与矩阵宽度一样的卷积核,进行卷积操作的结果会得到一个列向量,无法继续进行卷积。并且,目前的技术没有利用文本多 ...
【技术保护点】
1.一种融合文本和标签网络的社交内容表征方法和系统,其特征在于,所述方法包括:对文本数据进行处理,得到该文本数据的图表示,并对得到的子图中节点按照BFS进行排序;对所述图表示进行数据结构化处理;建立标签网络,并根据元路径在标签网络中随机游走得到标签的向量表示;将处理得到的结构化数据输入神经网络中,基于标签网络和元路径得到标签的向量表示对所述神经网络进行LSTM+RNN训练。
【技术特征摘要】
1.一种融合文本和标签网络的社交内容表征方法和系统,其特征在于,所述方法包括:对文本数据进行处理,得到该文本数据的图表示,并对得到的子图中节点按照BFS进行排序;对所述图表示进行数据结构化处理;建立标签网络,并根据元路径在标签网络中随机游走得到标签的向量表示;将处理得到的结构化数据输入神经网络中,基于标签网络和元路径得到标签的向量表示对所述神经网络进行LSTM+RNN训练。2.根据权利要求1所述的方法,其特征在于,所述对文本数据进行处理,得到该文本数据的图表示,包括:对所述文本数据进行分词,去掉词中的停用词;利用固定的滑动窗口尺寸计算词之间的共生程度,得到所述文本数据对应的词网络图,其中节点是文本单词,如果两个单词存在于同一个滑动窗口内,则它们之间具有一条边。3.根据权利要求1所述的方法,其特征在于,所述对所述图表示进行数据结构化处理,包括:在所述图表示中,按照紧密中心度对图中所有节点进行排序,取最大的N个词,N为正整数;对于所述N个词中的每个词,使用广度优先搜索算法得到与该词最相邻的KS个词,其中KS个词的排列顺序与它们通过BFS加入的顺序一致,将该词和所述KS个词组成长度为M的序列,其中,M=KS+1;将K维词嵌入表示运用到所述序列中,得到N*M*K的文本表示。4.根据权利要求1所述的方法,其特征在于,所述建立标签网络,并根据元路径在标签网络中随机游走得到标签的向量表示,包括:元路径分为父子父,子父子,在标签网络中按照这两条元路径进行随机游走得到语料,将语料放入word2vec中进行训练得到标签的向量表示。5.根据权利要求1所述的方法,其特征在于,所述基于多标签分类和标签网络对所述神经网络进行LSTM+RNN训练,包括:在对所述神经网络进行LSTM+RNN训练的过程中,利用标签网络调节所述神经网络中的损失系数,所述标签网络包含有标签之间的关联关系。6.根据权利要求5所述的方法,其特征在于,所述利用标签网络调节所述神经网络中损失的系数,包括:获取所述标签网络中各个标签的嵌入表示,基于所述各个标签的嵌入表示计算标签与标签之间的余弦相似度,其中,Simm,n表示标签m与标签n之间的余弦相似度;计算标签n对应的参数其中,t为所述文本数据命中的标签集合;其中,所述标签n对应的Sn的取值越大,则表明所述标签n与正确的标签越相近,减慢损失系数对应于所述标签n的学习速率;所述标签n对应的Sn的取值越小,则表明所述标签n与正确的标签越不相近,加快损失系数对应于所述标签n的学习速率;损失函数为ln=-wn[yn·logxn+(1-yn)·log(1-xn)],xn是第n个标签的预测,yn是第n个标签的label。7.根据权利要求6所述的方...
【专利技术属性】
技术研发人员:李建欣,宁元星,彭浩,龚其然,李培文,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。