The invention relates to a method and device, visual analysis of the depth of the neural network to the text stream based on input include: design and implementation of a layered depth neural network structure based on the input text; use correlation label propagation algorithm (LRP) to get each layer factor (factor) weight on the prediction results, and then extract the important factors from; to cluster the important factors to get, to get the clustering information of the whole, and then construct factor hierarchical structure; the results are visualized in visualization, the prediction results and factors of clustering results and column shows, factor clustering results can be further expanded to the minimum size. By using the method of stratified factor analysis, this invention can help users to better analyze the results and operating mechanism of the deep neural network.
【技术实现步骤摘要】
一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
本专利技术涉及深度学习和可视化领域,具体地说,涉及一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置。
技术介绍
深度学习技术正在改观大数据研究领域的预测分析,并且已经在图像和语音识别、知识问答、机器翻译以及其他很多应用领域取得了重大突破。通常,深度学习方法是将输入数据经由多层神经网络结构,如前馈神经网络、卷积神经网络(CNN)、循环神经网络(RNN)等,通过多次的迭代训练,最终得到学习模型。然而,相对于传统的机器学习方法,如线性回归和支持向量机,深度学习模型有一个众所周知的缺陷,即它难以解释。这个缺陷使得难以理解深度学习模型和进一步分析。在有些领域,例如图像识别,深度学习的原理已经被部分解释。例如,从基本的视觉特征到图案最后到对象的细节特区提取。在大多数其他领域,对于深度学习模型如何工作仍然只有很少的线索。例如在文本预测中,文本输入的使用引入了额外的词向量步骤来将文本集合映射到特征空间,使得解释预测模型更加困难。以股票预测为例,已经证实金融新闻和推特等文本数据对股市走势的预测是有用的。例如,雅虎金融新闻“Amazonprofitbeatsforecasts”会伴随着亚马逊股价的激增,而“Oilpricehitsarecordhigh”则引发了对汽车行业的担忧并且削弱了他们在股市的表现。过去的使用大量金融新闻以及深度神经网络的工作已经在每日股价的预测上达到了高于60%的准确率。然而,金融用户(如交易者,投资者等)不能直接运用深度学习的结果。第一,这些用户通常已经建立了他们自己的一系 ...
【技术保护点】
一种基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于,包括以下步骤:(1)设计一个基于文本流输入的深度神经网络的模型,使用训练集和开发集对该模型进行训练,再使用训练好的模型在测试集上进行预测,得到预测结果;(2)使用标签相关性传播算法(LRP)获得步骤(1)中设计的深度神经网络中每一层因素对于预测结果的权重,从这些因素中提取权重绝对值大于设定阈值的文本作为重要因素;(3)对步骤(2)得到的重要因素进行聚类,得到重要因素的聚类结果,根据聚类结果构建这些重要因素,的层次树;树的第一层为对预测结果影响权重大于设定阈值的关键词的聚类,第二层为各个关键词,第三层为包含这些关键词的二元词组,第四层为包含这些关键词的文本文档;(4)对步骤(1)中的预测结果以及步骤(3)得到的重要因素的聚类结果以及重要因素的层次树进行联动可视化展示。
【技术特征摘要】
1.一种基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于,包括以下步骤:(1)设计一个基于文本流输入的深度神经网络的模型,使用训练集和开发集对该模型进行训练,再使用训练好的模型在测试集上进行预测,得到预测结果;(2)使用标签相关性传播算法(LRP)获得步骤(1)中设计的深度神经网络中每一层因素对于预测结果的权重,从这些因素中提取权重绝对值大于设定阈值的文本作为重要因素;(3)对步骤(2)得到的重要因素进行聚类,得到重要因素的聚类结果,根据聚类结果构建这些重要因素,的层次树;树的第一层为对预测结果影响权重大于设定阈值的关键词的聚类,第二层为各个关键词,第三层为包含这些关键词的二元词组,第四层为包含这些关键词的文本文档;(4)对步骤(1)中的预测结果以及步骤(3)得到的重要因素的聚类结果以及重要因素的层次树进行联动可视化展示。2.根据权利要求1所述的基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于:所述步骤(1)中的深度神经网络的模型为分层结构,具体结构如下:共有四层,分别是词向量层、词组向量层、标题向量层和回归网络层,从文本数据到最终预测结果,词向量层以原始文本数据作为输入,并将其中每个单词转换成一个实数的词向量;词组向量层在以上词向量的基础上构建相邻两单词组成的词组的向量;标题向量层汇总标题,包括新闻标题、推文中出现的所有词组向量,并构建标题的向量表示;回归网络层接收标题向量层的输出,并通过一个带有残差连接项的前向神经网络将接收到的标题向量层的输出映射到一个实数预测值。3.根据权利要求1所述的基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于:所述步骤(2)中,使用标签相关性传播算法获得步骤(1)中设计的深度神经网络中每一层因素对于预测结果的权重,实现如下:(1)将第l层的第i个神经元记作其相关性分数记作将神经网络训练时前向过程中从神经元到神经元的信息贡献函数定义为m(j→i),最后一层的相关性分数为预测结果,首先计算经过传播到的相关性分数增量为:再按照此公式计算第l层的所有神经元传播到的相关性分数增量;(2)累加步骤(1)得到的相关性分数增量即得到第l‐1层的神经元Rj的相关性分数即:按照此方法可得到l‐1层每个神经元的标签相关分数和(3)将l‐1层得到的相关性分数按(1)(2)中同样的规则传播到第l‐2层,得到l‐2层的相关性分数,由l‐2层得到的相关性分数按照同样的规则传播到l‐3层,得到l‐3层的相关性分数,不断计算直至得到第一层的相关性分数,这样便得到每一层因素的相关性分数,从中选取相关性分数绝对值大于某个阈值的因素作为重要因素。4.根据权利要求1所述的基于文本流输入的深度神经网络的分层因素可视化分析方法,其特征在于:步骤(3)中,聚类采用k‐...
【专利技术属性】
技术研发人员:时磊,王乐,黄聪聪,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。