基于卷积神经网络的主题提取方法、装置、介质和设备制造方法及图纸

技术编号：20025764 阅读：26 留言：0更新日期：2019-01-06 04:37

本发明专利技术提供了一种基于卷积神经网络的主题提取方法、装置、介质和设备，其中，该方法包括：获取与网络舆情相关的待提取文本的词向量矩阵；根据词向量矩阵构造初始特征矩阵，将初始特征矩阵作为题提取模型的输入并输入至第一顺位的区域块，并确定区域块的输出；区域块每个隐含层的输入来自于区域块内所有其他隐含层的输出；将当前区域块的输出作为下一个区域块的输入，继续确定所有区域块的输出；根据所有区域块的输出修正后的主题权重，根据修正后的主题权重提取待提取文本的关键词。该方法采用的网络结构可以使得网络特征和梯度的传递更加有效，避免了损失函数信息逐层传递造成的梯度消失问题，保证了扩大网络深度的同时能够避免梯度消失问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积神经网络的主题提取方法、装置、介质和设备
本专利技术涉及主题提取
，特别涉及一种基于卷积神经网络的主题提取方法、装置、介质和设备。
技术介绍
随着移动互联网技术的发展，网络信息呈爆发式的增长，网络中充斥了大量有用或无用的文本；例如，网络舆情作为社会舆论的一种表现形式，公众基于互联网对当下流行的社会问题发表不同的看法或网络舆论。由于网络文本信息量巨大，需要快速提取网络信息的主要信息，即提取信息的主题或摘要，以方便用户快速定位自己感兴趣的内容。当前的主题提取模型一般基于词袋模型和循环神经网络模型为主，而词袋模型没有考虑词的位置因素，且文本特征是0阶统计的；而循环神经网络的计算效率较低，参数较多不容易调参，且随着不断迭代会导致梯度越来越小，即出现梯度消失问题。假如采用传统卷积神经网络模型(CNN)单纯地增加网络层，也会导致梯度消失和准确率下降的问题，该方式也不能提高主题提取的效果。
技术实现思路
本专利技术提供一种基于卷积神经网络的主题提取方法、装置、介质和设备，用以解决现有利用卷积神经网络的主题提取模型存在梯度消失问题的缺陷。本专利技术提供的一种基于卷积神经网络的主题提取方法，包括：获取与网络舆情相关的待提取文本，依次将所述待提取文本中的每个词转换为词向量，并确定所述待提取文本的词向量矩阵，为每个词向量分配一个用于表示相应词为主题关键词可能性大小的主题权重；根据所述词向量矩阵构造初始特征矩阵，将所述初始特征矩阵作为训练后的主题提取模型的输入，所述主题提取模型包括依次连接的区域块和与所有区域块输出端连接的全连接层，所述全连接层的输出为所述主题提取模型的...

【技术保护点】
1.一种基于卷积神经网络的主题提取方法，其特征在于，包括：获取与网络舆情相关的待提取文本，依次将所述待提取文本中的每个词转换为词向量，并确定所述待提取文本的词向量矩阵，为每个词向量分配一个用于表示相应词为主题关键词可能性大小的主题权重；根据所述词向量矩阵构造初始特征矩阵，将所述初始特征矩阵作为训练后的主题提取模型的输入，所述主题提取模型包括依次连接的区域块和与所有区域块输出端连接的全连接层，所述全连接层的输出为所述主题提取模型的输出；将所述主题提取模型的输入作为第一顺位的区域块的输入，并确定所述区域块的输出；所述区域块包含多个隐含层，且每个隐含层的输入来自于所述区域块内所有其他隐含层的输出；将当前区域块的输出作为下一个区域块的输入，继续确定下一个区域块的输出，直至确定所有区域块的输出，并将所有区域块的输出传至全连接层；所述全连接层根据所有区域块的输出生成所述待提取文本的每个词向量的修正后的主题权重；根据词向量修正后的主题权重提取所述待提取文本的关键词。

【技术特征摘要】
1.一种基于卷积神经网络的主题提取方法，其特征在于，包括：获取与网络舆情相关的待提取文本，依次将所述待提取文本中的每个词转换为词向量，并确定所述待提取文本的词向量矩阵，为每个词向量分配一个用于表示相应词为主题关键词可能性大小的主题权重；根据所述词向量矩阵构造初始特征矩阵，将所述初始特征矩阵作为训练后的主题提取模型的输入，所述主题提取模型包括依次连接的区域块和与所有区域块输出端连接的全连接层，所述全连接层的输出为所述主题提取模型的输出；将所述主题提取模型的输入作为第一顺位的区域块的输入，并确定所述区域块的输出；所述区域块包含多个隐含层，且每个隐含层的输入来自于所述区域块内所有其他隐含层的输出；将当前区域块的输出作为下一个区域块的输入，继续确定下一个区域块的输出，直至确定所有区域块的输出，并将所有区域块的输出传至全连接层；所述全连接层根据所有区域块的输出生成所述待提取文本的每个词向量的修正后的主题权重；根据词向量修正后的主题权重提取所述待提取文本的关键词。2.根据权利要求1所述的方法，其特征在于，在所述将所述初始特征矩阵作为训练后的主题提取模型的输入之前，还包括：构建初始模型，所述初始模型包括依次连接的区域块和与所有区域块输出端连接的全连接层，全连接层的输出为所述初始模型的输出；获取词向量预设矩阵，所述词向量预设矩阵中每个词向量对应一个主题权重；通过将所述词向量预设矩阵作为所述初始模型的输入、将相应的修正后的主题权重作为所述初始模型的输出，对所述初始模型进行训练，确定所述初始模型的模型参数，将确定模型参数的初始模型作为主题提取模型。3.根据权利要求1所述的方法，其特征在于，所述确定所述待提取文本的词向量矩阵包括：依次将所述待分类文本中的每个词转换为词向量，并将所述待提取文本的一个句子中所有词向量顺序拼接形成相应的句子序列；对所有的所述句子序列进行尾部补零处理，尾部补零处理后的句子序列具有相同的序列长度；依次将所有的尾部补零处理后的句子序列作为矩阵的一行或一列，生成所述待提取文本的词向量矩阵。4.根据权利要求1所述的方法，其特征在于，所述为每个词向量分配一个用于表示相应词为主题关键词可能性大小的主题权重包括：为每个词向量分配一个用于表示相应词为主题关键词可能性大小的相同的主题权重；或根据词向量的词频为词向量分配一个用于表示相应词为主题关键词可能性大小的主题权重，所述词向量的主题权重与所述词向量的词频为正相关关系。5.根据权利要求1-4任一所述的方法，其特征在于，所述确定所述区域块的输出包括：预设所述区域块内所有隐含层的处理序列；根据所述区域块的输入确定所述处理序列中第一顺位的隐含层的输出，之后按照所述处理序列、根据所述区域块的输入和已经确定输出的之前的隐含层的输出依次确定每个隐含层的输出；按照所述处理序列、依次根据所述区域...

【专利技术属性】
技术研发人员：金戈，徐亮，肖京，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人