一种集成浅层语义预判模态的深度学习文本分类方法技术

技术编号：21714523 阅读：58 留言：0更新日期：2019-07-27 19:14

本发明专利技术公开了一种集成浅层语义预判模态的深度学习文本分类方法，方法包括：首先对文本语料实施常规的CNN深度学习训练，包括词嵌入、卷积、池化和模式输出；其次利用领域词汇字典作为浅层语义词汇，基于浅层语义词汇，计算浅层语义预判模式；接下来将浅层语义预判模态和深度学习决策模态进行双模态融合，作为SDG‑CNN模型最终的决策模式，进而以该决策模式构建损失函数和实施参数优化。本发明专利技术解决了传统深度学习模型在模型优化过程中缺乏背景知识和语义信息，信息模态单一的缺陷，提升了深度学习文本分类模型的性能。

A Deep Learning Text Classification Method Integrating Shallow Semantic Predictive Modes

全部详细技术资料下载

【技术实现步骤摘要】
一种集成浅层语义预判模态的深度学习文本分类方法
本专利技术涉及深度学习与文本分类领域，特别是涉及一种集成浅层语义预判模态的深度学习文本分类方法。
技术介绍
文本分类指对大量的非结构化文本语料按照给定的分类体系进行类别归属预测的过程。随着深度学习技术的突破，以卷积神经网络为代表的深度学习模型在文本分类上取得不错的效果。但总体而言，在准确性和可靠性上还远未能达到实用水平，这是由深度学习的先验知识缺失所造成的。因为大数据驱动的深度学习模型只会发现数据集中统计意义上的结论，难以有效利用先验知识。将先验知识融入到深度学习模型是一种解决深度学习瓶颈的思路。浅层语义是一种有效的常识知识提取和表达方式，因此研究集成浅层语义预判模态的深度学习文本分类方法具有重要的理论价值和研究意义。
技术实现思路
本专利技术提供了一种集成浅层语义预判模态的深度学习文本分类方法SDG-CNN(SemanticDecisionGuideConvolutionalNeuralNetwork)，其克服传统深度学习模型在模型优化过程中缺乏背景知识和语义信息，信息模态单一的缺陷。本专利技术解决其技术问题所采用的技术方案是：一种集成浅层语义预判模态的深度学习文本分类方法，包括以下步骤：S1：输入文本语料，采用结巴分词工具对语料进行分词。S2：计算浅层语义预判模式SDG，如下：S21：从以下八个方面来挖掘行业词汇从而构建浅层语义词典：(1)开源词典Dopen；(2)否定副词词典Dnot；(3)程度副词词典Dadv；(4)网络词典Dnet；(5)符号词典Demoticon；(6)语气词词典Dmood；(7)领域...

【技术保护点】
1.一种集成浅层语义预判模态的深度学习文本分类方法，其特征在于，包括以下步骤：S1：输入文本语料，采用结巴分词工具对语料进行分词；S2：计算浅层语义预判模式SDG，如下：S21：从以下八个方面来挖掘行业词汇从而构建浅层语义词典：(1)开源词典Dopen；(2)否定副词词典Dnot；(3)程度副词词典Dadv；(4)网络词典Dnet；(5)符号词典Demoticon；(6)语气词词典Dmood；(7)领域词典Dprofession；(8)其他包括手工构建的词典Dother；S22：利用训练语料计算出每个浅层语义词汇属于每个类别的概率，形成浅层语义词汇概率表；S23：基于步骤S21中得到的浅层语义词典，提取每条语料中的浅层语义词汇；S24：基于步骤S22得到的浅层语义词汇概率表和步骤S23得到的每条语料中的浅层语义词汇，利用求和归一化的方式计算出这条语料的预判概率，即形成浅层语义预判模式SDG；S3：集成浅层语义预判模态的CNN分类模型构建，如下：S31：准备有监督文本学习样本集D＝[文本语料X、文本类别Y]，其中每一个样本由一条文本语料x及其对应的标签y所形成；S32：初始化CNN网络；...

【技术特征摘要】
1.一种集成浅层语义预判模态的深度学习文本分类方法，其特征在于，包括以下步骤：S1：输入文本语料，采用结巴分词工具对语料进行分词；S2：计算浅层语义预判模式SDG，如下：S21：从以下八个方面来挖掘行业词汇从而构建浅层语义词典：(1)开源词典Dopen；(2)否定副词词典Dnot；(3)程度副词词典Dadv；(4)网络词典Dnet；(5)符号词典Demoticon；(6)语气词词典Dmood；(7)领域词典Dprofession；(8)其他包括手工构建的词典Dother；S22：利用训练语料计算出每个浅层语义词汇属于每个类别的概率，形成浅层语义词汇概率表；S23：基于步骤S21中得到的浅层语义词典，提取每条语料中的浅层语义词汇；S24：基于步骤S22得到的浅层语义词汇概率表和步骤S23得到的每条语料中的浅层语义词汇，利用求和归一化的方式...

【专利技术属性】
技术研发人员：王华珍，李小整，何霆，贺惠新，李弼程，
申请(专利权)人：华侨大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人