当前位置: 首页 > 专利查询>华侨大学专利>正文

一种集成浅层语义预判模态的深度学习文本分类方法技术

技术编号:21714523 阅读:58 留言:0更新日期:2019-07-27 19:14
本发明专利技术公开了一种集成浅层语义预判模态的深度学习文本分类方法,方法包括:首先对文本语料实施常规的CNN深度学习训练,包括词嵌入、卷积、池化和模式输出;其次利用领域词汇字典作为浅层语义词汇,基于浅层语义词汇,计算浅层语义预判模式;接下来将浅层语义预判模态和深度学习决策模态进行双模态融合,作为SDG‑CNN模型最终的决策模式,进而以该决策模式构建损失函数和实施参数优化。本发明专利技术解决了传统深度学习模型在模型优化过程中缺乏背景知识和语义信息,信息模态单一的缺陷,提升了深度学习文本分类模型的性能。

A Deep Learning Text Classification Method Integrating Shallow Semantic Predictive Modes

【技术实现步骤摘要】
一种集成浅层语义预判模态的深度学习文本分类方法
本专利技术涉及深度学习与文本分类领域,特别是涉及一种集成浅层语义预判模态的深度学习文本分类方法。
技术介绍
文本分类指对大量的非结构化文本语料按照给定的分类体系进行类别归属预测的过程。随着深度学习技术的突破,以卷积神经网络为代表的深度学习模型在文本分类上取得不错的效果。但总体而言,在准确性和可靠性上还远未能达到实用水平,这是由深度学习的先验知识缺失所造成的。因为大数据驱动的深度学习模型只会发现数据集中统计意义上的结论,难以有效利用先验知识。将先验知识融入到深度学习模型是一种解决深度学习瓶颈的思路。浅层语义是一种有效的常识知识提取和表达方式,因此研究集成浅层语义预判模态的深度学习文本分类方法具有重要的理论价值和研究意义。
技术实现思路
本专利技术提供了一种集成浅层语义预判模态的深度学习文本分类方法SDG-CNN(SemanticDecisionGuideConvolutionalNeuralNetwork),其克服传统深度学习模型在模型优化过程中缺乏背景知识和语义信息,信息模态单一的缺陷。本专利技术解决其技术问题所采用的技术方案是:一种集成浅层语义预判模态的深度学习文本分类方法,包括以下步骤:S1:输入文本语料,采用结巴分词工具对语料进行分词。S2:计算浅层语义预判模式SDG,如下:S21:从以下八个方面来挖掘行业词汇从而构建浅层语义词典:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother;S22:利用训练语料计算出每个浅层语义词汇属于每个类别的概率,形成浅层语义词汇概率表;S23:基于步骤S21中得到的浅层语义词典,提取每条语料中的浅层语义词汇;S24:基于步骤S22得到的浅层语义词汇概率表和步骤S23得到的每条语料中的浅层语义词汇,利用求和归一化的方式计算出这条语料的预判概率,即形成浅层语义预判模式(SDG);S3:集成浅层语义预判模态的CNN分类模型构建,如下:S31:准备有监督文本学习样本集D=[文本语料X、文本类别Y],其中每一个样本由一条文本语料x及其对应的标签y所形成;S32:初始化CNN网络;S33:选取学习样本集D的任一样本(x,),将其语料x送入CNN进行前向传播计算,得到其模式输出ρCNN;S34:基于步骤S2提出的浅层语义预判模式计算方法,计算出语料x对应的浅层语义预判模式输出ρSDG;S35:将ρCNN和ρSDG进行相加并归一化作为形成决策模式,进而输出针对语料x的预测结果y′;S36:根据语料x的真实标签y和预测结果y′的差距来指导CNN模型的参数优化;S37:基于步骤S36中已经训练好的CNN网络,将一条被测语料x送入CNN进行前向传播计算,得到其预测类别y′。由上述对本专利技术的描述可知,与现有技术相比,本专利技术具有如下有益效果:本专利技术提出的浅层语义预判模态能利用先验知识计算每条文本语料属于每个类别的概率分布情况,从而实现对深度学习模式训练的纠偏,进而达到将先验知识融入深度学习指导模型训练的目的,使模型构建更贴近人类的思考方式。附图说明图1为本专利技术的集成浅层语义预判模态的深度学习文本分类方法的示意图;图2为本专利技术的集成浅层语义预判模态的深度学习文本分类方法示意图;图3为MR数据集SDG-CNN模型precision指标对比效果图;图4为MR数据集SDG-CNN模型accuracy指标对比效果图;图5为MR数据集SDG-CNN模型F1-score指标对比效果图;图6为SST-1数据集SDG-CNN模型precision指标对比效果图;图7为SST-1数据集SDG-CNN模型accuracy指标对比效果图;图8为SST-1数据集SDG-CNN模型F1-score指标对比效果图;图9为SST-2数据集SDG-CNN模型precision指标对比效果图;图10为SST-2数据集SDG-CNN模型accuracy指标对比效果图;图11为SST-2数据集SDG-CNN模型F1-score指标对比效果图。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。参见图1和图2所示,本专利技术的一种集成浅层语义预判模态的深度学习文本分类方法,包括以下步骤:(1)浅层语义预判模式计算;(2)集成浅层语义预判模态的CNN模型构建。以情感分类为例,选择3个情感数据集进行实验,以期用语料的多样性验证本专利技术SDG-CNN的有效性。数据集的相关统计信息如表1所示。表1三个数据集相关统计信息其中,MR:电影评论数据,每一句代表一个电影评论,包括“积极”和“消极”2个类别;SST-1:斯坦福情绪树库,提供划分好的train/dev/test,包含verypositive,positive,neutral,negative,verynegative共5个类别;SST-2:与SST-1相同,但去掉了“neural”类别,并归并为二分类数据集,即包含positive和negative共2个类别。本专利技术具体步骤如下:步骤一:浅层语义预判模式计算在文本语料构建阶段,本专利技术采用包含互联网50000条“积极”和“消极”二分类的IMDB影评数据集和本文实验的3个情感数据集共82,130条语料作为文本训练语料。在浅层语义词典生成阶段,经调研发现可以从8个不同的方面构建情感分析领域的词汇资源,即意味着情感分类的浅层语义词汇可以来源于8个不同的方面:1)开源词典:国外的有SentiWordNet和Inquirei,国内有知网HowNet词典和同义词词林、大连理工大学和台湾大学等高校提供的情感词汇库;2)否定副词词典:否定副词是用于否定后面词语的副词,常见否定词如“不”、“没有”、“没”、“无”、“非”等;3)程度副词词典:如知网提供的程度副词分为6个等级,分别为极其、很、较、稍、欠、超;4)网络词典:网络新词即多在网络上流行的非正式语言,多由谐音、错别字改成,也有象形字词,在情感分析领域应用越来越广泛。如“新手”不叫新手叫“菜鸟”,“这样子”不叫这样子叫“酱紫”。百度引擎和搜狐引擎集合了现在广为流行的网络用语,有较好的网络新词覆盖率;5)符号词典:随着表情符号的流行,人们越来越趋向于用表情符号表达自己的观点,加入符号表情分析可大大提高情感分析效率;6)语气词词典:语气词在中文表达中经常流露出情感倾向,如“哎呀”,“啊”,“哇塞”等。百度百科提供了76个语气词的词典,还可继续进行扩展;7)领域词典:情感分类相关的词典,主要指的是情感类别体系,如知网的HowNet情感词典分为正面情感词,正面评价词,负面情感词,负面评价词;8)其他:对于前面七个方面未涉及的词典,可以通过自己构建的方式获得适合某个特定任务的词汇资源。根据以上领域词汇的获取方法,本专利技术收集了二分类情感词典Dopen(15907个单词或短语)和1-6个本文档来自技高网...

【技术保护点】
1.一种集成浅层语义预判模态的深度学习文本分类方法,其特征在于,包括以下步骤:S1:输入文本语料,采用结巴分词工具对语料进行分词;S2:计算浅层语义预判模式SDG,如下:S21:从以下八个方面来挖掘行业词汇从而构建浅层语义词典:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother;S22:利用训练语料计算出每个浅层语义词汇属于每个类别的概率,形成浅层语义词汇概率表;S23:基于步骤S21中得到的浅层语义词典,提取每条语料中的浅层语义词汇;S24:基于步骤S22得到的浅层语义词汇概率表和步骤S23得到的每条语料中的浅层语义词汇,利用求和归一化的方式计算出这条语料的预判概率,即形成浅层语义预判模式SDG;S3:集成浅层语义预判模态的CNN分类模型构建,如下:S31:准备有监督文本学习样本集D=[文本语料X、文本类别Y],其中每一个样本由一条文本语料x及其对应的标签y所形成;S32:初始化CNN网络;S33:选取学习样本集D的任一样本(x,y),将其语料x送入CNN进行前向传播计算,得到其模式输出ρCNN;S34:基于步骤S2提出的浅层语义预判模式计算方法,计算出语料x对应的浅层语义预判模式输出ρSDG;S35:将ρCNN和ρsDG进行相加并归一化作为形成决策模式,进而输出针对语料x的预测结果y′;S36:根据语料x的真实标签y和预测结果y′的差距来对CNN模型进行参数优化;S37:基于步骤S36中已经训练好的CNN网络,将一条被测语料x送入CNN进行前向传播计算,得到其预测类别y′。...

【技术特征摘要】
1.一种集成浅层语义预判模态的深度学习文本分类方法,其特征在于,包括以下步骤:S1:输入文本语料,采用结巴分词工具对语料进行分词;S2:计算浅层语义预判模式SDG,如下:S21:从以下八个方面来挖掘行业词汇从而构建浅层语义词典:(1)开源词典Dopen;(2)否定副词词典Dnot;(3)程度副词词典Dadv;(4)网络词典Dnet;(5)符号词典Demoticon;(6)语气词词典Dmood;(7)领域词典Dprofession;(8)其他包括手工构建的词典Dother;S22:利用训练语料计算出每个浅层语义词汇属于每个类别的概率,形成浅层语义词汇概率表;S23:基于步骤S21中得到的浅层语义词典,提取每条语料中的浅层语义词汇;S24:基于步骤S22得到的浅层语义词汇概率表和步骤S23得到的每条语料中的浅层语义词汇,利用求和归一化的方式...

【专利技术属性】
技术研发人员:王华珍李小整何霆贺惠新李弼程
申请(专利权)人:华侨大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1