当前位置: 首页 > 专利查询>中国人民解放军战略支援部队信息工程大学专利>正文

基于深度学习模型的复合文本多分类方法及系统技术方案

技术编号：28979841 阅读：18 留言：0更新日期：2021-06-23 09:26

本发明专利技术属于自然语言处理技术领域，特别涉及一种基于深度学习模型的复合文本多分类方法及系统，包含：将复合文本转换至词语粒度级的文本表示，对转换后的词语粒度级文本表示进行预处理，并通过词嵌入方法表示为词向量；将词向量作为深度学习模型输入，通过模型CNN卷积层提取文本特征，选取卷积后向量，并保留全局部分序列关联信息，通过模型self‑attention层为文本特征向量附加权重并进行等长向量序列拼接，利用模型LSTM循环层提取文本特征向量；通过模型池化层对文本特征向量进行平均化操作，并利用softmax分类器获取输入的文本类别概率，依据概率大小来获取文本分类结果。本发明专利技术可解决复合文本精确多分类问题，满足自然语言文本多分类预测识别的实际应用。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习模型的复合文本多分类方法及系统
本专利技术属于自然语言处理
，特别涉及一种基于深度学习模型的复合文本多分类方法及系统，通过复合深度学习模型CNN、LSTM、self-attention对文本进行多分类预测。
技术介绍
文本分类是自然语言处理中关键且基础的任务之一，其常见的方法有传统的机器学习分类模型如朴素贝叶斯、支持向量机、逻辑回归等，以及演变至目前一系列基于深度学习的分类模型，主要包括CNN、LSTM、attention等。Text-CNN实现简单，支持并行，其主要的特点是局部感知和权值共享。局部感知使模型每次只需要感知较小的局部地区，降低参数量的同时提高拟合能力。权值共享使一些基本特征可以重复利用，提高神经网络训练效果。Attention机制原理是从从大量信息中筛选并聚焦在更为有效的信息上，聚焦的过程体现在权重系数的计算上。LSTM循环神经网络是一种以序列数据为输入来进行建模的深度学习模型，相比于其它神经网络模型，LSTM能更有效的处理序列信息，是NLP中常用的模型。在文本分类的实际应用中，CNN模型简单、训练速度快，效果可观，但可解释性不强，在调优模型时很难根据训练结果针对性调整具体特征，不易对每个特征重要度进行评估；Attention机制中能无视词之间的举例直接计算依赖关系，能够学习句子内部结构，实现简单且可并行计算，但进行权重计算时需要计算每个特征向量之间相关性，当特征向量较多时计算量较高；LSTM能够有效处理序列信息，但不够直观缺乏可解释性。
技术实现思路
为...

【技术保护点】
1.一种基于深度学习模型的复合文本多分类方法，其特征在于，包含：/n将复合文本转换至词语粒度级的文本表示，对转换后的词语粒度级文本表示进行预处理，并通过词嵌入方法表示为词向量；/n将词向量作为已训练的深度学习模型的输入，通过模型中CNN卷积层提取文本特征，选取卷积后的向量，并保留全局部分序列关联信息，通过模型中self-attention层为文本特征向量附加权重并进行等长向量序列拼接，利用模型中LSTM循环层提取文本特征向量；通过模型池化层对文本特征向量进行平均化操作，并利用softmax分类器获取输入的文本类别概率，依据概率大小来获取文本分类结果。/n

【技术特征摘要】
1.一种基于深度学习模型的复合文本多分类方法，其特征在于，包含：
将复合文本转换至词语粒度级的文本表示，对转换后的词语粒度级文本表示进行预处理，并通过词嵌入方法表示为词向量；
将词向量作为已训练的深度学习模型的输入，通过模型中CNN卷积层提取文本特征，选取卷积后的向量，并保留全局部分序列关联信息，通过模型中self-attention层为文本特征向量附加权重并进行等长向量序列拼接，利用模型中LSTM循环层提取文本特征向量；通过模型池化层对文本特征向量进行平均化操作，并利用softmax分类器获取输入的文本类别概率，依据概率大小来获取文本分类结果。

2.根据权利要求1所述的基于深度学习模型的复合文本多分类方法，其特征在于，针对复合文本，以词典为基本切分方法，根据文本语言特征、语序特征及结构特征，使用分词系统进行不同级别分词。

3.根据权利要求1所述的基于深度学习模型的复合文本多分类方法，其特征在于，针对复合文本进行特征分析，以基于字典匹配的分词方法为基础，并结合词频统计和语义理解分词将复合文本划分至词语粒度级。

4.根据权利要求1或2或3所述的基于深度学习模型的复合文本多分类方法，其特征在于，预处理中，针对词语粒度级的文本表示，通过加载停止词词典去除停止词，利用TF-IDF词频统计去除所有类别内高频词，并利用Word2Vec词嵌入方法表示为多维词向量，其中，高频词为词频大于设定值的词语。

5.根据权利要求1所述的基于深度学习模型的复合文本多分类方法，其特征在于，CNN卷积层中，使用不同卷积窗口对输入的词向量进行卷积操作，以不同视野宽度提取文本特征。

6.根据权利要求1所述的基于深度学习模型的复合文...

【专利技术属性】
技术研发人员：卜佑军，孙嘉，陈博，张桥，王方玉，张鹏，周锟，伊鹏，马海龙，胡宇翔，李锦玲，张稣荣，路祥雨，张进，
申请(专利权)人：中国人民解放军战略支援部队信息工程大学，网络通信与安全紫金山实验室，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人