一种文本分类的方法、系统、设备及计算机可读存储介质技术方案

技术编号：21832823 阅读：18 留言：0更新日期：2019-08-10 18:04

本申请公开了一种文本分类的方法，包括：接收输入的分类语料；利用分类语料构建多组句对语料；利用分类语料训练预设神经网络，得到文本分类模型；基于文本分类模型的特征抽取网络构建双输入二分类模型，并利用句对语料对双输入二分类模型进行训练；当双输入二分类模型训练完成后，利用双输入二分类模型对文本分类模型的特征抽取网络进行优化，并利用优化后的文本分类模型对待分类文本进行文本分类。本申请令文本分类模型能更可靠地抽取文本的深层语义特征，进一步提升了文本分类性能，解决了现有技术中基于神经网络的分类难以进一步优化特征抽取网络的问题。本申请同时还提供了一种文本分类的系统、设备及计算机可读存储介质，具有上述有益效果。

A Text Classification Method, System, Equipment and Computer Readable Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类的方法、系统、设备及计算机可读存储介质
本申请涉及文本分类领域，特别涉及一种文本分类的方法、系统、设备及计算机可读存储介质。
技术介绍
文本分类旨在从预定义的类别标签中自动地为给定的文本指派目标标签，是自然语言处理领域中的一项基础任务。文本分类广泛应用于情感分析、问答以及自然语言理解等领域，因此，如何有效提升文本分类性能具有重要的研究价值和意义。目前，文本分类的研究方法主要集中于基于规则、基于统计学习方法以及基于神经网络三个方面。基于规则的分类方法源于对专家知识的应用，也就是专家对特定语料进行观测并制定刚性规则，从而界定文本的类别。基于规则的方法往往处理速度快、精确度高，但受限于观测样本数据的“小样本”现象，因此在大批量数据上的分类性能较低。基于统计学习方法的分类很大程度上依赖于特征工程，如抽取文本的词性、句法依存以及实体信息等特征，并采用向量空间模型表示这些特征，从而训练支持向量机、最大熵等的分类模型，存在一定的局限性。基于神经网络的分类通常采用低维分布式的词向量表示文本，在通过卷积神经网络或循环神经网络提取文本表示的深层语义时仅从文本自身特征出发，难以进一步优化特征抽取网络。因此，如何进一步提升文本分类性能是本领域技术人员目前需要解决的技术问题。
技术实现思路
本申请的目的是提供一种文本分类的方法、系统、设备及计算机可读存储介质，用于进一步提升文本分类性能。为解决上述技术问题，本申请提供一种文本分类的方法，该方法包括：接收输入的分类语料；利用所述分类语料构建多组句对语料；其中，所述句对语料为一对属于同一主题或不同主题的语料；利用所述分类语料训练...

【技术保护点】
1.一种文本分类的方法，其特征在于，包括：接收输入的分类语料；利用所述分类语料构建多组句对语料；其中，所述句对语料为一对属于同一主题或不同主题的语料；利用所述分类语料训练预设神经网络，得到文本分类模型；基于所述文本分类模型的特征抽取网络构建双输入二分类模型，并利用所述句对语料对所述双输入二分类模型进行训练；其中，所述双输入二分类模型用于判断所述句对语料是否属于同一主题；当所述双输入二分类模型训练完成后，利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化，并利用所述优化后的文本分类模型对待分类文本进行文本分类。

【技术特征摘要】
1.一种文本分类的方法，其特征在于，包括：接收输入的分类语料；利用所述分类语料构建多组句对语料；其中，所述句对语料为一对属于同一主题或不同主题的语料；利用所述分类语料训练预设神经网络，得到文本分类模型；基于所述文本分类模型的特征抽取网络构建双输入二分类模型，并利用所述句对语料对所述双输入二分类模型进行训练；其中，所述双输入二分类模型用于判断所述句对语料是否属于同一主题；当所述双输入二分类模型训练完成后，利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化，并利用所述优化后的文本分类模型对待分类文本进行文本分类。2.根据权利要求1所述的方法，其特征在于，利用所述分类语料构建句对语料，包括：在所述分类语料的各主题下均随机选取源语句；在所述源语句所属的主题下选择一个句子与所述源语句组成正例句对语料，在所述分类语料的其他主题下随机选择一个句子与所述源语句组成负例句对语料；其中，所述正例句对语料与所述负例句对语料的数量相同。3.根据权利要求1所述的方法，其特征在于，利用所述分类语料训练预设神经网络，得到文本分类模型，包括：构建单层卷积神经网络；利用所述分类语料训练所述单层卷积神经网络；当所述单层卷积神经网络的损失值和正确率不再变化时，将所述单层卷积神经网络作为所述文本分类模型。4.根据权利要求1所述的方法，其特征在于，基于所述文本分类模型的特征抽取网络构建双输入二分类模型，包括：将所述文本分类模型的特征抽取网络接入所述双输入二分类模型，以使所述双输入二分类模型共享所述文本分类模型的特征抽取网络。5.一种文本分类的系统，其特征在于，包括：接收模块，用于接收输入的分类语料；句对语料构建模块，用于利用所述分类语料构建多组句对语料；其中，所述句对语料为一对属于同一主题或不同主题的语料；第一训练模块，用于利用所述...

【专利技术属性】
技术研发人员：朱芬红，洪宇，朱巧明，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人