当前位置: 首页 > 专利查询>苏州大学专利>正文

一种文本分类的方法、系统、设备及计算机可读存储介质技术方案

技术编号:21832823 阅读:18 留言:0更新日期:2019-08-10 18:04
本申请公开了一种文本分类的方法,包括:接收输入的分类语料;利用分类语料构建多组句对语料;利用分类语料训练预设神经网络,得到文本分类模型;基于文本分类模型的特征抽取网络构建双输入二分类模型,并利用句对语料对双输入二分类模型进行训练;当双输入二分类模型训练完成后,利用双输入二分类模型对文本分类模型的特征抽取网络进行优化,并利用优化后的文本分类模型对待分类文本进行文本分类。本申请令文本分类模型能更可靠地抽取文本的深层语义特征,进一步提升了文本分类性能,解决了现有技术中基于神经网络的分类难以进一步优化特征抽取网络的问题。本申请同时还提供了一种文本分类的系统、设备及计算机可读存储介质,具有上述有益效果。

A Text Classification Method, System, Equipment and Computer Readable Storage Media

【技术实现步骤摘要】
一种文本分类的方法、系统、设备及计算机可读存储介质
本申请涉及文本分类领域,特别涉及一种文本分类的方法、系统、设备及计算机可读存储介质。
技术介绍
文本分类旨在从预定义的类别标签中自动地为给定的文本指派目标标签,是自然语言处理领域中的一项基础任务。文本分类广泛应用于情感分析、问答以及自然语言理解等领域,因此,如何有效提升文本分类性能具有重要的研究价值和意义。目前,文本分类的研究方法主要集中于基于规则、基于统计学习方法以及基于神经网络三个方面。基于规则的分类方法源于对专家知识的应用,也就是专家对特定语料进行观测并制定刚性规则,从而界定文本的类别。基于规则的方法往往处理速度快、精确度高,但受限于观测样本数据的“小样本”现象,因此在大批量数据上的分类性能较低。基于统计学习方法的分类很大程度上依赖于特征工程,如抽取文本的词性、句法依存以及实体信息等特征,并采用向量空间模型表示这些特征,从而训练支持向量机、最大熵等的分类模型,存在一定的局限性。基于神经网络的分类通常采用低维分布式的词向量表示文本,在通过卷积神经网络或循环神经网络提取文本表示的深层语义时仅从文本自身特征出发,难以进一步优化特征抽取网络。因此,如何进一步提升文本分类性能是本领域技术人员目前需要解决的技术问题。
技术实现思路
本申请的目的是提供一种文本分类的方法、系统、设备及计算机可读存储介质,用于进一步提升文本分类性能。为解决上述技术问题,本申请提供一种文本分类的方法,该方法包括:接收输入的分类语料;利用所述分类语料构建多组句对语料;其中,所述句对语料为一对属于同一主题或不同主题的语料;利用所述分类语料训练预设神经网络,得到文本分类模型;基于所述文本分类模型的特征抽取网络构建双输入二分类模型,并利用所述句对语料对所述双输入二分类模型进行训练;其中,所述双输入二分类模型用于判断所述句对语料是否属于同一主题;当所述双输入二分类模型训练完成后,利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化,并利用所述优化后的文本分类模型对待分类文本进行文本分类。可选的,利用所述分类语料构建句对语料,包括:在所述分类语料的各主题下均随机选取源语句;在所述源语句所属的主题下选择一个句子与所述源语句组成正例句对语料,在所述分类语料的其他主题下随机选择一个句子与所述源语句组成负例句对语料;其中,所述正例句对语料与所述负例句对语料的数量相同。可选的,利用所述分类语料训练预设神经网络,得到文本分类模型,包括:构建单层卷积神经网络;利用所述分类语料训练所述单层卷积神经网络;当所述单层卷积神经网络的损失值和正确率不再变化时,将所述单层卷积神经网络作为所述文本分类模型。可选的,基于所述文本分类模型的特征抽取网络构建双输入二分类模型,包括:将所述文本分类模型的特征抽取网络接入所述双输入二分类模型,以使所述双输入二分类模型共享所述文本分类模型的特征抽取网络。本申请还提供一种文本分类的系统,该系统包括:接收模块,用于接收输入的分类语料;句对语料构建模块,用于利用所述分类语料构建多组句对语料;其中,所述句对语料为一对属于同一主题或不同主题的语料;第一训练模块,用于利用所述分类语料训练预设神经网络,得到文本分类模型;第二训练模块,用于基于所述文本分类模型的特征抽取网络构建双输入二分类模型,并利用所述句对语料对所述双输入二分类模型进行训练;其中,所述双输入二分类模型用于判断所述句对语料是否属于同一主题;优化及分类模块,用于当所述双输入二分类模型训练完成后,利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化,并利用所述优化后的文本分类模型对待分类文本进行文本分类。可选的,所述句对语料构建模块包括:选取子模块,用于在所述分类语料的各主题下均随机选取源语句;组队子模块,用于在所述源语句所属的主题下选择一个句子与所述源语句组成正例句对语料,在所述分类语料的其他主题下随机选择一个句子与所述源语句组成负例句对语料;其中,所述正例句对语料与所述负例句对语料的数量相同。可选的,所述第一训练模块包括:构建子模块,用于构建单层卷积神经网络;训练子模块,用于利用所述分类语料训练所述单层卷积神经网络;模型确定子模块,用于当所述单层卷积神经网络的损失值和正确率不再变化时,将所述单层卷积神经网络作为所述文本分类模型。可选的,所述第二训练模块包括:模型接入子模块,用于将所述文本分类模型的特征抽取网络接入所述双输入二分类模型,以使所述双输入二分类模型共享所述文本分类模型的特征抽取网络。本申请还提供一种文本分类设备,该文本分类设备包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述任一项所述文本分类的方法的步骤。本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述文本分类的方法的步骤。本申请所提供文本分类的方法,包括:接收输入的分类语料;利用分类语料构建多组句对语料;其中,句对语料为一对属于同一主题或不同主题的语料;利用分类语料训练预设神经网络,得到文本分类模型;基于文本分类模型的特征抽取网络构建双输入二分类模型,并利用句对语料对双输入二分类模型进行训练;其中,双输入二分类模型用于判断句对语料是否属于同一主题;当双输入二分类模型训练完成后,利用双输入二分类模型对文本分类模型的特征抽取网络进行优化,并利用优化后的文本分类模型对待分类文本进行文本分类。本申请所提供的技术方案,通过基于文本分类模型的特征抽取网络构建双输入二分类模型,并利用句对语料对双输入二分类模型进行训练,然后对文本分类模型的特征抽取网络进行优化,使得文本分类模型能更可靠地抽取文本的深层语义特征,进一步提升了文本分类性能,解决了现有技术中基于神经网络的分类难以进一步优化特征抽取网络的问题。本申请同时还提供了一种文本分类的系统、设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例所提供的一种文本分类的方法的流程图;图2为图1所提供的一种文本分类的方法中S102的一种实际表现方式的流程图;图3为图1所提供的一种文本分类的方法中S103的一种实际表现方式的流程图;图4为本申请实施例所提供的一种文本分类的系统的结构图;图5为本申请实施例所提供的另一种文本分类的系统的结构图;图6为本申请实施例所提供的一种文本分类设备的结构图。具体实施方式本申请的核心是提供一种文本分类的方法、系统、设备及计算机可读存储介质,用于进一步提升文本分类性能。为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。请参考图1,图1为本申请实施例所本文档来自技高网...

【技术保护点】
1.一种文本分类的方法,其特征在于,包括:接收输入的分类语料;利用所述分类语料构建多组句对语料;其中,所述句对语料为一对属于同一主题或不同主题的语料;利用所述分类语料训练预设神经网络,得到文本分类模型;基于所述文本分类模型的特征抽取网络构建双输入二分类模型,并利用所述句对语料对所述双输入二分类模型进行训练;其中,所述双输入二分类模型用于判断所述句对语料是否属于同一主题;当所述双输入二分类模型训练完成后,利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化,并利用所述优化后的文本分类模型对待分类文本进行文本分类。

【技术特征摘要】
1.一种文本分类的方法,其特征在于,包括:接收输入的分类语料;利用所述分类语料构建多组句对语料;其中,所述句对语料为一对属于同一主题或不同主题的语料;利用所述分类语料训练预设神经网络,得到文本分类模型;基于所述文本分类模型的特征抽取网络构建双输入二分类模型,并利用所述句对语料对所述双输入二分类模型进行训练;其中,所述双输入二分类模型用于判断所述句对语料是否属于同一主题;当所述双输入二分类模型训练完成后,利用所述双输入二分类模型对所述文本分类模型的特征抽取网络进行优化,并利用所述优化后的文本分类模型对待分类文本进行文本分类。2.根据权利要求1所述的方法,其特征在于,利用所述分类语料构建句对语料,包括:在所述分类语料的各主题下均随机选取源语句;在所述源语句所属的主题下选择一个句子与所述源语句组成正例句对语料,在所述分类语料的其他主题下随机选择一个句子与所述源语句组成负例句对语料;其中,所述正例句对语料与所述负例句对语料的数量相同。3.根据权利要求1所述的方法,其特征在于,利用所述分类语料训练预设神经网络,得到文本分类模型,包括:构建单层卷积神经网络;利用所述分类语料训练所述单层卷积神经网络;当所述单层卷积神经网络的损失值和正确率不再变化时,将所述单层卷积神经网络作为所述文本分类模型。4.根据权利要求1所述的方法,其特征在于,基于所述文本分类模型的特征抽取网络构建双输入二分类模型,包括:将所述文本分类模型的特征抽取网络接入所述双输入二分类模型,以使所述双输入二分类模型共享所述文本分类模型的特征抽取网络。5.一种文本分类的系统,其特征在于,包括:接收模块,用于接收输入的分类语料;句对语料构建模块,用于利用所述分类语料构建多组句对语料;其中,所述句对语料为一对属于同一主题或不同主题的语料;第一训练模块,用于利用所述...

【专利技术属性】
技术研发人员:朱芬红洪宇朱巧明
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1