一种文本分类方法及装置制造方法及图纸

技术编号:20389717 阅读:24 留言:0更新日期:2019-02-20 02:47
本申请实施例提供了一种文本分类方法及装置,其中,该方法包括:确定目标文本的文本向量;提取所述文本向量的上下文特征,得到上下文特征向量;提取所述文本向量的局部特征,得到局部特征向量,对所述局部特征向量进行下采样,得到下采样后的局部特征向量;拼接所述上下文特征向量和所述下采样后的局部特征向量,得到目标特征向量;将所述目标特征向量映射成一维向量,其中,所述一维向量的维度与预设类别一一对应;根据所述一维向量中的最大值的维度,确定所述目标文本的文本类别。本申请实施例提高了提取特征的完整性,进一步提高文本分类的准确性。

【技术实现步骤摘要】
一种文本分类方法及装置
本申请涉及文本分类
,具体而言,涉及一种文本分类方法及装置。
技术介绍
文本分类在实际生活中应用广泛,可用于于鉴别邮箱收的邮件是否为垃圾邮件,辨别文本的情感倾向,获取投资情报等诸多问题。随着文本数据量的急剧增长,传统的文本分类方法已经无法满足需求。深度学习算法应运而生,在应对大规模文本分类问题上取得了良好的成效。现有技术中,CNN(ConvolutionalNeuralNetwork,卷积神经网络)和RNN(RecurrentNeuralNetwork,循环神经网络)是常用的深度学习网络。通过CNN或者RNN进行文本分类的技术已经非常成熟,文本分类的准确性也已经达到瓶颈。
技术实现思路
有鉴于此,本申请的目的在于提供一种文本分类方法和装置,以提高文本分类的准确性。第一方面,本申请实施例提供了一种文本分类方法,包括:确定目标文本的文本向量;提取所述文本向量的上下文特征,得到上下文特征向量;提取所述文本向量的局部特征,得到局部特征向量,对所述局部特征向量进行下采样,得到下采样后的局部特征向量;拼接所述上下文特征向量和所述下采样后的局部特征向量,得到目标特征向量;将所述目标特征向量映射成一维向量,其中,所述一维向量的维度与预设类别一一对应;根据所述一维向量中的最大值的维度,确定所述目标文本的文本类别。结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述确定目标文本的文本向量,包括:根据预设的字与词向量的映射关系,获取所述目标文本的每一个字对应的词向量;按所述目标文本的字序拼接所述词向量,得到所述目标文本的文本向量。结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,包括:获取一个双向循环神经网络;通过所述双向循环神经网络提取所述文本向量的上下文特征。结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述根据所述一维向量中的最大值的维度,确定所述目标文本的文本类别,包括:将所述一维向量通过输出层进行归一化,获得归一化后的一维向量;根据所述归一化后的一维向量中的最大值,确定所述目标文本的文本类别。结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,提取所述文本向量的局部特征,得到局部特征向量,对所述局部特征向量进行下采样,得到下采样后的局部特征向量,包括:将所述文本向量输入到四个一维卷积层C1、C2、C3以及C4,其中,C1的卷积核的尺寸为m1*n;C2的卷积核的尺寸为m2*n;C3的卷积核的尺寸为m3*n;C4的卷积核的尺寸为m4*n,其中n为所述词向量的维度,m1、m2、m3以及m4为卷积核的长度;将四个卷积层C1、C2、C3以及C4输出的四个局部特征向量通过池化层进行下采样,得到四个下采样后的局部特征向量。结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述通过池化层进行下采样,包括:所述池化层采用最大值池化的方法对所述局部特征向量进行下采样。第二方面,本申请实施例提供了一种文本分类装置,所述装置包括:文本表示模块:用于确定目标文本的文本向量;特征提取模块:用于提取所述文本向量的上下文特征,得到上下文特征向量,提取所述文本向量的局部特征,得到局部特征向量,对所述局部特征向量进行下采样,得到下采样后的局部特征向量,拼接所述上下文特征向量和所述下采样后的局部特征向量,得到目标特征向量;文本分类模块,用于将所述目标特征向量映射成一维向量,其中,所述一维向量的维度与预设类别一一对应,根据所述一维向量中的最大值,确定所述目标文本的文本类别。结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述文本表示模块按照以下方式确定目标文本的文本向量:根据预设的字与词向量的映射关系,获取所述目标文本的每一个字对应的词向量;按所述目标文本的字序拼接所述词向量,得到所述目标文本的文本向量。结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述特征提取模块包括上下文特征提取单元,用于获取一个双向循环神经网络;通过所述双向循环神经网络提取所述文本向量的上下文特征。结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述文本分类模块还用于:将所述一维向量通过输出层进行归一化,获得归一化后的一维向量;根据所述归一化后的一维向量中的最大值,确定所述目标文本的文本类别。本申请实施例提供的一种文本分类的方法及装置,采用分别提取文本的局部特征和上下文特征,并将两种特征组合起来进行文本分类,与现有技术中的单独采用CNN或者RNN进行文本分类,只能针对性的提取一种特征相比,其提高了提取特征的完整性,进一步提高文本分类的准确性。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例所提供的一种文本分类方法的流程图;图2示出了本申请实施例所提供的另一种文本分类方法的流程图;图3示出了本申请实施例所提供的一种上下文特征向量和下采样后的局部特征向量的拼接示意图;图4示出了本申请实施例所提供的一种文本分类装置的结构示意图。图示:上下文特征向量1;下采样后的局部特征向量2。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。考虑到现有技术中,利用CNN或者RNN进行文本分类的方法已经非常成熟,分类的准确性已经达到了瓶颈,基于此,本申请实施例提供了一种文本分类的方法和装置,下面通过实施例进行描述。文本分类是自然语言处理中常见的任务,在给定文本之后,推断出文本的标签(类别)或者标签集合(类别集合)。文本分类的应用十分广泛,比如,邮箱系统判断邮件是否为垃圾邮件;在推送新闻之前,把新闻分为财经、娱乐、体育等多个类别;在网页上输入一句话,引擎会将这句话对应到特定的关键字。对于海量数据的文本分类,常用CNN或者RNN等深度学习网络,两者各有优势,CNN的运算过程相对简单,易于捕捉局部特征,RNN相比CNN更易于捕捉上下文特征。本实施例结合CNN和RNN对文本进行分类,将进一步提高文本分类的准确性本申请实施例提出了一种文本分类方法,如图1所示,包括以下步骤S101-S106:步骤S101,确定目标文本的文本向量。其中,目标文本是指用户输入的句子或者短语。由于深度学本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,包括:确定目标文本的文本向量;提取所述文本向量的上下文特征,得到上下文特征向量;提取所述文本向量的局部特征,得到局部特征向量,对所述局部特征向量进行下采样,得到下采样后的局部特征向量;拼接所述上下文特征向量和所述下采样后的局部特征向量,得到目标特征向量;将所述目标特征向量映射成一维向量,其中,所述一维向量的维度与预设类别一一对应;根据所述一维向量中的最大值的维度,确定所述目标文本的文本类别。

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:确定目标文本的文本向量;提取所述文本向量的上下文特征,得到上下文特征向量;提取所述文本向量的局部特征,得到局部特征向量,对所述局部特征向量进行下采样,得到下采样后的局部特征向量;拼接所述上下文特征向量和所述下采样后的局部特征向量,得到目标特征向量;将所述目标特征向量映射成一维向量,其中,所述一维向量的维度与预设类别一一对应;根据所述一维向量中的最大值的维度,确定所述目标文本的文本类别。2.根据权利要求1所述的方法,其特征在于,所述确定目标文本的文本向量,包括:根据预设的字与词向量的映射关系,获取所述目标文本的每一个字对应的词向量;按所述目标文本的字序拼接所述词向量,得到所述目标文本的文本向量。3.根据权利要求1所述的方法,其特征在于,所述提取所述文本向量的上下文特征,包括:获取一个双向循环神经网络;通过所述双向循环神经网络提取所述文本向量的上下文特征。4.根据权利要求1所述的方法,其特征在于,所述根据所述一维向量中的最大值的维度,确定所述目标文本的文本类别,包括:将所述一维向量通过输出层进行归一化,获得归一化后的一维向量;根据所述归一化后的一维向量中的最大值,确定所述目标文本的文本类别。5.根据权利要求2所述的方法,其特征在于,提取所述文本向量的局部特征,得到局部特征向量,对所述局部特征向量进行下采样,得到下采样后的局部特征向量,包括:将所述文本向量输入到四个一维卷积层C1、C2、C3以及C4,其中,C1的卷积核的尺寸为m1*n;C2的卷积核的尺寸为m2*n;C3的卷积核的尺寸为m3*n;C4的卷积核的尺寸为m4*n...

【专利技术属性】
技术研发人员:王栋曾国卿许志强孙昌勋
申请(专利权)人:北京容联易通信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1