基于卷积神经网络的长文本分类识别方法、装置及介质制造方法及图纸

技术编号:22755058 阅读:31 留言:0更新日期:2019-12-07 03:57
本发明专利技术提供了一种基于多粒度卷积神经网络的长文本分类识别方法、装置及存储介质,该方法包括:将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集,使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络,基于所述映射表将待分类识别的长文本转换为数字序列使用训练后的多粒度卷积神经网络进行分类识别得到分类识别结果。本发明专利技术将汉字文本转换为数字序列进行处理,提高了处理速度,且本发明专利技术的多粒度卷积神经网络结构,具有提取全局特征和局部特征的分支,由于采用多分支的结构,保留了长文本的整体语义信息及局部关键信息,有效提升长文本分类识别的准确率。

Long text classification and recognition method, device and medium based on convolutional neural network

The invention provides a long text classification and recognition method, device and storage medium based on the multi granularity convolution neural network. The method includes: transforming the long text sample in the training sample set into a digital sequence based on the mapping table to obtain a training sample set in the form of digital sequence, and training the multi granularity convolution neural network with the training sample set in the form of digital sequence to obtain To the trained multi granularity convolutional neural network, based on the mapping table, the long text to be classified and recognized is converted into a digital sequence, and the trained multi granularity convolutional neural network is used for classification and recognition to get the classification and recognition results. The invention transforms Chinese character text into digital sequence for processing, improves processing speed, and the multi granularity convolution neural network structure of the invention has branches for extracting global and local features. Because of the multi branch structure, the whole semantic information and local key information of long text are retained, and the accuracy of long text classification and recognition is effectively improved.

【技术实现步骤摘要】
基于卷积神经网络的长文本分类识别方法、装置及介质
本专利技术涉及人工智能
,特别是一种基于多粒度卷积神经网络的长文本分类识别方法、装置及存储介质。
技术介绍
自然语言理解是当前人工智能发展的高地,也是通往通用人工智能的必经之路。文本分类是自然语言理解领域内的重要技术方向,而如何让机器去理解一段文本中的语义信息是对其进行正确分类的关键。人类语言的最小组织单位可定义为一个字符,如中文中的一个字,英文中的一个字母。对于人类来说,中文多个字组成的词汇(对应英文中多个字母组成的单词短语)才是人们日常生活表达的语言组织基本单位,故文本分类常常采用预训练的词向量来完成自然文本到数字特征的文本表示,再借助机器学习中的分类器完成这一分类任务。除此之外,另外一种违反人类直觉的基于字符级的分类方法被证明是行之有效的。如DeepMind成功将字符级模型应用于文本翻译领域。OpenAI证明字符级语言模型可以学会识别亚马逊网站购物评论中所带的情绪信息。对于基于词向量的分类方法而言,往往需要海量的词汇库才能达到一个良好的效果,而对于某一特定领域的文本来说,比如医疗文本,包含了大量的专业词汇或者领域专家才能理解的俚语、缩写和行话等。对于此类文本来说,现有预训练的词向量往往难以奏效,或者需要耗时费力重新收集标记此类领域词汇以重新训练词向量。可见,在目前的文本分类识别中,特别是长文本分类识别中,需要构建海量的词汇库,且针对一些特殊领域,现有的预训练的词向量往往难以奏效,影响了识别准确率及识别效率。
技术实现思路
>本专利技术针对上述现有技术中的缺陷,提出了如下技术方案。一种基于多粒度卷积神经网络的长文本分类识别方法,该方法包括:数据预处理步骤,基于训练样本集构建字符表,所述字符表根据字符在样本集中的出现频率进行降序排序,得到每个汉字到数字编码的映射表,将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集;多粒度卷积神经网络训练步骤,使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络;长文本分类识别步骤,基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本,将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别,得到分类识别结果。更进一步地,所述长文本为字符数大于100的文本。更进一步地,所述多粒度卷积神经网络用于提取数字序列形式的待分类识别的长文本的全局特征和局部特征。更进一步地,所述多粒度卷积神经网络包括第一卷积层、第二卷积层、第三卷积层、第一全连接层、第二全连接层、第三全连接层、第四全连接层和分类层,所述数字序列形式的待分类识别的长文本输入第一卷积层,第一卷积层对数字序列形式的待分类识别的长文本进行卷积操作后分别输出至第二卷积层和第三卷积层,第二卷积层进行处理后输出至第一全连接层,第三卷积层进行处理后分别输出至第二、三全连接层,第一全连接层输出待分类识别的长文本的全局特征至第四全连接层,第二、三全连接层输出待分类识别的长文本的局部特征至第四全连接层,第四全连接层将所述全局特征和局部特征进行融合输出至所述分类层进行分类识别。更进一步地,所述第一卷积层的卷积核为3*3,步长为2;所述第二卷积层的卷积核为3*3,步长为2;所述第三卷积层的卷积核为3*3,步长为1;所述分类层采用SoftMax函数。本专利技术还提出了一种基于多粒度卷积神经网络的长文本分类识别装置,该装置包括:数据预处理单元,基于训练样本集构建字符表,所述字符表根据字符在样本集中的出现频率进行降序排序,得到每个汉字到数字编码的映射表,将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集;多粒度卷积神经网络训练单元,使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络;长文本分类识别单元,基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本,将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别,得到分类识别结果。更进一步地,所述长文本为字符数大于100的文本。更进一步地,所述多粒度卷积神经网络用于提取数字序列形式的待分类识别的长文本的全局特征和局部特征。更进一步地,所述多粒度卷积神经网络包括第一卷积层、第二卷积层、第三卷积层、第一全连接层、第二全连接层、第三全连接层、第四全连接层和分类层,所述数字序列形式的待分类识别的长文本输入第一卷积层,第一卷积层对数字序列形式的待分类识别的长文本进行卷积操作后分别输出至第二卷积层和第三卷积层,第二卷积层进行处理后输出至第一全连接层,第三卷积层进行处理后分别输出至第二、三全连接层,第一全连接层输出待分类识别的长文本的全局特征至第四全连接层,第二、三全连接层输出待分类识别的长文本的局部特征至第四全连接层,第四全连接层将所述全局特征和局部特征进行融合输出至所述分类层进行分类识别。更进一步地,所述第一卷积层的卷积核为3*3,步长为2;所述第二卷积层的卷积核为3*3,步长为2;所述第三卷积层的卷积核为3*3,步长为1;所述分类层采用SoftMax函数。本专利技术还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。本专利技术的技术效果在于:本专利技术根据训练样本集构建字符表,基于字符出现的频率排序,得到单个汉字到数字编码的映射表,对于输入每段文本根据所述映射表对其进行编码(embedding层)得到数字序列形式的长文本,以便作为神经网络的输入,将汉字文本转换为数字序列进行处理,提高了处理速度,便于提取文本的特征。本专利技术提出了多粒度卷积神经网络结构,具有提取全局特征和局部特征的分支,由于采用多分支的结构,保留了长文本的整体语义信息及局部关键信息,有效提升长文本分类识别的准确率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。图1是根据本专利技术的实施例的一种基于多粒度卷积神经网络的长文本分类识别方法的流程图。图2是多粒度卷积神经网络的结构图。图3是根据本专利技术的实施例的一种基于多粒度卷积神经网络的长文本分类识别装置的结构图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了本专利技术的一种基于多粒度卷积神经网络的长文本分类识别方法,该方法包括以下步骤。数据预处理步骤S101,基于训练样本集构建字符表,所述字符表根本文档来自技高网...

【技术保护点】
1.一种基于多粒度卷积神经网络的长文本分类识别方法,其特征在于,该方法包括:/n数据预处理步骤,基于训练样本集构建字符表,所述字符表根据字符在样本集中的出现频率进行降序排序,得到每个汉字到数字编码的映射表,将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集;/n多粒度卷积神经网络训练步骤,使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络;/n长文本分类识别步骤,基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本,将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别,得到分类识别结果。/n

【技术特征摘要】
1.一种基于多粒度卷积神经网络的长文本分类识别方法,其特征在于,该方法包括:
数据预处理步骤,基于训练样本集构建字符表,所述字符表根据字符在样本集中的出现频率进行降序排序,得到每个汉字到数字编码的映射表,将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集;
多粒度卷积神经网络训练步骤,使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络;
长文本分类识别步骤,基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本,将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别,得到分类识别结果。


2.根据权利要求1所述的方法,其特征在于,所述长文本为字符数大于100的文本。


3.根据权利要求2所述的方法,其特征在于,所述多粒度卷积神经网络用于提取数字序列形式的待分类识别的长文本的全局特征和局部特征。


4.根据权利要求3所述的方法,其特征在于,所述多粒度卷积神经网络包括第一卷积层、第二卷积层、第三卷积层、第一全连接层、第二全连接层、第三全连接层、第四全连接层和分类层,所述数字序列形式的待分类识别的长文本输入第一卷积层,第一卷积层对数字序列形式的待分类识别的长文本进行卷积操作后分别输出至第二卷积层和第三卷积层,第二卷积层进行处理后输出至第一全连接层,第三卷积层进行处理后分别输出至第二、三全连接层,第一全连接层输出待分类识别的长文本的全局特征至第四全连接层,第二、三全连接层输出待分类识别的长文本的局部特征至第四全连接层,第四全连接层将所述全局特征和局部特征进行融合输出至所述分类层进行分类识别。


5.根据权利要求4所述的方法,其特征在于,所述第一卷积层的卷积核为3*3,步长为2;所述第二卷积层的卷积核为3*3,步长为2;所述第三卷积层的卷积核为3*3,步长为1;所述分类层采用SoftMax函数。


6.一种基于多粒度卷积神经网络的长文本分类识别装置,其特征在于,该装置包...

【专利技术属性】
技术研发人员:吴鸿伟林修明连志阳林淑强张永光陈志飞
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1