The invention provides a long text classification and recognition method, device and storage medium based on the multi granularity convolution neural network. The method includes: transforming the long text sample in the training sample set into a digital sequence based on the mapping table to obtain a training sample set in the form of digital sequence, and training the multi granularity convolution neural network with the training sample set in the form of digital sequence to obtain To the trained multi granularity convolutional neural network, based on the mapping table, the long text to be classified and recognized is converted into a digital sequence, and the trained multi granularity convolutional neural network is used for classification and recognition to get the classification and recognition results. The invention transforms Chinese character text into digital sequence for processing, improves processing speed, and the multi granularity convolution neural network structure of the invention has branches for extracting global and local features. Because of the multi branch structure, the whole semantic information and local key information of long text are retained, and the accuracy of long text classification and recognition is effectively improved.
【技术实现步骤摘要】
基于卷积神经网络的长文本分类识别方法、装置及介质
本专利技术涉及人工智能
,特别是一种基于多粒度卷积神经网络的长文本分类识别方法、装置及存储介质。
技术介绍
自然语言理解是当前人工智能发展的高地,也是通往通用人工智能的必经之路。文本分类是自然语言理解领域内的重要技术方向,而如何让机器去理解一段文本中的语义信息是对其进行正确分类的关键。人类语言的最小组织单位可定义为一个字符,如中文中的一个字,英文中的一个字母。对于人类来说,中文多个字组成的词汇(对应英文中多个字母组成的单词短语)才是人们日常生活表达的语言组织基本单位,故文本分类常常采用预训练的词向量来完成自然文本到数字特征的文本表示,再借助机器学习中的分类器完成这一分类任务。除此之外,另外一种违反人类直觉的基于字符级的分类方法被证明是行之有效的。如DeepMind成功将字符级模型应用于文本翻译领域。OpenAI证明字符级语言模型可以学会识别亚马逊网站购物评论中所带的情绪信息。对于基于词向量的分类方法而言,往往需要海量的词汇库才能达到一个良好的效果,而对于某一特定 ...
【技术保护点】
1.一种基于多粒度卷积神经网络的长文本分类识别方法,其特征在于,该方法包括:/n数据预处理步骤,基于训练样本集构建字符表,所述字符表根据字符在样本集中的出现频率进行降序排序,得到每个汉字到数字编码的映射表,将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集;/n多粒度卷积神经网络训练步骤,使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络;/n长文本分类识别步骤,基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本,将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分 ...
【技术特征摘要】
1.一种基于多粒度卷积神经网络的长文本分类识别方法,其特征在于,该方法包括:
数据预处理步骤,基于训练样本集构建字符表,所述字符表根据字符在样本集中的出现频率进行降序排序,得到每个汉字到数字编码的映射表,将所述训练样本集中的长文本样本基于所述映射表转换为数字序列得到数字序列形式的训练样本集;
多粒度卷积神经网络训练步骤,使用所述数字序列形式的训练样本集训练多粒度卷积神经网络得到训练后的多粒度卷积神经网络;
长文本分类识别步骤,基于所述映射表将待分类识别的长文本转换为数字序列形式的待分类识别的长文本,将数字序列形式的待分类识别的长文本使用训练后的多粒度卷积神经网络进行分类识别,得到分类识别结果。
2.根据权利要求1所述的方法,其特征在于,所述长文本为字符数大于100的文本。
3.根据权利要求2所述的方法,其特征在于,所述多粒度卷积神经网络用于提取数字序列形式的待分类识别的长文本的全局特征和局部特征。
4.根据权利要求3所述的方法,其特征在于,所述多粒度卷积神经网络包括第一卷积层、第二卷积层、第三卷积层、第一全连接层、第二全连接层、第三全连接层、第四全连接层和分类层,所述数字序列形式的待分类识别的长文本输入第一卷积层,第一卷积层对数字序列形式的待分类识别的长文本进行卷积操作后分别输出至第二卷积层和第三卷积层,第二卷积层进行处理后输出至第一全连接层,第三卷积层进行处理后分别输出至第二、三全连接层,第一全连接层输出待分类识别的长文本的全局特征至第四全连接层,第二、三全连接层输出待分类识别的长文本的局部特征至第四全连接层,第四全连接层将所述全局特征和局部特征进行融合输出至所述分类层进行分类识别。
5.根据权利要求4所述的方法,其特征在于,所述第一卷积层的卷积核为3*3,步长为2;所述第二卷积层的卷积核为3*3,步长为2;所述第三卷积层的卷积核为3*3,步长为1;所述分类层采用SoftMax函数。
6.一种基于多粒度卷积神经网络的长文本分类识别装置,其特征在于,该装置包...
【专利技术属性】
技术研发人员:吴鸿伟,林修明,连志阳,林淑强,张永光,陈志飞,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。