当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于TextCNN的报刊出版物分类方法及系统技术方案

技术编号:24010734 阅读:42 留言:0更新日期:2020-05-02 01:39
本发明专利技术涉及一种基于TextCNN的报刊出版物分类方法,该方法包括以下步骤:1)对报刊文本数据进行预处理,得到分词并编码后的文本数据;2)读入一批处理好的文本数据,在词嵌入层进行向量化操作;3)在卷积层进行卷积操作,以提取特征;4)在池化层进行最大池化;5)在全连接层进行全连接操作,得到最后分类;6)重复训练设定次数,进行一次测试;7)判断是否达到最大训练次数,是则结束训练,得到最终的分类模型,否则返回步骤2,再读入一批步骤1处理好的文本数据,继续进行训练;8)利用得到的最终的分类模型,对报刊出版物的文本数据进行分类。该方法及系统有利于提高报刊出版物分类的准确率。

A method and system of newspaper publication classification based on textcnn

【技术实现步骤摘要】
一种基于TextCNN的报刊出版物分类方法及系统
本专利技术涉及文本分类
,具体涉及一种基于TextCNN的报刊出版物分类方法及系统。
技术介绍
对海量报刊出版物进行快速、精确、高效的分类,对媒体管理报刊信息、读者兴趣推荐等有着一定的实际意义。中文报刊文本与普通文本相比,涉及的学科面比较广,语言结构较特别。对于报刊出版物较多的报社,需要花费大量的人力物力来对报刊出版物进行分类。如果能够实现自动对报刊出版物进行分类,在节省人力物力的同时,也可以提高报社的工作效率,增加报社经济效益。此外,传统的搜索引擎只是根据关键词匹配或者联想记忆来展示用户需要的文章,如果能够快速自动的将海量报刊文本进行分类,让搜索引擎根据类别来展示搜索结果,那么就会使用户能够检索到更多与搜索词相关的报刊文本,甚至可以向每位用户个性化地推荐其常看的感兴趣的报刊文本。报刊出版物的分类属于自然语言处理(NaturalLanguageProcessing,简称NLP)领域,但是,报刊文本与传统自然语言的区别就在于其篇幅相对较长,专业性术语较多,加大了分类的难度。对于报刊出本文档来自技高网...

【技术保护点】
1.一种基于TextCNN的报刊出版物分类方法,其特征在于,包括以下步骤:/n步骤1)对所有用于训练和测试的报刊文本数据进行预处理,得到分词并编码后的文本数据集,分为训练集和测试集;/n步骤2)读入一批训练集中的文本数据,在TextCNN模型的词嵌入层对文本数据中已编码的词语进行向量化;/n步骤3)在卷积层对词嵌入层进行卷积操作,以提取特征;/n步骤4)在池化层对卷积得到的结果进行最大池化;/n步骤5)在全连接层对步骤4得到的特征向量进行全连接操作,得到最后分类;/n步骤6)重复训练设定次数后,采用测试集中文本数据进行一次测试,根据测试结果调整TextCNN模型;/n步骤7)判断是否达到最大训...

【技术特征摘要】
1.一种基于TextCNN的报刊出版物分类方法,其特征在于,包括以下步骤:
步骤1)对所有用于训练和测试的报刊文本数据进行预处理,得到分词并编码后的文本数据集,分为训练集和测试集;
步骤2)读入一批训练集中的文本数据,在TextCNN模型的词嵌入层对文本数据中已编码的词语进行向量化;
步骤3)在卷积层对词嵌入层进行卷积操作,以提取特征;
步骤4)在池化层对卷积得到的结果进行最大池化;
步骤5)在全连接层对步骤4得到的特征向量进行全连接操作,得到最后分类;
步骤6)重复训练设定次数后,采用测试集中文本数据进行一次测试,根据测试结果调整TextCNN模型;
步骤7)判断是否达到最大训练次数,是则结束训练,得到最终的分类模型,否则返回步骤2,再读入一批训练集中的文本数据,继续进行训练;
步骤8)利用得到的最终的分类模型,对报刊出版物的文本数据进行分类。


2.根据权利要求1所述的一种基于TextCNN的报刊出版物分类方法,其特征在于,所述步骤1的具体方法为:使用jieba分词对报刊文本数据进行分词,分词时,去掉与文本判断无关的字符,并剔除停用词,以在简化文本规模的同时减少垃圾数据冗余。


3.根据权利要求2所述的一种基于TextCNN的报刊出版物分类方法,其特征在于,所述步骤2具体为:将文本数据中已编码的词语转换成词向量,然后使用word2vec的CBOW模型对编码后的词语进行预训练,即对于CBOW模型,输入目标词周围上下文的词向量,输出目标词的词向量,得到密集的便于训练的词嵌入层。


4.根据权利要求3所述的一种基于TextCNN的报刊出版物分类方法,其特征在于,所述步骤3的具体方法为:输入的语句或文本数据经过词嵌入层处理后,得到一个二维矩阵,假设文本数据的长度为|T|,词向量的大小为|d|,则所述二维矩阵的大小为|T|×|d|,选择卷积核的大小为n*|d|,其中n是卷积核的长度,|d|是卷积核的宽度,通过卷积操作,得到一个|T-n+1|×1的向量;在TextCNN模型中,同时使用多个卷积核对词嵌入层进行卷积操作,得到多个一维向量。


5.根据权利要求4所述的一种基于TextCNN的报刊出版物分类方法,其特征在于,所述步骤4的具体方法为:对卷积后得到的多个一维向量取最大值,然后拼接在一块,作为池化层的输出值...

【专利技术属性】
技术研发人员:董晨洪祺瑜郭文忠杨思源陈景辉黄兴
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1