一种中文文本分类模型的训练方法及装置制造方法及图纸

技术编号:19023534 阅读:117 留言:0更新日期:2018-09-26 19:05
本发明专利技术提供了一种中文文本分类模型的训练方法及装置,解决了传统的这些文本表示方法表示的特征项之间相互独立,而且数据稀疏,导致了计算量大的技术问题。其中方法,包括:S1、获取带标签的训练文本;S2、对所述训练文本进行预处理后,得到分词后的训练文本;S3、将所述分词后的训练文本输入至word2vec模型中,将所述分词后的训练文本转换为词向量集合;S4、将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练,并通过预置代价函数计算所述卷积神经网络的loss值;S5、判断所述loss值是否低于预置阈值,若是,则确定所述卷积神经网络收敛,保存所述卷积神经网络的参数,并生成训练后的中文文本分类模型,若否,则返回步骤S1。

【技术实现步骤摘要】
一种中文文本分类模型的训练方法及装置
本专利技术涉及文本分类
,尤其涉及一种中文文本分类模型的训练方法及装置。
技术介绍
上个世纪90年代以来,随着Internet的普及和网络技术的不断完善,Internet已经成为全球最庞大最丰富的信息资源库。根据最新CNNIC统计表明,截至2016年12月底,中国网页数量达到千亿个,网民规模突破6.88亿,互联网正成为人们日常生活基本资源。Internet的开放性使得各类信息都能在第一时间发布在Internet上,然而,Internet的这种开发性也导致了Internet上信息的杂乱性和冗余性。如何有效地组织和管理海量的非结构化的文本信息,并精准为用户实现信息定位是当前信息科学和
面临的一大挑战,其中一个成功的范例就是根据信息的内容对信息进行自动分类。自动分类技术在传统的信息手工分类基础上发展而来,作为一种有效的信息处理方式,将各类信息按照一定的分类体系进行整理,较大程度上解决了信息杂乱的问题。传统的手工信息分类技术虽已相当成熟,但显然不适于对时刻更新的Internet信息进行处理。80年代,“知识工程”(KnowledgeEngineering)理论被用于指导文本分类,通过将专家知识人工的定义为一组规则,在给定类别的情况下根据这些规则进行分类。90年代后,“机器学习”(MachineLearning)逐渐发展成为文本分类的主流技术,其依靠一组提前人工标记好的分类文档,凭借一个诱导式的过程来学习感兴趣的类别特征,然后使用机器学习技术构造出文本自动分类器。中文是世界上使用人数最多的语言,随着信息时代的到来和知识经济的全球化,中文文本分类作用已经变得举足轻重。近年来,深度学习模型在计算机视觉和语音识别方面取得了显著的成果,在自然语言处理领域,利用神经网络对自然语言文本信息进行特征学习和文本分类,也成为文本分类的前沿技术。现有的分类方法主要包括基于规则的分类模型,基于机器学习的分类模型,比较著名的文档分类方法有决策树(DecisionTree)、随机森林(RandomForest)、贝叶斯分类器(Bayes)、线性分类器(逻辑回归)、支持向量机(SupportVectorMachine,SVM)、最大熵分类器等。它们都是始借助于机器学习方法,通过人工特征工程和浅层分类模型来进行文本分类。文本分类(TextClassification)的任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。对文档进行分类,一般需要经过文本表示和学习分类两个步骤。而如何把文档表示为算法能够处理的结构化数据,这无疑是文本分类的重要环节。对于文本的表示,传统的方法都是离散的表示,例如One-hot编码,也称之为独热编码,它意思是使用N位状态寄存器来对N个状态进行编码,每个状态都有他独立的寄存器位,在任何时候,其中只有一位有效。虽然这种表示使每一个词语有唯一的索引,但是这种编码会导致文本中每个词语在句子中的顺序没有关联性,而且随之建立的词典越大,这个编码的序列越长,数据也随之很稀疏。后来还有词袋模型(BagofWords),它就是将文档向量表示可以直接将各词的词向量表示加和;N-gram模型,它就是将n个上下相邻的词语搭配编码,这样考虑了词的顺序,但是导致词表维度随着语料库增长膨胀,词序列也随语料库膨胀更快,数据稀疏问题等。传统的这些文本表示方法表示的特征项之间相互独立,而且数据稀疏,导致了计算量大的技术问题。
技术实现思路
本专利技术提供了一种中文文本分类模型的训练方法及装置,解决了传统的这些文本表示方法表示的特征项之间相互独立,而且数据稀疏,导致了计算量大的技术问题。本专利技术提供了一种中文文本分类模型的训练方法,包括:S1、获取带标签的训练文本;S2、对所述训练文本进行预处理后,得到分词后的训练文本;S3、将所述分词后的训练文本输入至word2vec模型中,将所述分词后的训练文本转换为词向量集合;S4、将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练,并通过预置代价函数计算所述卷积神经网络的loss值;S5、判断所述loss值是否低于预置阈值,若是,则确定所述卷积神经网络收敛,保存所述卷积神经网络的参数,并生成训练后的中文文本分类模型,若否,则返回步骤S1。可选地,所述步骤S2具体包括:通过预置基于知识的分词模型对所述训练文本进行分词,得到分词后的训练文本。可选地,所述步骤S2还包括:通过词频-逆文档频率方法提取所述训练文本中的特征词,并去掉所述训练文本中无意义词;计算所述特征词对应的特征权重。可选地,所述步骤S3之后,所述步骤S4之前还包括:根据所述特征词对应的特征权重,提高所述特征词对应的词向量占所述词向量集合的权重值。本专利技术提供了一种中文文本分类模型的训练装置,包括:获取单元,用于获取带标签的训练文本;预处理单元,用于对所述训练文本进行预处理后,得到分词后的训练文本;向量转化单元,用于将所述分词后的训练文本输入至word2vec模型中,将所述分词后的训练文本转换为词向量集合;训练单元,用于将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练,并通过预置代价函数计算所述卷积神经网络的loss值;判断单元,用于判断所述loss值是否低于预置阈值,若是,则确定所述卷积神经网络收敛,保存所述卷积神经网络的参数,并生成训练后的中文文本分类模型,若否,则跳转至获取单元。可选地,所述预处理单元具体包括:分词子单元,用于通过预置基于知识的分词模型对所述训练文本进行分词,得到分词后的训练文本。可选地,所述预处理单元还包括:特征提取子单元,用于通过词频-逆文档频率方法提取所述训练文本中的特征词,并去掉所述训练文本中无意义词;特征权重计算子单元,用于计算所述特征词对应的特征权重。可选地,本专利技术提供的中文文本分类模型的训练装置还包括:权重提高单元,用于根据所述特征词对应的特征权重,提高所述特征词对应的词向量占所述词向量集合的权重值。本专利技术提供了一种中文文本的分类方法,基于如上中任意一项所述的中文文本分类模型的训练方法得到的中文文本分类模型,包括:获取待分类的文本;将所述待分类的文本输入至如上中任意一项所述的中文文本分类模型的训练方法得到的中文文本分类模型中,得到所述待分类的文本的分类结果。本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上中任一项所述的方法。从以上技术方案可以看出,本专利技术具有以下优点:本专利技术提供了一种中文文本分类模型的训练方法,包括:S1、获取带标签的训练文本;S2、对所述训练文本进行预处理后,得到分词后的训练文本;S3、将所述分词后的训练文本输入至word2vec模型中,将所述分词后的训练文本转换为词向量集合;S4、将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练,并通过预置代价函数计算所述卷积神经网络的loss值;S5、判断所述loss值是否低于预置阈值,若是,则确定所述卷积神经网络收敛,保存所述卷积神经网络的参数,并生成训练后的中文文本分类模型,若否,则返回步骤S1。本专利技术通过利用word2vec模型,将训练文本转换为词向量集合,使得文本能够表示为类似图像和语音的连本文档来自技高网
...

【技术保护点】
1.一种中文文本分类模型的训练方法,其特征在于,包括:S1、获取带标签的训练文本;S2、对所述训练文本进行预处理后,得到分词后的训练文本;S3、将所述分词后的训练文本输入至word2vec模型中,将所述分词后的训练文本转换为词向量集合;S4、将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练,并通过预置代价函数计算所述卷积神经网络的loss值;S5、判断所述loss值是否低于预置阈值,若是,则确定所述卷积神经网络收敛,保存所述卷积神经网络的参数,并生成训练后的中文文本分类模型,若否,则返回步骤S1。

【技术特征摘要】
1.一种中文文本分类模型的训练方法,其特征在于,包括:S1、获取带标签的训练文本;S2、对所述训练文本进行预处理后,得到分词后的训练文本;S3、将所述分词后的训练文本输入至word2vec模型中,将所述分词后的训练文本转换为词向量集合;S4、将所述词向量集合以及所述训练文本的标签输入至卷积神经网络中进行训练,并通过预置代价函数计算所述卷积神经网络的loss值;S5、判断所述loss值是否低于预置阈值,若是,则确定所述卷积神经网络收敛,保存所述卷积神经网络的参数,并生成训练后的中文文本分类模型,若否,则返回步骤S1。2.根据权利要求1所述的中文文本分类模型的训练方法,其特征在于,所述步骤S2具体包括:通过预置基于知识的分词模型对所述训练文本进行分词,得到分词后的训练文本。3.根据权利要求2所述的中文文本分类模型的训练方法,其特征在于,所述步骤S2还包括:通过词频-逆文档频率方法提取所述训练文本中的特征词,并去掉所述训练文本中无意义词;计算所述特征词对应的特征权重。4.根据权利要求3所述的中文文本分类模型的训练方法,其特征在于,所述步骤S3之后,所述步骤S4之前还包括:根据所述特征词对应的特征权重,提高所述特征词对应的词向量占所述词向量集合的权重值。5.一种中文文本分类模型的训练装置,其特征在于,包括:获取单元,用于获取带标签的训练文本;预处理单元,用于对所述训练文本进行预处理后,得到分词后的训练文本;向量转化单元,用于将所述分词后的训练文本输入至word2vec模型中,将所述分词后的训练文本转换为词向量集合...

【专利技术属性】
技术研发人员:刘怡俊林裕鹏
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1