一种结合监督学习的中文文本分类方法技术

技术编号:17048124 阅读:37 留言:0更新日期:2018-01-17 17:49
本发明专利技术公开了一种结合监督学习的中文文本分类方法,属于自然语言处理技术领域,WMD算法用于文本分类领域时,因分类标准的不同导致特定条件下文本分类的结果准确度较低。为使WMD算法适应不同分类条件,本发明专利技术结合监督学习的方法,引入变换矩阵A和初始值为1的权重向量w来改进算法。为了训练参数A,w,利用NCA算法对带标签的训练集进行训练,得到变换矩阵A的初始值,而后利用随机数β对A,w进行迭代更新直到该算法的损失函数收敛。利用最终的A,w改进WMD算法表达式并以此计算文本的最小距离,该距离的大小代表在特定分类条件下待测试文本的相似度的高低。本发明专利技术改进了不同分类条件下文本相似度的准确性,具有一定实用价值。

A Chinese text classification method combined with supervised learning

The invention discloses a Chinese text classification method combined with supervised learning, which belongs to the Natural Language Processing technology field. When WMD algorithm is applied to the text classification field, the accuracy of text classification under certain conditions is low because of different classification standards. In order to adapt the WMD algorithm to different classification conditions, the method combines supervised learning method, and introduces the transformation matrix A and the weight vector w with an initial value of 1 to improve the algorithm. In order to train parameters A, W, we use NCA algorithm to train the training set with tags, get the initial value of transformation matrix A, and then update A and W by random number beta until the loss function convergence of the algorithm is achieved. We use the final A and w to improve the expression of WMD algorithm and calculate the minimum distance of text. The distance represents the similarity of texts to be tested under specific classification conditions. The invention improves the accuracy of text similarity under different classification conditions, and has certain practical value.

【技术实现步骤摘要】
一种结合监督学习的中文文本分类方法
本专利技术属于自然语言处理
,尤其涉及一种结合监督学习的中文文本分类方法。
技术介绍
随着人工智能的发展,自然语言处理方向也随之成为热点。许多新兴技术也被专利技术用到自然语言处理领域中。其中,作为自然语言处理的一个重要分支,文本相似度研究因为涉及到自动问答、文本分类、搜索引擎优化等领域,受到了研究者的极大的关注。为研究不同文本间潜在的某种联系,前人在语义研究方面也做出了诸多努力,1988年salton系统地研究了基于词频权重的不同组合,统计了语料库数据并进行归一化。Robertson于1994年提出OkapiBM25函数来统计文档中词语的分数用于应用程序排行领域。Aslam(2003)根据文档语料库中单词出现的概率来推导两个文档之间的相似度分数,Croft(2003)使用语言模型来描述从文档生成词语的可能性,类似于LDA模型(Blei)。2013年,mikolov介绍了一种新型词嵌入—word2vec,用浅层神经网络语言模型学习每个单词的向量表示,并最大限度利用语料库种相邻单词的对数概率,求得单词间的余弦距离。因使用softmax激活函数和s本文档来自技高网...
一种结合监督学习的中文文本分类方法

【技术保护点】
一种结合监督学习的中文文本分类方法,其特征在于:具体包含如下步骤:步骤1,获取网络上的文本语料,对m条文本语料进行分词并去除结构性词语;其中,m为正整数;步骤2,利用word2vec算法获取m条文本语料中所有单词的词嵌入Xi,并构建一个d*n的词嵌入矩阵X,其中,d是每个词嵌入的维度,n是词嵌入的数目;步骤3,生成每条文本语料的词袋模型向量nBOW;则m条语料生成m个nBOW,记为di,其中,i<m,给每个di标注标签yi;步骤4,计算训练集参数ci,具体如下:ci=Xdi;步骤5,根据训练集参数ci生成训练集:trainning set={(c1,y1),(c2,y2),(c3,y3)...

【技术特征摘要】
1.一种结合监督学习的中文文本分类方法,其特征在于:具体包含如下步骤:步骤1,获取网络上的文本语料,对m条文本语料进行分词并去除结构性词语;其中,m为正整数;步骤2,利用word2vec算法获取m条文本语料中所有单词的词嵌入Xi,并构建一个d*n的词嵌入矩阵X,其中,d是每个词嵌入的维度,n是词嵌入的数目;步骤3,生成每条文本语料的词袋模型向量nBOW;则m条语料生成m个nBOW,记为di,其中,i&lt;m,给每个di标注标签yi;步骤4,计算训练集参数ci,具体如下:ci=Xdi;步骤5,根据训练集参数ci生成训练集:trainningset={(c1,y1),(c2,y2),(c3,y3)...(cn,yn)},其中n≤i;步骤6,利用NCA算法对训练集进行训练,进而得到初始变换矩阵A0,具体如下:A0=NCA(tranningset);设w0=1,其中,w0为初始权重向量;步骤7,根据A0和w0判断NCA损失函数是否收敛:若损失函数不收敛,则利用随机数β计算梯度gA,w,进而更新变换矩阵A和权重向量w,直至损失函数收敛,获取最终的变换矩阵A和权重向量w;步骤8,根据最终的变换矩阵A和权重向量w对WMD算法通式进行改进,生成最终的WMD算法表达式,计算文本距离,进而通过文本距离的大小完成文本分类。2.根据权利要求1所述的一种结合监督学习的中文文本分类方法,其特征在于:在步骤1中,利用基于python的爬虫框架scrapy爬取网络上的文本语料。3.根据权利要求1所述的一种结合监督学习的中文文本分类方法,其特征在于:在步骤1中,采用python库Jieba对m条文本语料进行分词。4.根据权利要求1所述的一种结合监督学习的中文文本分类方法,其特征在于:在步骤7中,损失函数具体如下:

【专利技术属性】
技术研发人员:刘兴李晓飞韩光
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1