一种针对海量多词短文本的集成分类方法技术

技术编号:20916534 阅读:36 留言:0更新日期:2019-04-20 09:41
本发明专利技术公开了一种针对海量多词短文本的集成分类方法,包括:1获取多词短文本集合,并对多词短文本进行分词预处理;2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型;3基于词向量表示模型,利用Sentence2vec句向量表示方法中的PV‑DM模型,构建句向量表示;4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明专利技术能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,具有较高的鲁棒性和实用性。

An Integrated Classification Method for Massive Multi-word Short Texts

The invention discloses an integrated classification method for massive multi-word short texts, which includes: 1. acquiring a set of multi-word short texts and preprocessing the multi-word short texts; 2. using the CBOW continuous word bag model in Word2vec word vector representation method to obtain the word vector representation model; 3. using Sentence 2vec sentence vector representation method based on the word vector representation model and P. V_DM model is used to construct the sentence vector representation; 4. Based on the sentence vector representation model, kNN classifier is used to predict the class label of tagged data. The invention can solve the \dimension disaster\ problem of the traditional representation learning method, thereby improving the effect of short text representation learning, improving the accuracy of text classification, and has high robustness and practicability.

【技术实现步骤摘要】
一种针对海量多词短文本的集成分类方法
本专利技术涉及文本表示和表示学习方法领域,具体是一种针对海量多词短文本的集成分类方法。
技术介绍
随着商品经济的不断繁荣,各种新兴商品、服务不断涌现。依据国家规定,企业和个人在经营中需按照要求开具增值税发票,开具发票时票面上的商品应与税务总局核定的税收编码进行关联。然而,税务总局核定的税收编码有4200余类,种类繁多,传统的由人工手动选择税收分类编码的方式不仅要求纳税人有一定的专业知识,还容易出现填写错误的情况,增加企业经营时间成本,造成经济损失。随着信息化时代的到来,计算机技术的发展和数据资源的爆炸性增长,为解决这类问题提供了方法。税收编码分类任务是要依据货物名称将货物和正确的税收分类编码进行匹配,本质上是文本分类问题,人工输入的货物名称较为混乱,长则数十字,短则两三个字,其中夹杂数字和各种符号。极短的不规则的文本为分类任务带来了难度。同时,分类任务需要处理650万经过人工标记的数据和1000万未标记数据,海量的数据也为表示学习带来了困难。在一些情况下,货物名称中很大一部分都是无用信息,通过提取关键词可以更好的对货物进行描述,例如“晨光(M&G)E01精英系列按动子弹头中性笔签字笔水笔0.5mm12支/盒黑色AGP89703”。但还有一些情况难以利用提取关键词的方法,例如“医用植入钢钉”,如果采取关键词方法,将“钢钉”作为关键字,最终的落点是归属建筑材料,造成错误。还有类似“滑板砖真空-压力沥青浸煮设备”和“精加工成品”的货物名称,难以找到合适的关键词或者信息过少,难以通过提取关键词的方法获得有效信息。最终我们采取了将货物名称作为一个整体进行文本表示学习,用于表示货物名称,以进一步进行分类。表示学习作为机器学习的基础,其结果直接影响着整个系统的分类效果。针对文本表示学习方法,研究者们提出了许多方法。独热表示(one-hotrepresentation)将词语表示为向量,向量上只有某一维非零表示该词出现,其余维度上值均为零。Josef等人基于自然语言处理模型提出了词袋模型(BagofWords),在one-hotrepresentation的基础上,词袋模型进一步考虑了词频因素,在对一段文本进行分词后,用向量对其进行表示,将词语出现的频数记录在向量上。独热表示和词袋模型的向量维度取决于整个文本的词汇数,在处理大规模数据时,维度过大难以处理。Sklearn提供了HashingVectorizer通过哈希函数映射来降低向量的维度。然而以上的表示学习方法表示的词向量之间是孤立的,都无法对到词汇之间的关系进行描述。另外虽然HashingVectorizer采取了降维的方法,但由于生成的是高维稀疏的向量,在处理大规模数据时仍然容易带来“维数灾难”问题。“维数灾难”是指在高维情况下出现数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍。
技术实现思路
本专利技术为解决上述现有技术的不足之处,提供一种针对海量多词短文本的集成分类方法,以期能解决传统表示学习方法的“维数灾难”问题,从而提高短文本表示学习的效果,提升文本分类的精度,并具有较高的鲁棒性和实用性。为了达到上述目的,本专利技术所采用的技术方案为:本专利技术一种针对海量多词短文本的集成分类方法的特点在于包括以下步骤:步骤1、获取多词短文本集合,并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理,得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有:表示第i条短文本xi中第k个词,所述分词结果X是由有标记的分词集合和无标记的分词集合构成,其中,表示分词后的第m条有标记的短文本,且所述第m条有标记的短文本所对应的类别记为ym,表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V:步骤2.1、遍历所述分词结果X,并利用所述分词结果X中不同的词构造词典步骤2.2、定义窗口大小为2c,向量维度为s;步骤2.3、获取所述第i条短文本xi中第k个词的上下文内容,记为且并将所述第i条短文本xi中第k个词随机初始化为独热向量从而随机初始化上下文内容步骤2.4、以所述第i条短文本xi中第k个词为目标词,并令目标词为正样本,所述词典中的其他词为负样本,并从负样本中选取部分词作为所述目标词的负样本子集步骤2.5、利用式(1)得到所述词典中任意第一个词w的标签L(w):步骤2.6、最大化式(2)所示的目标词的目标函数式(2)中,u表示负样本子集和目标词所构成的集合中任意一个词;表示词u在上下文内容时出现的概率,并有:式(3)中,θu表示词u对应的辅助向量,且σ(·)表示Sigmoid函数;表示词u的标签;步骤2.7、通过随机梯度上升法对式(2)进行优化求解,得到优化后的第i条短文本xi中第k个词的稠密向量步骤2.8、根据2.3-步骤2.7,获得所述词典中其他词的稠密向量,从而构成词向量表示模型V;步骤3、基于所述词向量表示模型V,利用Sentence2vec句向量表示方法中的PV-DM模型,构建句向量表示:步骤3.1、将所述第i条短文本中第k个词再次随机初始化为独热向量从而随机初始化上下文内容并初始化PV-DM模型中的参数;步骤3.2、令ID(xi)第i条短文本xi的编号,d(xi)表示第i条短文本xi的编码向量,并利用式(4)得到第i条短文本xi的输入向量Wi:步骤3.3、将所述第i条短文本xi的输入向量Wi输入PV-DM模型的输入层中,由PV-DM模型的输出层得到第i棵二元Huffman编码树;步骤3.4、根据所述第i棵二元Huffman编码树,利用Softmax函数计算给定目标词在数据集合中出现的概率步骤3.5、利用式(5)得到优化的目标函数为:步骤3.6、根据所述词向量表示模型V,通过随机梯度上升法对式(5)进行优化求解,得到第i条短文本xi的向量表示v(xi);从而得到分词结果X中每条短文本的向量表示;步骤4、利用有标记的分词集合中每条短文本的向量表示训练kNN分类器,得到训练后的分类器;并利用所述训练后的分类器对未标记的分词集合中第n条无标记的短文本与所述有标记的分词集合中每条有标记的短文本的欧氏距离进行计算,选取最小欧式距离所对应的有标记的短文本的类别作为第n条无标记的短文本的类别,从而实现对未标记的分词集合的分类。与现有技术相比,本专利技术的有益效果在于:1、本专利技术方法从深度学习的角度出发,针对传统表示学习方法的“维数灾难”问题,设计了一种针对海量多词短文本的集成分类方法,在海量数据上训练得到的Word2vec词向量表示模型基础上,通过Sentence2vec句向量表示模型将短文本整体表示为稠密低维向量,获得了较为有效的表示,降低了短文本表示向量维度,避免了“维度灾难”问题,提高了文本表示效果,在分类器模型下取得了较好的分类结果。2、本专利技术解决文本表示学习这一重要实际问题,通过在税收编码分类任务的1650万真实数据集上的实验结果表明,该方法可有效地提高海量多词短文本的分类效果。本本文档来自技高网
...

【技术保护点】
1.一种针对海量多词短文本的集成分类方法,其特征在于包括以下步骤:步骤1、获取多词短文本集合,并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理,得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有:

【技术特征摘要】
1.一种针对海量多词短文本的集成分类方法,其特征在于包括以下步骤:步骤1、获取多词短文本集合,并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理,得到分词结果X={x1,x2,…,xi,…,xM+N},xi表示分词后的第i条短文本,并有:表示第i条短文本xi中第k个词,所述分词结果X是由有标记的分词集合和无标记的分词集合构成,其中,表示分词后的第m条有标记的短文本,且所述第m条有标记的短文本所对应的类别记为ym,表示分词后的第n条无标记的短文本;m=1,2,…,M,n=1,2,…,N,k=1,2,…,K,i=1,2,…,M+N;步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V:步骤2.1、遍历所述分词结果X,并利用所述分词结果X中不同的词构造词典步骤2.2、定义窗口大小为2c,向量维度为s;步骤2.3、获取所述第i条短文本xi中第k个词的上下文内容,记为且并将所述第i条短文本xi中第k个词随机初始化为独热向量从而随机初始化上下文内容步骤2.4、以所述第i条短文本xi中第k个词为目标词,并令目标词为正样本,所述词典中的其他词为负样本,并从负样本中选取部分词作为所述目标词的负样本子集步骤2.5、利用式(1)得到所述词典中任意第一个词w的标签L(w):步骤2.6、最大化式(2)所示的目标词的目标函数式(2)中,u表示负样本子集和目标词所构成的集合中任意一个词;表示词u在上下文内容时出现的概率,并有:式(3)中,θu表示词u对应的辅助向量,且σ(·)表示Sigmoid函...

【专利技术属性】
技术研发人员:胡学钢唐雪涛朱毅李培培
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1