一种针对海量多词短文本的集成分类方法技术

技术编号：20916534 阅读：36 留言：0更新日期：2019-04-20 09:41

本发明专利技术公开了一种针对海量多词短文本的集成分类方法，包括：1获取多词短文本集合，并对多词短文本进行分词预处理；2在分词结果上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型；3基于词向量表示模型，利用Sentence2vec句向量表示方法中的PV‑DM模型，构建句向量表示；4在句向量表示模型基础上利用kNN分类器预测为标记数据的类别标签。本发明专利技术能解决传统表示学习方法的“维数灾难”问题，从而提高短文本表示学习的效果，提升文本分类的精度，具有较高的鲁棒性和实用性。

An Integrated Classification Method for Massive Multi-word Short Texts

The invention discloses an integrated classification method for massive multi-word short texts, which includes: 1. acquiring a set of multi-word short texts and preprocessing the multi-word short texts; 2. using the CBOW continuous word bag model in Word2vec word vector representation method to obtain the word vector representation model; 3. using Sentence 2vec sentence vector representation method based on the word vector representation model and P. V_DM model is used to construct the sentence vector representation; 4. Based on the sentence vector representation model, kNN classifier is used to predict the class label of tagged data. The invention can solve the \dimension disaster\ problem of the traditional representation learning method, thereby improving the effect of short text representation learning, improving the accuracy of text classification, and has high robustness and practicability.

全部详细技术资料下载

【技术实现步骤摘要】
一种针对海量多词短文本的集成分类方法
本专利技术涉及文本表示和表示学习方法领域，具体是一种针对海量多词短文本的集成分类方法。
技术介绍
随着商品经济的不断繁荣，各种新兴商品、服务不断涌现。依据国家规定，企业和个人在经营中需按照要求开具增值税发票，开具发票时票面上的商品应与税务总局核定的税收编码进行关联。然而，税务总局核定的税收编码有4200余类，种类繁多，传统的由人工手动选择税收分类编码的方式不仅要求纳税人有一定的专业知识，还容易出现填写错误的情况，增加企业经营时间成本，造成经济损失。随着信息化时代的到来，计算机技术的发展和数据资源的爆炸性增长，为解决这类问题提供了方法。税收编码分类任务是要依据货物名称将货物和正确的税收分类编码进行匹配，本质上是文本分类问题，人工输入的货物名称较为混乱，长则数十字，短则两三个字，其中夹杂数字和各种符号。极短的不规则的文本为分类任务带来了难度。同时，分类任务需要处理650万经过人工标记的数据和1000万未标记数据，海量的数据也为表示学习带来了困难。在一些情况下，货物名称中很大一部分都是无用信息，通过提取关键词可以更好的对货物进行描述，例如“晨光(M&G)E01精英系列按动子弹头中性笔签字笔水笔0.5mm12支/盒黑色AGP89703”。但还有一些情况难以利用提取关键词的方法，例如“医用植入钢钉”，如果采取关键词方法，将“钢钉”作为关键字，最终的落点是归属建筑材料，造成错误。还有类似“滑板砖真空-压力沥青浸煮设备”和“精加工成品”的货物名称，难以找到合适的关键词或者信息过少，难以通过提取关键词的方法获得有效信息。最终我...

【技术保护点】
1.一种针对海量多词短文本的集成分类方法，其特征在于包括以下步骤：步骤1、获取多词短文本集合，并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理，得到分词结果X＝{x1,x2,…,xi,…,xM+N}，xi表示分词后的第i条短文本，并有：

【技术特征摘要】
1.一种针对海量多词短文本的集成分类方法，其特征在于包括以下步骤：步骤1、获取多词短文本集合，并利用jieba_fast分词方法在多进程的精准模式下对所述多词短文本集合进行分词处理，得到分词结果X＝{x1,x2,…,xi,…,xM+N}，xi表示分词后的第i条短文本，并有：表示第i条短文本xi中第k个词，所述分词结果X是由有标记的分词集合和无标记的分词集合构成，其中，表示分词后的第m条有标记的短文本，且所述第m条有标记的短文本所对应的类别记为ym，表示分词后的第n条无标记的短文本；m＝1,2,…,M，n＝1,2,…,N，k＝1,2,…,K，i＝1,2,…,M+N；步骤2、在分词结果X上利用Word2vec词向量表示方法中的CBOW连续词袋模型得到词向量表示模型V：步骤2.1、遍历所述分词结果X，并利用所述分词结果X中不同的词构造词典步骤2.2、定义窗口大小为2c，向量维度为s；步骤2.3、获取所述第i条短文本xi中第k个词的上下文内容，记为且并将所述第i条短文本xi中第k个词随机初始化为独热向量从而随机初始化上下文内容步骤2.4、以所述第i条短文本xi中第k个词为目标词，并令目标词为正样本，所述词典中的其他词为负样本，并从负样本中选取部分词作为所述目标词的负样本子集步骤2.5、利用式(1)得到所述词典中任意第一个词w的标签L(w)：步骤2.6、最大化式(2)所示的目标词的目标函数式(2)中，u表示负样本子集和目标词所构成的集合中任意一个词；表示词u在上下文内容时出现的概率，并有：式(3)中，θu表示词u对应的辅助向量，且σ(·)表示Sigmoid函...

【专利技术属性】
技术研发人员：胡学钢，唐雪涛，朱毅，李培培，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人