一种文本的向量化方法以及装置制造方法及图纸

技术编号：19023358 阅读：23 留言：0更新日期：2018-09-26 19:03

本发明专利技术公开一种文本的向量化方法以及装置，涉及文本向量化领域。其中，所述方法包括：获取待处理的文本，并确定所述文本的应用类型，得到所述文本的样本；提取所述样本的所有单字符元素，得到所述样本的单字符集合；根据所述样本的应用类型提取所述样本的双字符元素，得到所述样本的双字符集合；将所述单字符集合和所述双字符集合进行合并，得到词表；根据所述词表构建得到所述文本的文本向量。本发明专利技术去除了中文切词，避免了切词针对舆情等口语化句子引入的误差及其后续的误差级联效应，并且对舆情等口语化句子的错别字具有较好的容错能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本的向量化方法以及装置
本专利技术涉及文本向量化领域，具体地，涉及一种文本的向量化方法以及装置。
技术介绍
对于各种机器学习算法来说，它们的输入是向量，输出可以是连续的值或者离散的值。文本分类或聚类是机器学习领域的一个非常重要的应用，文本向量化则是进行文本分类或聚类的第一步，它直接决定机器学习最终结果的好坏。现有的文本向量化技术如下：TF-IDF(termfrequency–inversedocumentfrequency，词频-逆文档频率)是一种用于信息检索与数据挖掘的常用加权技术。句子向量的维度是词表的个数，每个维度的值是对应词表的词通过TF-IDF方法计算出来的权重。TF是指某个词在单个句子中出现的次数，由于句子长度不一，需要进行标准化处理；IDF是指逆文档频率，计算公式为log(语料库句子总数/(包含该词的句子数+1))；最终句子维度对应的TF-IDF值为TF*IDF。Word2Vec主要使用的技术方法有ContinuousBag-of-WordModel(CBOW)和ContinuousSkip-gramModel。CBOW的原理是根据上下文来预测当前词语的概率，而Skip-gram则是通过当前词语来预测上下文的概率，它们的核心都是神经网络算法，得到的词向量维度较低(100-400比较理想)，词相似度可以很方便通过向量夹角进行计算。但是，我们很难从词向量得到表征句子语义的向量，所以出现了Doc2Vec，可以直接把句子转化为向量。Doc2Vec方法除了额外增加一个句子向量外，与Word2Vec没太大区别。然而，现有技术存在如下问题：1、现有技...

【技术保护点】
1.一种文本的向量化方法，其特征在于，所述方法包括：获取待处理的文本，并确定所述文本的应用类型，得到所述文本的样本；提取所述样本的所有单字符元素，得到所述样本的单字符集合；根据所述样本的应用类型提取所述样本的双字符元素，得到所述样本的双字符集合；将所述单字符集合和所述双字符集合进行合并，得到词表；根据所述词表构建得到所述文本的文本向量。

【技术特征摘要】
1.一种文本的向量化方法，其特征在于，所述方法包括：获取待处理的文本，并确定所述文本的应用类型，得到所述文本的样本；提取所述样本的所有单字符元素，得到所述样本的单字符集合；根据所述样本的应用类型提取所述样本的双字符元素，得到所述样本的双字符集合；将所述单字符集合和所述双字符集合进行合并，得到词表；根据所述词表构建得到所述文本的文本向量。2.根据权利要求1所述的文本的向量化方法，其特征在于，所述提取所述样本的所有单字符元素之后，所述方法还包括：分别统计所述样本中每一单字符元素所对应的出现频度；分别去除所述样本中出现频度最大的单字符元素和所述样本中出现频度最小的单字符元素，从而得到所述样本的单字符集合。3.根据权利要求1所述的文本的向量化方法，其特征在于，所述根据所述样本的应用类型提取所述样本的双字符元素，得到所述样本的双字符集合，包括：在所述应用类型为二元分类的情况下，定义所述样本中双字符数量较少的类别为正样本；提取所述正样本中所有的双字符元素，得到所述样本的双字符集合。4.根据权利要求3所述的文本的向量化方法，其特征在于，所述提取所述正样本中所有的双字符元素之后，所述方法还包括：分别统计每一双字符元素所对应的出现频度；分别去除所述正样本中出现频度最大的双字符元素和所述正样本中出现频度最小的双字符元素，从而得到所述样本的双字符集合。5.根据权利要求1所述的文本的向量化方法，其特征在于，所述根据所述样本的应用类型提取所述样本的双字符元素，得到所述样本的双字符集合，还包括：在所述应用类型为多元分类的情况下，分别提取所述样本中每个类别的所有双字符元素，得到所述样本的双字符集合。6.根据权利要求5所述的文本的向量化方法，其特征在于，所述分别提取所述样本中每个类别的所有双字符元素之后，所述方法还包括：分别统计所述样本中每个类别的每一双字符元素所对应的出现频度；分别去除所述样本每个类别中出现频度最大的双字符元素和出现频度最小的双字符元素，从而得到所述样本的每个类别的双字符集合；将所述样本的每个类别的双字符集合进行合并，从而得到所述样本的双字符集合。7.根据权利要求1所述的文本的向量化方法，其特征在于，所述根据所述样本的应用类型提取所述样本的双字符元素，得到所述样本的双字符集合，还包括：在所述应用类型为文本聚类的情况下，提取所述样本中所有的双字符元素，得到所述样本的双字符集合。8.根据权利要求7所述的文本的向量化方法，其特征在于，所述提取所述样本中所有的双字符元素之后，所述方法还包括：分别统计每一双字符元素所对应的出现频度；分别去...

【专利技术属性】
技术研发人员：刘家兵，刘永波，吴春龙，张少松，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人