当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于组合矩阵计算语义距离的文本分类方法技术

技术编号:21453987 阅读:26 留言:0更新日期:2019-06-26 04:47
本发明专利技术公开了一种基于组合矩阵计算语义距离的文本分类方法,包括步骤:S1、对中文文本进行处理,生成基于词袋模型的向量空间模型;S2、对于全部文本集合,使用生成的词袋模型文本向量作为训练语料,采用word2vec训练词向量,并结合训练出来的词向量和文本向量,构成一个文本矩阵;S3、对文本矩阵进行交叉运算,得到文本之间的语义距离。本发明专利技术提出的文本向量的表示和语义距离的计算方法,既克服了传统的词袋模型的缺陷,也改善了TF‑IDF算法的不足,从而可以训练出更好的分类模型来提升文本分类的准确性。

【技术实现步骤摘要】
一种基于组合矩阵计算语义距离的文本分类方法
本专利技术属于涉自然语言处理领域,特别是涉及一种基于组合矩阵计算语义距离的文本分类方法。
技术介绍
随着互联网的逐步普及与通讯技术的迅速发展,如何对以指数级别增长的网络数据进行高效的组织管理已经成为棘手和迫切的研究课题。而在这些浩如烟海的文献、资料和数据中,很大以部分的内容都是以文本为表现形式,对这些文本进行自动分类的过程被称作文本分类,文本分类是模式识别与自然语言处理相结合的一种技术,旨在根据文本内容的属性或特征,将目标文本关联到一个或多个类别中。传统的文本分类技术以知识工程的方法为主,相关领域的专家根据目标文本的分类经验,人工地提取出一些分类的逻辑规则,以此作为文本分类的依据。而近年来,随着机器学习与深度学习相关技术与计算机运算速度的提升,基于统计机器学习的文本分类方法开始得到青睐并在分类结果的准确率与稳定性上取得显著的优势。目前业界基于统计机器学习的文本分类的技术过程,通常有几个重要步骤:一、对自然语言文本进行数据化建模,即将真实文本表示为计算机能够高效处理的数据形式;二、根据上述建模方法,将所有目标文档都转换为特定的数据表达形式;三、规定不同文档的数据表达之间的运算关系;四、利用文本文档的数据表达形式和不同数据间的运算关系,设计文本分类的机器学习模型并进行训练;五、对给定的未知类别文档,将其转换为特定数据表达形式,并投入已经训练好的机器学习模型,得到该文档的类别预测结果。在自然语言处理中,文本的数据化建模一般都是使用向量空间模型(VectorSpaceModel,VSM),即将一个文本文档表示为n维向量空间的中的一个向量,向量中每个不同的位置代表一个特征项,不同位置的数值大小表示该位置在整个向量的权重,既重要性大小,由特征项的总和构成对文本的全部表达。在汉语里,词语是汉语语言中表达语义的最小单元,因此在中文自然语言处理过程中,通常都是选取文本中的词语作为文本向量的特征项,每个词语在特定文本向量中所在位置的权重大小表示该词语在文档中的重要性。实际应用中一般采用词袋模型(BagofWord,bow)作为向量空间模型的初始表达,词袋模型将所有文本中的全部词语以一种位置固定、顺序随机的方式摆放,因为每个不同的词语都作为一个独一无二的特征项,所以这些固定摆放的词语全集构成了一个用于表达任意文本的向量空间。对于一篇具体的文本,它的文本向量里每个特征项的权重值为该特征项对应的词语在文本中出现的频率次数,即用词语在特定文本中出现的次数衡量其在该文本中的重要性。除了文本可以用向量空间模型表示,词语本身也可以用n维向量空间中的一个向量表示,对于词语全集中的一个具体的词,它的词向量用独热编码(One-hot)表示,该词语在向量空间中所在的固定位置对应的值为1,而表示其它词语的其余位置为0。所以,对于一篇具体的文本,由词袋模型生成的文本向量也可以看作构成该文本的所有词语的词向量的累加。在词袋模型中,由于文本向量各位置的值仅仅由各个位置对应词语在文中的频次所决定,因此具有很大的局限性。除了用词频表示文本向量权重,工程应用上最常用于计算文本向量权重的方法是词频逆文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)算法,该算法思想为,特征项的权重大小与该特征项在文档中出现的频率成正比,与在整个语料集中包含该特征项的文档数量成反比,对于一篇具体的文档来说,某个词语在该文档中出现的次数越多,其重要性越高,但是某个词语如果在其他文档中出现的次数越多越说明其代表的一般性,该词语的权重也则越低。对于任意两篇文档Dx和Dy之间的相似性度量,可以借助n维空间中的两个文档向量Dx和Dy的某种距离关系来计算,常用的方法是使用向量之间的内积来计算,向量的内积可以用于表征两个向量之间的夹角大小,或称余弦相似度。然而,在现实生活中,中文常用词语有数万个,一篇文档中所包含的词却一般只有成百上千,由于产生的向量空间的维度也是几万维,向量中的非零项只有几千个,这样得到的文档向量和词向量都将是高维的稀疏向量,两个高维度的稀疏向量的内积得到的相似性结果不但不够准确,而且建模与计算过程完全没有考虑文本向量中的特征项与特征项之间,即词语与词语之间的语义距离。近几年来,深度学习理论的发展和技术的更迭对自然语言处理起着深刻的影响,其中比较重要的是一种称为词嵌入(WordEmbedding)的分布式表示(DistributedRepresentation)技术,分布式表示基于分布假设理论,利用共生矩阵来获取词的语义表达,而词嵌入则实现了将词语映射到一个新的空间,并以多维的连续实数向量表示。词嵌入方法中,最有名的是谷歌提出的word2vec模型,其通过人工神经网络算法来训练语言模型,并在训练过程中得到词语所对应的低维向量。这种使用低维空间表示词向量的方法,不但解决了维数灾难问题,还挖掘出词语之间的关联属性,从而提高了词向量在语义表达上的准确度。
技术实现思路
本专利技术提出的表示文本的方法与计算文本间语义距离的方法不同于上述传统策略。在文本的表示建模方法上,假定用于表达所有文本的词语全集个数为n个,则文本语言模型的向量空间维度即为n维,然后在规定需要训练的词向量维度为m维。对于一个具体的文本文档,首先采用TF-IDF算法计算文档中各个词的权重值,得到文本n维的权重向量,但并非直接使用此权重向量来表达文本,而是对于将权重向量中每个特征项的值,即词语的权重,乘以该特征项所在位置的词语的词向量,实现将每个词的m维词向量嵌入到各自词语的权重中,将数乘得到的一个新的m维加权词向量取代原来每个词对应的具体位置的权重值,最终得到关于文本的n×m大小的矩阵表达,文本矩阵的每一行都是一个行向量,行向量的值等于词向量与该词语的权重的数乘。该行向量不仅携带某个词在文本中的权重大小,也携带了该个词的语法和语义特征,通过这种手段便将文本的向量空间表示从传统的向量扩充为矩阵,使其语义表达能力与携带的信息量更加丰富。区别于传统的文本向量通过计算余弦相似度的方式度量文本语义距离的方式,本专利技术提出文本语义距离计算方法基于上述文本表示的建模方法。对于两个不同文本,其数据化表达形式为n×m的矩阵,文档矩阵1的每一个行向量不是只与文档矩阵2对应位置的行向量计算相似度,而是与文档矩阵2中的每一个行向量计算相似度,并将计算结果累加作为两个文档的语义相似性度量结果,该方法思想凭借词向量具有词间语义距离和语法关系的特性,能够更精准地计算出不同文本的不同的特征项之间语义距离和共现概率。在机器学习分类模型的方法选取上,由于本专利技术所设计的领域是自然语言处理中的文本分类,而文本根据不同的划分标准可以分为多种类别,对此二元分类器的应用有限,因此任务中常采用多类别分类器。在多类别分类器中基于距离计算的分类算法要比支持向量机、多元逻辑回归等常用算法更适用与当前应用场景,因为分类任务最重要依据是基于文本间语义距离,而且前者有着更低的算法复杂度和运算量,能够加速模型的训练和预测。本专利技术采用KNN分类算法,并结合K-Means聚类算法中迭代类别质心的思想。KNN算法的思路是,计算一个未知样本在特征空间中与其最临近K个(即在语言模型中语言距离本文档来自技高网
...

【技术保护点】
1.一种基于组合矩阵计算语义距离的文本分类方法,其特征在于,包括步骤:S1、对中文文本进行处理,生成基于词袋模型的向量空间模型;S2、对于全部文本集合,使用生成的词袋模型文本向量作为训练语料,采用word2vec训练词向量,并结合训练出来的词向量和文本向量,构成一个文本矩阵;S3、对文本矩阵进行交叉运算,得到文本之间的语义距离。

【技术特征摘要】
1.一种基于组合矩阵计算语义距离的文本分类方法,其特征在于,包括步骤:S1、对中文文本进行处理,生成基于词袋模型的向量空间模型;S2、对于全部文本集合,使用生成的词袋模型文本向量作为训练语料,采用word2vec训练词向量,并结合训练出来的词向量和文本向量,构成一个文本矩阵;S3、对文本矩阵进行交叉运算,得到文本之间的语义距离。2.根据权利要求1所述的基于组合矩阵计算语义距离的文本分类方法,其特征在于,所述步骤S1具体包括:S1.1、用汉语分词算法对所述中文文本进行自动分词处理,同时过滤无实意词,将文本分割成一串连续的词语组合;S1.2、统计词频,生成文本的词袋模型表示,即初始文本向量;S1.3、使用TF-IDF算法更新所述词袋模型文本向量中各特征性的权重值,得到文本的向量表达。3.根据权利要求2所述的基于组合矩阵计算语义距离的文本分类方法,其特征在于,根据统计结果生成文本的词袋模型[(t1,f1),(t2,f2),…,(tn,fn)],所述词袋模型的每一项都是一个二元组,二元组中第一位元素ti表示词语本身,第二位元素fi是它在文本中的频率,并且在对于所有文本文档的处理过程中,词袋模型的词语位置顺序(t1,t2,…,tn)是固定不变的;为了更准确地评估某个特定词语ti在具体文档Dxi中的重要性,需该根据进行TF-IDF计算公式更新每个词语的权重值wi:K(ti,Dxi)即为计算后的新的权重值,其中tf(ti,Dxi)为词语ti在文档Dxi中的出现频次,idf(ti)为词语ti在全部文档集中出现的频次的倒数;因此,可得到任意一篇文本文档Di的向量空间模型表示Dxi=[(t1,w1),(t2,w2),…,(tn,wn)简化后可得Dxi=[w1,w2,…,wn]。4.根据权利要求3所述的基于组合矩阵计算语义距离的文本分类方法,其特征在于,所述步骤S2具体包括:对于任意一篇文本文档Dxi=[w1,w2,…,wn],将向量中的每个特征项ti的权重wi和该特征项的词向量数乘,得到一个新的向量用这个新的向量替换原来的权重值标量,便将一个文本向量扩展为n×m大小的文本矩阵简化后可得其中tj∈Dxi,表示文档Dxi中第...

【专利技术属性】
技术研发人员:裘嵘杨俊杰张祖平罗律
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1