一种基于组合矩阵计算语义距离的文本分类方法技术

技术编号：21453987 阅读：26 留言：0更新日期：2019-06-26 04:47

本发明专利技术公开了一种基于组合矩阵计算语义距离的文本分类方法，包括步骤：S1、对中文文本进行处理，生成基于词袋模型的向量空间模型；S2、对于全部文本集合，使用生成的词袋模型文本向量作为训练语料，采用word2vec训练词向量，并结合训练出来的词向量和文本向量，构成一个文本矩阵；S3、对文本矩阵进行交叉运算，得到文本之间的语义距离。本发明专利技术提出的文本向量的表示和语义距离的计算方法，既克服了传统的词袋模型的缺陷，也改善了TF‑IDF算法的不足，从而可以训练出更好的分类模型来提升文本分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于组合矩阵计算语义距离的文本分类方法
本专利技术属于涉自然语言处理领域，特别是涉及一种基于组合矩阵计算语义距离的文本分类方法。
技术介绍
随着互联网的逐步普及与通讯技术的迅速发展，如何对以指数级别增长的网络数据进行高效的组织管理已经成为棘手和迫切的研究课题。而在这些浩如烟海的文献、资料和数据中，很大以部分的内容都是以文本为表现形式，对这些文本进行自动分类的过程被称作文本分类，文本分类是模式识别与自然语言处理相结合的一种技术，旨在根据文本内容的属性或特征，将目标文本关联到一个或多个类别中。传统的文本分类技术以知识工程的方法为主，相关领域的专家根据目标文本的分类经验，人工地提取出一些分类的逻辑规则，以此作为文本分类的依据。而近年来，随着机器学习与深度学习相关技术与计算机运算速度的提升，基于统计机器学习的文本分类方法开始得到青睐并在分类结果的准确率与稳定性上取得显著的优势。目前业界基于统计机器学习的文本分类的技术过程，通常有几个重要步骤：一、对自然语言文本进行数据化建模，即将真实文本表示为计算机能够高效处理的数据形式；二、根据上述建模方法，将所有目标文档都转换为特定的数据表达形式；三、规定不同文档的数据表达之间的运算关系；四、利用文本文档的数据表达形式和不同数据间的运算关系，设计文本分类的机器学习模型并进行训练；五、对给定的未知类别文档，将其转换为特定数据表达形式，并投入已经训练好的机器学习模型，得到该文档的类别预测结果。在自然语言处理中，文本的数据化建模一般都是使用向量空间模型(VectorSpaceModel，VSM)，即将一个文本文档表示为n维向量空...

【技术保护点】
1.一种基于组合矩阵计算语义距离的文本分类方法，其特征在于，包括步骤：S1、对中文文本进行处理，生成基于词袋模型的向量空间模型；S2、对于全部文本集合，使用生成的词袋模型文本向量作为训练语料，采用word2vec训练词向量，并结合训练出来的词向量和文本向量，构成一个文本矩阵；S3、对文本矩阵进行交叉运算，得到文本之间的语义距离。

【技术特征摘要】
1.一种基于组合矩阵计算语义距离的文本分类方法，其特征在于，包括步骤：S1、对中文文本进行处理，生成基于词袋模型的向量空间模型；S2、对于全部文本集合，使用生成的词袋模型文本向量作为训练语料，采用word2vec训练词向量，并结合训练出来的词向量和文本向量，构成一个文本矩阵；S3、对文本矩阵进行交叉运算，得到文本之间的语义距离。2.根据权利要求1所述的基于组合矩阵计算语义距离的文本分类方法，其特征在于，所述步骤S1具体包括:S1.1、用汉语分词算法对所述中文文本进行自动分词处理，同时过滤无实意词，将文本分割成一串连续的词语组合；S1.2、统计词频，生成文本的词袋模型表示，即初始文本向量；S1.3、使用TF-IDF算法更新所述词袋模型文本向量中各特征性的权重值，得到文本的向量表达。3.根据权利要求2所述的基于组合矩阵计算语义距离的文本分类方法，其特征在于，根据统计结果生成文本的词袋模型[(t1,f1),(t2,f2),…,(tn,fn)]，所述词袋模型的每一项都是一个二元组，二元组中第一位元素ti表示词语本身，第二位元素fi是它在文本中的频率，并且在对于所有文本文档的处理过程中，词袋模型的词语位置顺序(t1,t2,…,tn)是固定不变的；为了更准确地评估某个特定词语ti在具体文档Dxi中的重要性，需该根据进行TF-IDF计算公式更新每个词语的权重值wi：K(ti,Dxi)即为计算后的新的权重值，其中tf(ti,Dxi)为词语ti在文档Dxi中的出现频次，idf(ti)为词语ti在全部文档集中出现的频次的倒数；因此，可得到任意一篇文本文档Di的向量空间模型表示Dxi＝[(t1,w1),(t2,w2),…,(tn,wn)简化后可得Dxi＝[w1,w2,…,wn]。4.根据权利要求3所述的基于组合矩阵计算语义距离的文本分类方法，其特征在于，所述步骤S2具体包括:对于任意一篇文本文档Dxi＝[w1,w2,…,wn]，将向量中的每个特征项ti的权重wi和该特征项的词向量数乘，得到一个新的向量用这个新的向量替换原来的权重值标量，便将一个文本向量扩展为n×m大小的文本矩阵简化后可得其中tj∈Dxi，表示文档Dxi中第...

【专利技术属性】
技术研发人员：裘嵘，杨俊杰，张祖平，罗律，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人