一种文本分类方法及装置制造方法及图纸

技术编号：11663885 阅读：92 留言：0更新日期：2015-07-01 02:03

本发明专利技术提供一种文本分类方法及装置，方法包括：确定待分类的文本以及每个文本分别对应的多维向量；获取每个文本分别对应的第一维度向量，析得到待分类的文本所对应的多类主题；在待分类的文本中选择一个尚未被进行分类的文本，将该选择的文本所对应的第一维度向量，分别与每一个第二维度向量计算余弦相似度，将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题，继续执行本步骤，直到待分类的文本均被分类完毕。根据本方案，从而提高了文本分类的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，特别涉及一种文本分类方法及装置。
技术介绍
文本分类技术在很多领域都有应用，例如，将文本进行分类，分类后的文本用于指导机器翻译中翻译模型的训练，可见，文本分类的精度很重要，精度高的分类文本，可以在其应用领域带来有益效果，而如果文本分类的精度不够，就会给使用这些分类文本的应用带来不利影响。在现有的文本分类方法中，通常采用训练语料进行分类器训练，然后用训练后的分类器对文本进行分类的方式进行，分类效率较低。
技术实现思路
有鉴于此，本专利技术提供一种文本分类方法及装置，以解决现有技术分类效率较低的问题。本专利技术提供了一种文本分类方法，预先设定维度阈值，还包括：确定待分类的文本以及每个文本分别对应的多维向量；根据预先设定的所述维度阈值，和，每个文本分别对应的多维向量，获取每个文本分别对应的第一维度向量，其中，每个文本分别对应的第一维度向量的维度均等于所述维度阈值；根据预先设定的所述维度阈值以及所述待分类的文本，分析得到所述待分类的文本所对应的多类主题，其中，每类主题分别对应一个维度与所述维度阈值相等的第二维度向量；在所述待分类的文本中选择一个尚未被进行分类的文本，将该选择的文本所对应的第一维度向量，分别与每一个第二维度向量计算余弦相似度，将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题，继续执行本步骤，直到所述待分类的文本均被分类完毕。优选地，进一步包括：设定统计个数阈值；所述确定每个文本分别对应的多维向量，包括：针对所述待分类的文本中的每个文本，分别执行如下操作...

【技术保护点】
一种文本分类方法，其特征在于，预先设定维度阈值，还包括：确定待分类的文本以及每个文本分别对应的多维向量；根据预先设定的所述维度阈值，和，每个文本分别对应的多维向量，获取每个文本分别对应的第一维度向量，其中，每个文本分别对应的第一维度向量的维度均等于所述维度阈值；根据预先设定的所述维度阈值以及所述待分类的文本，分析得到所述待分类的文本所对应的多类主题，其中，每类主题分别对应一个维度与所述维度阈值相等的第二维度向量；在所述待分类的文本中选择一个尚未被进行分类的文本，将该选择的文本所对应的第一维度向量，分别与每一个第二维度向量计算余弦相似度，将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题，继续执行本步骤，直到所述待分类的文本均被分类完毕。

【技术特征摘要】

【专利技术属性】
技术研发人员：于振梅，刘艺，张连超，刘宇，张鹏，
申请(专利权)人：浪潮集团有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人