一种文本分类方法及装置制造方法及图纸

技术编号:11663885 阅读:92 留言:0更新日期:2015-07-01 02:03
本发明专利技术提供一种文本分类方法及装置,方法包括:确定待分类的文本以及每个文本分别对应的多维向量;获取每个文本分别对应的第一维度向量,析得到待分类的文本所对应的多类主题;在待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到待分类的文本均被分类完毕。根据本方案,从而提高了文本分类的效率。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种文本分类方法及装置
技术介绍
文本分类技术在很多领域都有应用,例如,将文本进行分类,分类后的文本用于指 导机器翻译中翻译模型的训练,可见,文本分类的精度很重要,精度高的分类文本,可以在 其应用领域带来有益效果,而如果文本分类的精度不够,就会给使用这些分类文本的应用 带来不利影响。 在现有的文本分类方法中,通常采用训练语料进行分类器训练,然后用训练后的 分类器对文本进行分类的方式进行,分类效率较低。
技术实现思路
有鉴于此,本专利技术提供一种文本分类方法及装置,以解决现有技术分类效率较低 的问题。 本专利技术提供了一种文本分类方法,预先设定维度阈值,还包括: 确定待分类的文本以及每个文本分别对应的多维向量; 根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本 分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维 度阈值; 根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文 本所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度 向量; 在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应 的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所 对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待分类的文本均被 分类完毕。 优选地, 进一步包括:设定统计个数阈值; 所述确定每个文本分别对应的多维向量,包括:针对所述待分类的文本中的每个 文本,分别执行如下操作:对文本进行分词处理;对分词处理后的文本进行词频反词频统 计;在文本中获取与所述统计个数阈值相等个数的值最大的词频反词频统计值;将获取的 值最大的词频反词频统计值作为该文本的多维向量,其中,该文本的多维向量的维度个数 与所述统计个数阈值相等。 优选地,所述获取每个文本分别对应的第一维度向量,包括: 针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接,以将所述 待分类的文本均统一到一个多维空间中; 将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的第一维度 向量。 优选地,通过下式计算所述余弦相似度:【主权项】1. 一种文本分类方法,其特征在于,预先设定维度阈值,还包括: 确定待分类的文本以及每个文本分别对应的多维向量; 根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本分别 对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维度阈 值; 根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文本 所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度向 量; 在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第 一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应 的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待分类的文本均被分类 完毕。2. 根据权利要求1所述的方法,其特征在于, 进一步包括:设定统计个数阈值; 所述确定每个文本分别对应的多维向量,包括:针对所述待分类的文本中的每个文本, 分别执行如下操作:对文本进行分词处理;对分词处理后的文本进行词频反词频统计;在 文本中获取与所述统计个数阈值相等个数的值最大的词频反词频统计值;将获取的值最大 的词频反词频统计值作为该文本的多维向量,其中,该文本的多维向量的维度个数与所述 统计个数阈值相等。3. 根据权利要求1所述的方法,其特征在于,所述获取每个文本分别对应的第一维度 向量,包括: 针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接,以将所述待分 类的文本均统一到一个多维空间中; 将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的第一维度向 量。4. 根据权利要求1所述的方法,其特征在于,通过下式计算所述余弦相似度:其中,similarity用于表征所述余弦相似度,cos( Θ )用于表征向量A与向量B之间夹 角的余弦值,A用于表征所选择的文本所对应的第一维度向量,B用于表征其中一个第二维 度向量,i用于表征向量A或向量B的第i个列值,η用于表征向量A或向量B的列值的最 大个数,其中,i是大于等于1且小于等于η的整数。5. 根据权利要求1-4中任一所述的方法,其特征在于,所述预设维度阈值等于10。6. -种文本分类装置,其特征在于,包括: 存储单元,用于存储设定的维度阈值; 确定单元,用于确定待分类的文本以及每个文本分别对应的多维向量; 获取单元,用于根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获 取每个文本分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均 等于所述维度阈值; 分析单元,用于根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述 待分类的文本所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等 的第二维度向量; 计算分类单元,用于在所述待分类的文本中选择一个尚未被进行分类的文本,将该选 择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相 似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待 分类的文本均被分类完毕。7. 根据权利要求6所述的装置,其特征在于, 所述存储单元,用于存储设定的统计个数阈值; 所述确定单元,用于针对所述待分类的文本中的每个文本,分别执行如下操作:对文本 进行分词处理;对分词处理后的文本进行词频反词频统计;在文本中获取与所述统计个数 阈值相等个数的值最大的词频反词频统计值;将获取的值最大的词频反词频统计值作为该 文本的多维向量,其中,该文本的多维向量的维度个数与所述统计个数阈值相等。8. 根据权利要求6所述的装置,其特征在于,所述获取单元,用于针对所述待分类的文 本中每个文本分别对应的多维向量进行维度拼接,以将所述待分类的文本均统一到一个多 维空间中;将统一到的该多维空间进行主成分分析降维,得到每个文本分别对应的第一维 度向量。9. 根据权利要求6所述的装置,其特征在于,所述计算分类单元,用于通过下式计算所 述余弦相似度:η 其中,similarity用于表征所述余弦相似度,cos( Θ )用于表征向量A与向量B之间夹 角的余弦值,A用于表征所选择的文本所对应的第一维度向量,B用于表征其中一个第二维 度向量,i用于表征向量A或向量B的第i个列值,η用于表征向量A或向量B的列值的最 大个数,其中,i是大于等于1且小于等于η的整数。【专利摘要】本专利技术提供一种文本分类方法及装置,方法包括:确定待分类的文本以及每个文本分别对应的多维向量;获取每个文本分别对应的第一维度向量,析得到待分类的文本所对应的多类主题;在待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到待分类的文本均被分类完毕。根据本方案,从而提本文档来自技高网...

【技术保护点】
一种文本分类方法,其特征在于,预先设定维度阈值,还包括:确定待分类的文本以及每个文本分别对应的多维向量;根据预先设定的所述维度阈值,和,每个文本分别对应的多维向量,获取每个文本分别对应的第一维度向量,其中,每个文本分别对应的第一维度向量的维度均等于所述维度阈值;根据预先设定的所述维度阈值以及所述待分类的文本,分析得到所述待分类的文本所对应的多类主题,其中,每类主题分别对应一个维度与所述维度阈值相等的第二维度向量;在所述待分类的文本中选择一个尚未被进行分类的文本,将该选择的文本所对应的第一维度向量,分别与每一个第二维度向量计算余弦相似度,将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题,继续执行本步骤,直到所述待分类的文本均被分类完毕。

【技术特征摘要】

【专利技术属性】
技术研发人员:于振梅刘艺张连超刘宇张鹏
申请(专利权)人:浪潮集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1