文件分类系统及方法技术方案

技术编号:10643349 阅读:105 留言:0更新日期:2014-11-12 17:10
一种文件分类系统及方法,该系统用于:获取指定的文件集及多维多阶分类描述;根据多维多阶分类描述中每个分类与文件集中每篇文件的相似度,对每篇文件进行多维多阶分类;当所有文件分类完毕时,在电子装置的显示设备上输出每篇文件在各维度各阶层的分类。利用本发明专利技术可以对文件进行多维多阶分类。

【技术实现步骤摘要】

本专利技术涉及一种分类系统及方法,尤其涉及一种文件分类系统及方法
技术介绍
现有的文件分类大多采用一维分类方法,例如,针对
进行分类,或针对产品结构进行分类。随着信息的蓬勃发展,信息与信息间的关系越益错综复杂,例如一批专利数据,可以用产品结构分类也可以用
分类,但更多的时候人们需要同时知道这批专利同时用产品结构和
两个维度对应的分类,进而做更深入的分析。因此,目前单纯的一维分类无法满足文件数据更高的分析需求。
技术实现思路
鉴于以上内容,有必要提供一种文件分类系统及方法,其可利用潜在语义分析技术对文件进行多维多阶分类,让使用者在文件分类时弹性地扩大或缩小分类的维度和阶层。一种文件分类系统,应用于电子装置,该系统包括:资料获取模块,用于获取指定的文件集及多维多阶分类描述;文件分类模块,用于根据多维多阶分类描述中每个分类与文件集中每篇文件的相似度,对每篇文件进行多维多阶分类;结果输出模块,用于当所有文件分类完毕时,在电子装置的显示设备上输出每篇文件在各维度各阶层的分类。一种文件分类方法,应用于电子装置,该方法包括:资料获取步骤,获取指定的文件集及多维多阶分类描述;文件分类步骤,根据多维多阶分类描述中每个分类与文件集中每篇文件的相似度,对每篇文件进行多维多阶分类;结果输出步骤,当所有文件分类完毕时,在电子装置的显示设备上输出每篇文件在各维度各阶层的分类。相较于现有技术,所述的文件分类系统及方法,其可利用潜在语义分析技术对文件进行多维多阶分类,让使用者在文件分类时弹性地扩大或缩小分类的维度和阶层。附图说明图1是本专利技术文件分类系统的运行环境示意图。图2是本专利技术文件分类系统的功能模块图。图3是本专利技术文件分类方法的流程图。图4是图3中步骤S4的具体流程图。图5是二维二阶分类描述的一个实例图。图6是根据图5的二维二阶分类描述得到的文件分类示意图。主要元件符号说明电子装置2显示设备20输入设备22存储器23文件分类系统24处理器25文件分类表40核心词汇提取模块240核心词汇处理模块241概念向量获取模块242文件分类模块243结果输出模块245具体实施方式如图1所示,是本专利技术文件分类系统的运行环境示意图。该文件分类系统24运行于电子装置2中。该电子装置2还包括通过数据总线相连的输入设备22、存储器23和处理器25。所述电子装置2可以是电脑、手机、PDA(Personal Digital Assistant,个人数字助理)等。所述存储器23用于存储所述文件分类系统24的程序代码和影像等资料。所述输入设备22用于输入用户设置的各种数据,例如,键盘、鼠标等。在一个特殊实施例中,所述电子装置2可包括和数据总线相连的显示设备20,所述显示设备20用于显示文件分类结果等资料,该显示设备20可以是电脑的液晶显示屏、手机的触摸屏等。在本实施例中,所述文件分类系统24可以被分割成一个或多个模块,所述一个或多个模块被存储在所述存储器23中并被配置成由一个或多个处理器(本实施例为一个处理器25)执行,以完成本发明。例如,参阅图2所示,所述文件分类系统24被分割成核心词汇提取模块240、核心词汇处理模块241、概念向量获取模块242、文件分类模块243和结果输出模块245。本专利技术所称的模块是完成一特定功能的程序段,比程序更适合于描述软件在电子装置2中的执行过程。以下将结合图3和图4说明各模块的具体功能。如图3所示,是本专利技术文件分类方法的流程图。步骤S1,核心词汇提取模块240获取指定的文件集及多维多阶分类描述,并提取该文件集的核心词汇与多维多阶分类描述的核心词汇(Core term)。在本实施例中,所述文件集可以是根据用户输入的检索关键字得到的文件(如LCD专利文件)。所述多维多阶分类描述为用户输入的需要对检索到的文件进行分类的关键字,包括多个维度分类,每个维度分类又包括多个阶层分类。使用者在文件分类时可以弹性地扩大或缩小分类的维度和阶层。例如,参阅图5所示,是一个二维二阶分类描述的实例图,该二维二阶分类描述包括两个维度,
维度和产品结构维度,该
维度又包括两个阶层分类,如宽屏分类和半透/反射LCD分类。其中,每个阶层分类又包括若干子分类,例如,宽屏分类包括FFS(Fringe Field Switching,边缘场开关技术)屏幕子分类和IPS(In-Plane-Switching,平面方向转换)屏幕子分类。以提取文件集的核心词汇为例进行说明,核心词汇提取模块240根据文件结构将文件分成不同区块。例如,如果文件结构为专利文件,则将专利文件分成标题、摘要、具体实施例描述、权利要求等区块。核心词汇提取模块240在每个区块中提取核心词汇,现行已有从文字信息中提取核心词汇的方法,皆可套用在本专利技术。例如,可以采用在自然语言处理技术(Natural Language Processing,NLP)中最常见的TF-IDF(Term Frequency/Inverse Document Frequency)方法,本文将不再赘述。进一步地,核心词汇提取模块240可依据核心词汇在文件中出现的区块位置调整核心词汇的权重,例如,在专利文件中通常会将标题中出现的核心词汇权重调高。步骤S2,核心词汇处理模块241根据提取的核心词汇组成词文矩阵(Term-Document Matrix,即词条-文档矩阵),然后利用潜在语义分析(Latent Semantic Analysis,LSA)技术,对该词文矩阵做降阶处理得到一个概念矩阵(Concept Matrix),即降阶后的词文矩阵。步骤S3,概念向量获取模块242将多维多阶分类描述的核心词汇转换成概念矩阵中的向量(以下称为“分类描述向量”),同时获取每篇文件在概念矩阵中的向量(以下称为“文件向量”)。在本实施例中,所述多维多阶分类描述向量和文件向量皆属于概念向量(Concept Vector)。关于获取分类描述向量和文件向量的具体方法可以参考已公开的一些专利文献资料,例如公开日期为2012年7月11日的中国专利申请CN201010605164.9。...

【技术保护点】
一种文件分类系统,应用于电子装置,其特征在于,该系统包括:资料获取模块,用于获取指定的文件集及多维多阶分类描述;文件分类模块,用于根据多维多阶分类描述中每个分类与文件集中每篇文件的相似度,对每篇文件进行多维多阶分类;及结果输出模块,用于当所有文件分类完毕时,在电子装置的显示设备上输出每篇文件在各维度各阶层的分类。

【技术特征摘要】
1.一种文件分类系统,应用于电子装置,其特征在于,该系统包
括:
资料获取模块,用于获取指定的文件集及多维多阶分类描述;
文件分类模块,用于根据多维多阶分类描述中每个分类与文件集
中每篇文件的相似度,对每篇文件进行多维多阶分类;及
结果输出模块,用于当所有文件分类完毕时,在电子装置的显示
设备上输出每篇文件在各维度各阶层的分类。
2.如权利要求1所述的文件分类系统,其特征在于,所述文件分
类模块对每篇文件进行多维多阶分类包括:
提取该文件集的核心词汇与多维多阶分类描述的核心词汇;
根据提取的核心词汇组成词文矩阵,对该词文矩阵做降阶处理得
到一个概念矩阵;
将多维多阶分类描述的核心词汇转换成概念矩阵中的分类描述向
量,同时获取每篇文件在概念矩阵中的文件向量;
根据分类描述向量与文件向量的相似度,对每篇文件进行多维多
阶分类。
3.如权利要求2所述的文件分类系统,其特征在于,所述文件分
类模块根据分类描述向量与文件向量的相似度,对每篇文件进行多维
多阶分类包括:
将多维多阶分类描述拆成多个单维多阶分类;
将单维多阶分类描述拆成单维单阶分类描述;
依次获取文件集中每个文件的文件向量,计算每个单维单阶的分
类描述在概念矩阵中的向量与该文件向量的相似度;
若当前分类描述在概念矩阵中的向量与当前文件向量的相似度大
于预设值,则将当前文件加入当前分类。
4.如权利要求3所述的文件分类系统,其特征在于,所述当前分
类描述在概念矩阵中的向量与当前文件向量的相似度为当前分类描述
在概念矩阵中的向量与当前文件向量的夹角的余弦值。
5.如权利要求3所述的文件分类系统,其特征在于,所述文件分
类模块还用于:
如果当前分类包含子分类,则继续计算每个子分类描述在概念矩
阵中的向量与当前文件向量的相似度;
若当前子分类描述在概念矩阵中的向量与当前文件向量的相似度
大于预设值,则更新当前文件的分类,将当前文件加入当前子分类。
6.如权利要求1所述的文件分类系统,其特征在于,所述每篇文
件在各维度各阶层的分类通过一个文件分类表...

【专利技术属性】
技术研发人员:李忠一柳岳岑卢俊锜
申请(专利权)人:鸿富锦精密工业深圳有限公司鸿海精密工业股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1