文件分类装置和方法制造方法及图纸

技术编号:8737304 阅读:169 留言:0更新日期:2013-05-26 12:44
特征语提取单元(201)从文件集合包含的文件提取特征语。特征语分组单元(202)将提取出的上述特征语分组为多个分组,该多个分组构成具有树结构的同义词词典的局部树,出现属于一个分组的上述特征语的上述文件的数量、与出现属于其他分组的上述特征语的上述文件的数量之差,在预先规定的基准值以下。文件分类单元(203),将上述文件集合包含的上述文件分类为在该文件中出现的上述特征语所属的分组。分类标签赋予单元(204)对上述多个分组中的各个分组赋予分类标签,该分类标签是代表属于各分组的上述特征语的语句。提示单元(302)将上述文件的分类结果,与对被分类后的分组赋予的上述分类标签对应起来进行提示。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及文件分类装置、方法以及程序。
技术介绍
作为对文件进行分析的技术之一,已知有根据文件中的意图表现对事物的评判进行分析的评判分析。评判分析不是仅判断单纯的事物的好坏,而是按每个对事物进行评价的观点来判断好坏。因此,在以往的评判分析中,除了意图表现的词典之外,成为意图表现的对象的观点的词典是必要的。前者即意图表现的词典不依赖于特定的领域因而具有通用性,能够在各种各样的领域中利用。另一方面,后者即观点的词典较强地依赖于特定的领域因而缺乏通用性,必须按领域制作。另一方面,作为将文件集合分类的方法,已知有文件分组。根据文件分组,能够根据各个文件的内容将文件集合分类,所以若能进行以成为意图表现的对象的观点为基准的分类,则能够实现不使用观点的词典的评判分析。此外,还已知有在文件分组中使用同义词词典的技术。例如有这样的技术,即选择同义词词典上的某个层级,使用同一层级上的收录语对文件分组进行分类、统合。由此,能够统一文件分组的分类的粒度,还能够对被分类后的文件分组赋予分类标签,该分类标签作为在分类中使用的同义词词典的收录语。但是,根据使用同义词词典的同一层级上的收录语对文件分组进行分类、统合的技术,由于同义词词典中的收录语广泛分布,所以文件分组的数量增多。此外,分类标签成为属于同义词词典中的下位概念的狭义语。因此,难以将文件的分类结果容易明白地提示。现有技术文献专利文献专利文献1:日本特开2009 - 251825号公报非专利文献I:Hearst, M.A.: Clustering versus faceted categories forinformation exploration, Communications of the ACM, Volume49Issue4, April2006.
技术实现思路
专利技术的概要本专利技术要解决的课题本专利技术要解决的课题在于,提供一种能够将文件的分类结果容易明白地提示的文件分类装置、方法以及程序。实施方式的文件分类装置具备特征语提取单元、特征语分组单元、文件分类单元、分类标签赋予单元和提示单元。特征语提取单元从文件集合包含的文件提取特征语。特征语分组单元将提取出的上述特征语分组为多个分组,该多个分组构成具有树结构的同义词词典的局部树,出现属于一个分组的上述特征语的上述文件的数量、与出现属于其他分组的上述特征语的上述文件的数量之差,在预先规定的基准值以下。文件分类单元将上述文件集合包含的上述文件分类为在该文件中出现的上述特征语所属的分组。分类标签赋予单元对上述多个分组中的各个分组赋予分类标签,该分类标签是代表属于各分组的上述特征语的语句。提示单元将上述文件的分类结果,与对被分类后的分组赋予的上述分类标签对应起来进行提示。附图说明图1是表示第I实施方式的文件分类装置的框图。图2是表示在文件存储部中存储的文件集合的一例的图。图3 — I是表示在意图词典存储部中存储的意图表现的一例的图。图3 — 2是表示在意图词典存储部中存储的意图表现的一例的图。图4是表示在同义词词典存储部中存储的同义词词典的一例的图。图5 — I是表示从分类对象的各文件提取的特征语的一例的图。图5 — 2是表示从分类对象的各文件提取的特征语的一例的图。图6是表示将特征语分组后的结果的一例的图。图7 — I是表示将分类对象的各文件分类的结果的一例的图。图7 — 2是表示将分类对象的各文件分类的结果的一例的图。图8 — I是表示对文件分组赋予的分类标签的一例的图。图8 — 2是表示对文件分组赋予的分类标签的一例的图。图9 一 I是表示提示单元的信息的提示例的图。图9 一 2是表示提示单元的信息的提示例的图。图9 一 3是表示提示单元的信息的提示例的图。图10是表示特征语提取单元的处理流程的流程图。图11是表示特征语分组单元的处理流程的流程图。图12是表示文件分类单元的处理流程的流程图。图13是表示分类标签赋予单元的处理流程的流程图。图14是表示第2实施方式的文件分类装置的框图。图15是表示在指定文件存储部中存储的指定文件的一例的图。图16是表示从分类对象的各文件和指定文件提取的特征语的一例的图。图17是表不对文件分组赋予的分类标签的一例的图。图18 — I是表示提示单元的信息的提示例的图。图18 — 2是表示提示单元的信息的提示例的图。图19是表示第3实施方式的文件分类装置的框图。图20是表示在观点词典存储部中存储的观点的词典的一例的图。图21是表示从分类对象的各文件提取的特征语的一例的图。图22是表示对文件分组赋予的分类标签的一例的图。图23 — I是表示提示单元的信息的提示例的图。图23 — 2是表示提示单元的信息的提示例的图。图23 — 3是表示提示单元的信息的提示例的图。图24是表示第4实施方式的文件分类装置的框图。图25是表示在文件存储部中存储的文件集合的一例的图。图26是表示数据处理装置的硬件结构例的说明图。具体实施例方式以下,参照附图说明实施方式的文件分类装置、方法以及程序。另外,以下所示的实施方式是对在评判分析中利用的文件分类装置的适用例,可适用的文件分类装置不限于该例,能够适用于各种形态的文件分类装置。<第I实施方式>图1是表示第I实施方式的文件分类装置的框图。第I实施方式的文件分类装置如图1所示,具备存储装置1、数据处理装置2和输入输出装置3。存储装置1、数据处理装置2以及输入输出装置3可互相交换信息地通过有线或无线进行连接。另外,存储装置1、数据处理装置2以及输入输出装置3也可以通过单一的信息处理装置来实现。存储装置I具备文件存储部101、意图词典存储部102和同义词词典(thesaurus)存储部103。文件存储部101存储成为分类的对象的文件集合。图2是表示在文件存储部101中存储的文件集合的一例的图。文件集合所含的文件不限于某特定的形态,例如是用自然语言记述的文件。例如,包含网页文件、业务上制作的文件、专利公报等文件的文件集合存储在文件存储部101中。文件存储部101可以不仅存储文件本身而是还将文件ID成组存储。图2中,示出了包含从文件ID是Dl的文件到文件ID是DlO的文件的文件集合存储在文件存储部101中的例子。文件存储部101例如能够使用硬盘、闪存等。意图词典存储部102存储通常使用的意图表现。这里,意图表现是指,对事件的评价及赞成与否、成功与否等、人带有感想及意图而表现的词语。图3 — I及图3 — 2是表示在意图词典存储部102中存储的意图表现的一例的图。意图词典存储部102可以不仅存储意图表现本身而是还将意图表现的种类成组存储。图3 — I中,示出了在意图词典存储部102中存储了“良好”、“好”、“广”、“差”、“遗憾”、“高”的意图表现的例子。图3 — 2中,示出了对于“评价”是“好评”的意图表现的种类而言存储有“良好”、“好”、“广”的意图表现、对于“评价”是“差评”的意图表现的种类而言存储有“差”、“遗憾”、“高”的意图表现的例子。意图词典存储部102例如能够使用硬盘、闪存等。同义词词典存储部103存储一个或多个同义词词典。同义词词典是指,根据语句的上位/下位关系、部分/整体关系、同义关系、近义关系等将语句分类并建立体系的词典。同义词词典存储部10本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201280002991.html" title="文件分类装置和方法原文来自X技术">文件分类装置和方法</a>

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:稻叶真纯真锅俊彦国分智晴仲野亘
申请(专利权)人:株式会社东芝东芝解决方案株式会社
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1