【技术实现步骤摘要】
文件分类方法、文件分类装置以及记录介质
[0001]本公开涉及文件分类方法、文件分类装置以及记录介质。
技术介绍
[0002]例如在专利文献1中,公开了用于根据内容而将电子化的大量的文件分类为类别的文件分类装置等。在专利文献1所公开的技术中,基于反复对类别分类对象的文件中的文章所包含的单词的出现频度以及共现关系进行分析来进行依存解析而获得的可靠性分数,锁定并提取成为该文章的特征的短语。然后,通过使用成为该文章的特征的短语来生成该文章的类别,从而对该文章的类别进行分类。
[0003]在先技术文献
[0004]专利文献
[0005]专利文献1:日本特开2014
‑
41481号公报
技术实现思路
[0006]本公开的一个方式涉及的文件分类方法是由计算机进行将文件分类为至少一个类别的处理的文件分类方法,该文件分类方法包括:从作为分类对象的第1文件所包含的第1文章信息中,提取一个以上的第1特征词;基于提取出的所述一个以上的第1特征词,从包括多个预先包含第2文章信息且被赋予了预先 ...
【技术保护点】
【技术特征摘要】
1.一种文件分类方法,由计算机进行将文件分类为至少一个类别的处理,所述文件分类方法包括:从作为分类对象的第1文件所包含的第1文章信息中,提取一个以上的第1特征词;基于提取出的所述一个以上的第1特征词,从包括多个预先包含第2文章信息且被赋予了预先分类的一个以上的类别的事例的数据库中,提取与所述第1文件类似的给定数量的第1事例,所述第2文章信息按照根据含义被预先分类的一个以上的项目的每个项目来表示该项目的要点;从所述给定数量的第1事例各自的第2文章信息中,提取所述给定数量的第1事例各自的一个以上的第2特征词;基于提取出的所述一个以上的第2特征词,计算所述给定数量的第1事例各自与所述第1文件的一致度;和将计算出的一致度之中一致度最大的第1事例被赋予的一个以上的类别决定为所述第1文件的类别,从而将所述第1文件分类为至少一个类别。2.根据权利要求1所述的文件分类方法,其中,在提取所述一个以上的第1特征词时,通过对所述第1文章信息进行词素分析来提取所述第1文章信息所包含的多个单词;根据通过进行所述多个单词的依存解析而获得的所述多个单词的出现频度以及共现关系来计算分数;和通过将计算出的所述分数为阈值以上的一个以上的单词决定为所述一个以上的第1特征词,从而从所述第1文章信息中提取所述一个以上的第1特征词。3.根据权利要求1或2所述的文件分类方法,其中,在提取所述给定数量的第1事例时,比较所述数据库所包括的所述多个事例各自的所述第2文章信息和提取出的所述一个以上的第1特征词,计算所述第2文章信息所包含的单词与所述一个以上的第1特征词的类似度;和包括所述类似度为最上位的第1事例在内,从所述最上位起按照所述类似度从大到小的顺序提取所述给定数量的第1事例。4.根据权利要求1~3中任一项所述的文件分类方法,其中,在提取所述一个以上的第2特征词时,从所述给定数量的第1事例各自的按照所述一个以上的项目的每个项目而包含的第2文章信息中,提取所述给定数量的第1事例各自中的所述一个以上的项目的每个项目的第2特征词,作为所述一个以上的第2特征词。5.根据权利要求4所述的文件分类方法,其中,在计算所述一致度时,比较所述给定数量的第1事例各自中的所述一个以上的项目的每个项目的第2特征词和所述第1文件所包含的所述第1文章信息;和按照所述给定数量的第1事例各自中的所述一个以上的项目的每个项目,计算表示与所述第1文章信息的一致度的一致度分数,在所述给定数量的第1事例的每个第1事例中,计算对所述一致度分数进行总计而获得的总计分数,作为所述给定数量的第1事例各自与所
述第1文件的一致度。6.根据权利要求1~5中任一项所述的文件分类方法,其中,所述文件分类方法还包括:使用所述一致度最大的第1事例中的所述一个以上的项目的每个项目的第2特征词来检索所述第1文件所包含的第1文章信息,基于所述第1文章信息中的所...
【专利技术属性】
技术研发人员:坂口彰洋,尾笼刚,
申请(专利权)人:松下知识产权经营株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。