对海量文档库的文档分类的方法技术

技术编号:8594072 阅读:187 留言:0更新日期:2013-04-18 07:17
本发明专利技术提供了一种对海量文档库的文档分类的方法,包括:确定文档库中所有文档的各个关键词、以及每个关键词与其所归属的各个文档的对应关系;将所述各个关键词逐个在术语库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个文档所归属的行业类别属性;根据所述对应关系,确定每个文档包含相同的最多的行业类别属性;将归属最多的行业类别属性作为每个文档的分类。本发明专利技术采取一种反向匹配的思路进行对参考库的文档进行术语检索,由于术语语料库是个具备字符顺序索引结构的集合,采用二分法在其中进行字符串匹配最多只需要1+log2n次匹配计算,极大的减少了匹配次数,简化了匹配过程,提高了对文档分类的效率。

【技术实现步骤摘要】

本专利技术涉及计算机领域,具体而言,涉及一种。
技术介绍
翻译参考文献库(以下简称参考库),是一个有海量文档的辅助翻译资源的文档库,用一般的相似性检索的方法对其按一定的行业、学科、领域进行分类,需要进行非常巨大的文本相似性匹配计算,耗费的时间和空间都是系统很难承受的。通过大型术语语料库对参考库中的文档进行术语数量的计算,可以对文档进行行业、学科、领域等属性的初步划分,所花费的字符串模式匹配计算大大少于进行文本相似性匹配计算的计算量。大型术语语料库是一个包含术语标注信息、具备多种索引结构的术语语料的大集合,其规模一般在百万到千万级别,大的可以到亿级。本方法需用到的标注信息有术语的行业、学科、领域信息,需用到的索引结构为字符顺序索引。通常要将参考库中的文档按行业、学科、领域的术语数量进行分类的方法,采用用术语库中的术语为关键词在文档中进行字符串匹配,得到每个文档的各行业、学科、领域的术语数量。由于参考库中的文档是一种未排序的散乱文本空间,用这种方式进行分类,需要用百万、千万乃至上亿计的术语为关键词,在海量的参考库文档中进行顺序匹配,这样耗费的时间也非常巨大(设术语语料库的术语数为n,参本文档来自技高网...

【技术保护点】
一种对海量文档库的文档分类的方法,其特征在于,包括:确定文档库中所有文档的各个关键词、以及每个关键词与其所归属的各个文档的对应关系;将所述各个关键词逐个在术语库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个文档所归属的行业类别属性;根据所述对应关系,确定每个文档包含相同的最多的行业类别属性;将归属最多的行业类别属性作为每个文档的分类。

【技术特征摘要】
1.一种对海量文档库的文档分类的方法,其特征在于,包括 确定文档库中所有文档的各个关键词、以及每个关键词与其所归属的各个文档的对应关系; 将所述各个关键词逐个在术语库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个文档所归属的行业类别属性; 根据所述对应关系,确定每个文档包含相同的最多的行业类别属性; 将归属最多的行业类别属性作为每个文档的分类。2.根据权利要求1所述的方法,其特征在于,对每个所述文档进行分词处理,去除停用词、无具体意义的词,得到所述各个关键词。3.根据权利要求1所述的方法,其特征在于,还包括 确定每个关键词在其所对应的每个文档出现的多个位置信息;其中,所述位置信息的数量等于该关键词在其所对应的每个文档的词频。4.根据权利要求3所述的方法,其特征在于,所述匹配过程包括 如...

【专利技术属性】
技术研发人员:江潮
申请(专利权)人:武汉传神信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1