The invention relates to the technical field of document management, and provides a document classification method and device. The method includes: acquiring the document to be classified and extracting the text content in the document to be classified; performing word segmentation on the text content to obtain the result of word segmentation containing multiple words; filtering all stop words in the result of word segmentation to obtain multiple first words; and according to the preset rules. According to the similarity between the target first participle and the document participle set corresponding to each document category stored in advance, the target similarity is determined, and the document category corresponding to the target similarity is regarded as the document category of the document to be classified, in which each document participle set includes multiple document participle. Compared with the prior art, the document classification method and device provided by the invention improve the efficiency of document classification.
【技术实现步骤摘要】
文档分类方法及装置
本专利技术涉及文档管理
,具体而言,涉及一种文档分类方法及装置。
技术介绍
近年来,随着计算机的高性能化、存储介质的大容量化及计算机网络的普及等,使得使用计算机系统来大量地收集、存储并利用电子化的文档的信息成为了可能。文档分类是指按照根据文档或内容的属性,对每一个文档确定一个类别,以便文档的管理,方便用户浏览、查找特定类别的文档。现有技术中,一般是人工进行文档类别的分类,通过人工阅读一篇文档后,对该文档的类别进行划分,文档分类效率低。
技术实现思路
本专利技术的目的在于提供一种文档分类方法及装置,以改善上述现有技术中文档分类效率低的问题。为了实现上述目的,本专利技术实施例采用的技术方案如下:第一方面,本专利技术实施例提供了一种文档分类方法,所述方法包括:获取待分类文档,并提取所述待分类文档中的文本内容;对所述文本内容进行分词处理,得到包含多个分词的分词结果;滤除所述分词结果中的所有停用词,得到多个第一分词;按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。第二方面,本专利技术实施例提供了一种文档分类装置,所述装置包括:文档获取模块,用于获取待分类文档,并提取所述待分类文档中的文本内容;分词处理模块,用于对所述文本内容进行分词处理,得到包含多个分词的分词结果;停用词滤除模块,用于滤除所述分词结果中的所有停用词,得到多个第一分词;分词筛 ...
【技术保护点】
1.一种文档分类方法,其特征在于,所述方法包括:获取待分类文档,并提取所述待分类文档中的文本内容;对所述文本内容进行分词处理,得到包含多个分词的分词结果;滤除所述分词结果中的所有停用词,得到多个第一分词;按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。
【技术特征摘要】
1.一种文档分类方法,其特征在于,所述方法包括:获取待分类文档,并提取所述待分类文档中的文本内容;对所述文本内容进行分词处理,得到包含多个分词的分词结果;滤除所述分词结果中的所有停用词,得到多个第一分词;按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。2.如权利要求1所述的方法,其特征在于,所述按照预设规则,从所述多个第一分词中筛选出多个目标第一分词的步骤,包括:对每个第一分词均进行权重计算,得到每个第一分词的分词权重;从所有的分词权重中筛选出预设数目的目标分词权重,并获得每个目标分词权重对应的目标第一分词,得到多个目标第一分词。3.如权利要求2所述的方法,其特征在于,所述对每个第一分词均进行权重计算,得到每个第一分词的分词权重的步骤,包括:统计所述待分类文档中每个第一分词出现的频次,得到多个第一分词频次;对所述多个第一分词频次进行求和,得到分词总频次;依据每个第一分词频次及所述分词总频次,计算出每个第一分词频次对应的第一分词的分词权重。4.如权利要求2所述的方法,其特征在于,所述从所有的分词权重中筛选出预设数目的目标分词权重的步骤,包括:按照每个分词权重的权重值,对每个分词权重进行排序;将预设数目个高权重值的分词权重均作为目标分词权重。5.如权利要求1所述的方法,其特征在于,所述依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度的步骤,包括:依据所述多个目标第一分词和每个文档分词集中多个文档分词,计算所述多个目标第一分词与每个所述文档分词集的相似度;从多个相似度中确定出最大相似度;将所述最大相似度与预设相似度进行对比,并在所述最大相似度大于所述预设相似度时,将所述最大相似度作为目标相似度。6.如权利要求1所述的方法,其特征在于,所述依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度的步骤,包括:依据所述多个目标第一分词和每个文档分词集中多个文档分词...
【专利技术属性】
技术研发人员:殷博,潘飚,
申请(专利权)人:南京中孚信息技术有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。