文档分类方法及装置制造方法及图纸

技术编号:20622581 阅读:23 留言:0更新日期:2019-03-20 14:26
本发明专利技术涉及文档管理技术领域,提供一种文档分类方法及装置,其中,所述方法包括:获取待分类文档,并提取待分类文档中的文本内容;对文本内容进行分词处理,得到包含多个分词的分词结果;滤除分词结果中的所有停用词,得到多个第一分词;按照预设规则,从多个第一分词中筛选出多个目标第一分词;依据多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将目标相似度对应的文档类别作为待分类文档的文档类别,其中,每个文档分词集均包括多个文档分词。与现有技术相比,本发明专利技术提供的文档分类方法及装置提高了文档分类的效率。

Method and Device of Document Classification

The invention relates to the technical field of document management, and provides a document classification method and device. The method includes: acquiring the document to be classified and extracting the text content in the document to be classified; performing word segmentation on the text content to obtain the result of word segmentation containing multiple words; filtering all stop words in the result of word segmentation to obtain multiple first words; and according to the preset rules. According to the similarity between the target first participle and the document participle set corresponding to each document category stored in advance, the target similarity is determined, and the document category corresponding to the target similarity is regarded as the document category of the document to be classified, in which each document participle set includes multiple document participle. Compared with the prior art, the document classification method and device provided by the invention improve the efficiency of document classification.

【技术实现步骤摘要】
文档分类方法及装置
本专利技术涉及文档管理
,具体而言,涉及一种文档分类方法及装置。
技术介绍
近年来,随着计算机的高性能化、存储介质的大容量化及计算机网络的普及等,使得使用计算机系统来大量地收集、存储并利用电子化的文档的信息成为了可能。文档分类是指按照根据文档或内容的属性,对每一个文档确定一个类别,以便文档的管理,方便用户浏览、查找特定类别的文档。现有技术中,一般是人工进行文档类别的分类,通过人工阅读一篇文档后,对该文档的类别进行划分,文档分类效率低。
技术实现思路
本专利技术的目的在于提供一种文档分类方法及装置,以改善上述现有技术中文档分类效率低的问题。为了实现上述目的,本专利技术实施例采用的技术方案如下:第一方面,本专利技术实施例提供了一种文档分类方法,所述方法包括:获取待分类文档,并提取所述待分类文档中的文本内容;对所述文本内容进行分词处理,得到包含多个分词的分词结果;滤除所述分词结果中的所有停用词,得到多个第一分词;按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。第二方面,本专利技术实施例提供了一种文档分类装置,所述装置包括:文档获取模块,用于获取待分类文档,并提取所述待分类文档中的文本内容;分词处理模块,用于对所述文本内容进行分词处理,得到包含多个分词的分词结果;停用词滤除模块,用于滤除所述分词结果中的所有停用词,得到多个第一分词;分词筛选模块,用于按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;类别确定模块,用于依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。相对现有技术,本专利技术实施例具有以下有益效果:本专利技术实施例提供的一种文档分类方法及装置,通过对待分类文档中的文本类容进行分词、停用词处理,得到多个第一分词,并从多个第一分词中确定出多个目标第一分词,计算多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,并从中确定出目标相似度,将目标相似度对应的文档类别作为待分类文档的文档类别,实现了待分类文档的自动分类,提高了文档分类效率。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术用户员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本专利技术实施例提供的电子设备的方框示意图。图2示出了本专利技术实施例提供的文档分类方法的流程图。图3为图2示出的步骤S4的子步骤流程图。图4为图3示出的子步骤S41的子步骤流程图。图5为图3示出的子步骤S42的子步骤流程图。图6示出了本专利技术实施例提供的文档类别及文档分词的示意图。图7为图2示出的步骤S5的第一子步骤流程图。图8为图7示出的子步骤S51的子步骤流程图。图9为图2示出的步骤S5的第二子步骤流程图。图10示出了本专利技术实施例提供的文档分类装置的方框示意图。图标:100-电子设备;101-处理器;102-存储器;103-总线;104-通信接口;105-显示屏;200-文档分类装置;201-文档获取模块;202-分词处理模块;203-停用词滤除模块;204-分词筛选模块;205-类别确定模块。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术用户员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。本专利技术实施例提供的文档分类方法应用于电子设备100,电子设备100可以是,但不限于智能手机、平板电脑、个人计算机、车载电脑、个人数字助理(personaldigitalassistant,PDA)等等。请参阅图1,图1示出了本专利技术实施例提供的电子设备100的方框示意图,电子设备100包括处理器101、存储器102、总线103、通信接口104及显示屏105。处理器101、存储器102、通信接口104及显示屏105通过总线103连接,处理器101用于执行存储器102中存储的可执行模块,例如计算机程序。处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,文档分类方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器101,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessor,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。存储器102可能包含高速随机存取存储器(RAM:RandomAccessMemory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器102可以是,但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。总线103可以是ISA(IndustryStandardArchitecture)总线、PCI(PeripheralComponentInterconnect)总线或EISA(ExtendedIndustryStandardArchitecture)总线等。图1中仅用一个双向箭头表示,但并不表示仅有一根总线103或一种类型的总线103。电子设备100通过至少一个通信接口1本文档来自技高网...

【技术保护点】
1.一种文档分类方法,其特征在于,所述方法包括:获取待分类文档,并提取所述待分类文档中的文本内容;对所述文本内容进行分词处理,得到包含多个分词的分词结果;滤除所述分词结果中的所有停用词,得到多个第一分词;按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。

【技术特征摘要】
1.一种文档分类方法,其特征在于,所述方法包括:获取待分类文档,并提取所述待分类文档中的文本内容;对所述文本内容进行分词处理,得到包含多个分词的分词结果;滤除所述分词结果中的所有停用词,得到多个第一分词;按照预设规则,从所述多个第一分词中筛选出多个目标第一分词;依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度,并将所述目标相似度对应的文档类别作为所述待分类文档的文档类别,其中,每个所述文档分词集均包括多个文档分词。2.如权利要求1所述的方法,其特征在于,所述按照预设规则,从所述多个第一分词中筛选出多个目标第一分词的步骤,包括:对每个第一分词均进行权重计算,得到每个第一分词的分词权重;从所有的分词权重中筛选出预设数目的目标分词权重,并获得每个目标分词权重对应的目标第一分词,得到多个目标第一分词。3.如权利要求2所述的方法,其特征在于,所述对每个第一分词均进行权重计算,得到每个第一分词的分词权重的步骤,包括:统计所述待分类文档中每个第一分词出现的频次,得到多个第一分词频次;对所述多个第一分词频次进行求和,得到分词总频次;依据每个第一分词频次及所述分词总频次,计算出每个第一分词频次对应的第一分词的分词权重。4.如权利要求2所述的方法,其特征在于,所述从所有的分词权重中筛选出预设数目的目标分词权重的步骤,包括:按照每个分词权重的权重值,对每个分词权重进行排序;将预设数目个高权重值的分词权重均作为目标分词权重。5.如权利要求1所述的方法,其特征在于,所述依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度的步骤,包括:依据所述多个目标第一分词和每个文档分词集中多个文档分词,计算所述多个目标第一分词与每个所述文档分词集的相似度;从多个相似度中确定出最大相似度;将所述最大相似度与预设相似度进行对比,并在所述最大相似度大于所述预设相似度时,将所述最大相似度作为目标相似度。6.如权利要求1所述的方法,其特征在于,所述依据所述多个目标第一分词与预先存储的每个文档类别对应的文档分词集的相似度,确定出目标相似度的步骤,包括:依据所述多个目标第一分词和每个文档分词集中多个文档分词...

【专利技术属性】
技术研发人员:殷博潘飚
申请(专利权)人:南京中孚信息技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1