【技术实现步骤摘要】
文本分类方法、装置、设备以及计算机可读存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种文本分类方法、装置、设备以及计算机可读存储介质。
技术介绍
[0002]企业的数据管理十分重要,一般中小型企业一个月的数据量都十分庞大,要对大量数据做管理,并且防止数据泄漏。文档分类是数据管理的基本方法,并且企业数据中最常见的为文本类型文档,因此对文档做好分类是数据治理的重要环节。涉密文档和高价值的文档,例如,人事简历、员工薪酬和公司年报等,需要严格的管理机制,对这类文档的有效梳理有助于提升数据治理水平。
[0003]现有的方案中,文档分类是通过人工手段对文本类型文档进行分类,由于数据多样性或者管理员水平等诸多限制问题,导致文本类型文档分类的效率低下。
技术实现思路
[0004]本专利技术的主要目的在于提供一种文本分类方法、装置、设备以及计算机可读存储介质,旨在解决无法对文本类型文档进行有效分类的问题。
[0005]为实现上述目的,本专利技术提供的一种文本分类方法,所述文本分类方法包括以下步 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,所述文本分类方法包括:获取待分类文本,提取所述待分类文本中的至少一个关键词;确定所述至少一个关键词的至少一个权重信息;根据所述至少一个权重信息确定所述至少一个关键词的评分,根据所述至少一个关键词的评分确定所述待分类文本在多个类别中的每个类别的评分;根据所述待分类文本在所述每个类别的评分从所述多个类别中确定所述待分类文本的类别。2.如权利要求1所述的文本分类方法,其特征在于,所述至少一个权重信息包括至少一个局部权重和至少一个全局权重,所述确定所述至少一个关键词的权重信息的步骤之前,还包括:获取目标文本集中多个目标文本的多个关键词;根据所述多个关键词在所述多个目标文本中的出现次数以及所述多个目标文本中的每个目标文本的类别确定所述多个关键词的多个全局权重;根据所述多个关键词之间的关联度确定所述多个关键词的多个局部权重;所述确定所述至少一个关键词的至少一个权重信息的步骤包括:在所述多个全局权重和所述多个局部权重中查询所述至少一个权重信息。3.如权利要求2所述的文本分类方法,其特征在于,所述根据所述多个关键词在所述多个目标文本中的出现次数以及所述多个目标文本中的每个目标文本的类别确定所述多个关键词的多个全局权重的步骤包括:根据所述多个目标文本的类别以及所述多个关键词在所述多个目标文本中的出现次数确定所述多个关键词在所述每个类别中的出现次数;根据所述多个目标文本的类别确定所述每个类别中出现同一关键词的文本数量;根据所述多个关键词对应的所述出现次数以及所述文本数量确定所述多个关键词的所述多个全局权重。4.如权利要求2所述的文本分类方法,其特征在于,所述根据所述多个关键词之间的关联度确定所述多个关键词的多个局部权重的步骤还包括:确定所述多个关键词之间的共现关系,根据所述共现关系生成所述多个关键词之间的关联度;根据所述关联度确定所述多个关键词的所述多个局部权重。5.如权利要求2所述的文本分类方法,其特征在于,所述根据所述待分类文本在所述每个类别的评分从所述多个类别中确定所述待分类文本的类别的步骤之后,还包括:若所述待分类文本为测试文本,则比对所述待分类文本的参考类别以及得到的所述待分类文本的类别;若所述参考类别与所述待分类文本的类别不一致,则将测试文本添加至所述目标文本集,以更新所述目标文本集。6.如权利要求5所述的文本...
【专利技术属性】
技术研发人员:尚保林,李可,
申请(专利权)人:深信服科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。