一种文档分类方法、装置及系统制造方法及图纸

技术编号:6949614 阅读:199 留言:0更新日期:2012-04-11 18:40
本申请公开了一种文档分类方法、装置及系统。一种文档分类方法包括:对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;获得用户对上传文档所标注的类别信息;对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。上述方案,基于用户上传文档时的标注信息对文档进行分类,能够在不增加系统侧人力成本的情况下,使系统的分类性能得到持续的提升。

【技术实现步骤摘要】

本申请涉及互联网
,特别是涉及一种文档分类方法、装置及系统
技术介绍
随着互联网技术的发展,互联网上的信息量呈爆炸式增长。为了更好地应用这些数据,需要对这些数据进行有效的管理。其中,文档分类(document classification)是目前应用较为广泛的一种数据管理技术。文档分类是指按照根据文档或内容的属性,对文档集合中的每一个文档确定一个类别。这样,用户不但能够方便地在特定的类别浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。文本分类一般包括了文本的表达、分类器的选择与训练等过程。一般采用有监督机器学习方法进行,提升文档分类系统性能的一个有效途径是收集高质量标注语料作为分类依据。目前,语料的收集工作,主要采用的方式是随机抽取一定数量的样本、然后由人工对样本进行标注。可见,抽取样本的数量将直接影响文档分类性能,然而在实际应用中,出于人力成本的考虑,选取的标注样本规模往往也会受到限制,从而导致分类特征提取不准确,在一定程度上会影响分类的效果。另一方面,面对信息的快速更新,标注语料也应该相应进行更新以保证分类效果,但是要持续获得标注语料,同样需要消耗大量的人力成本。
技术实现思路
为解决上述技术问题,本申请实施例提供一种文档分类方法、装置及系统,以实现在不增加人力成本消耗的情况下,提升文档分类系统的性能。技术方案如下一种文档分类方法,包括对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;获得用户对上传文档所标注的类别信息;对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。在本申请的一种实施方式中,上述方法,还包括利用已确定类别的文档作为语料,训练文档自动分类模型。在本申请的一种实施方式中,所述获得用户对上传文档所标注的类别信息,包括获得用户在上传文档时对文档标注的类别信息;或获得用户对所上传文档最后一次更新标注的类别信息。在本申请的一种实施方式中,所述对重复文档集中的文档类别信息进行统计,包括对标注次数超过预设阈值的重复文档集中的文档类别信息进行统计。在本申请的一种实施方式中,所述对重复文档集中的文档类别信息进行统计,包括对于重复文档集中由同一用户上传的多篇文档,判断该用户对每篇文档所标注的类别信息是否相同,如果是,则将所述多篇文档的类别信息标注次数记为1次;如果否,则将所述多篇文档的类别信息标注次数记为0次。在本申请的一种实施方式中,在获得用户对上传文档所标注的类别信息之前,还包括采用预设的分类模型,对用户所上传的文档的类别进行预判断;将预判断结果发送给用户,供用户选择或修改。在本申请的一种实施方式中,所述对用户所上传的文档的类别进行预判断,包括计算用户所上传文档属于每个类别的概率,并按照概率的大小排序生成预判断结^ ο在本申请的一种实施方式中,上述方法还包括利用已确定类别的文档作为语料,对所述预设的分类模型进行修正。一种文档分类装置,包括判重单元,用于对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;类别信息获得单元,用于获得用户对上传文档所标注的类别信息;类别信息统计单元,用于对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;文档分类确定单元,用于判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。在本申请的一种实施方式中,上述装置,还包括分类模型训练单元,用于利用已确定类别的文档作为语料,训练文档自动分类模型。在本申请的一种实施方式中,类别信息获得单元,具体配置为用于获得用户在上传文档时对文档标注的类别信息;或用于获得用户对所上传文档最后一次更新标注的类别信息。在本申请的一种实施方式中,所述类别信息统计单元,具体配置为用于对标注次数超过预设阈值的重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别。在本申请的一种实施方式中,所述类别信息统计单元,具体配置为5用于对重复文档集中由同一用户上传的多篇文档,判断该用户对每篇文档所标注的类别信息是否相同,如果是,则将所述多篇文档的类别信息标注次数记为1次;如果否, 则将所述多篇文档的类别信息标注次数记为0次。在本申请的一种实施方式中,上述装置,还包括文档分类预判单元,用于在所述类别信息获得单元获得用户对上传文档所标注的类别信息之前,采用预设的分类模型,对用户所上传的文档的类别进行预判断;预判结果发送单元,用于将于预判断结果发送给用户,供用户选择或修改。在本申请的一种实施方式中,所述文档分类预判单元,具体配置为采用预设的分类模型,计算用户所上传文档属于每个类别的概率,并按照概率的大小排序生成预判断结果。在本申请的一种实施方式中,上述装置,还包括分类模型修正单元,用于利用已确定类别的文档作为语料,对所述预设的分类模型进行修正。一种文档分类系统,包括服务器和客户端设备,所述客户端设备,用于将用户对文档所标注的类别信息上传至服务器;所述服务器,包括如权利要求8-14任一项所述的文档分类装置,用于根据客户端设备所上传的用户标注的文档类别信息,对文档进行分类。本申请实施例所提供的技术方案,基于用户上传文档时的标注信息对文档进行分类,由于不同用户会上传内容重复的文档,因此通过对相同内容文档的分类标注信息进行统计、并选取在重复文档中占比例比较高的分类标注信息,可以得到置信度较高的标注分类结果。如果进一步利用这些分类结果作为依据训练分类模型,还能够有效地提升文档分类系统的效果分类准确性。另一方面,本申请方案充分利用了互联网用户数量大的特点,将标注的工作分散给互联网上的单一用户,从而可以在不增加系统侧人力成本的情况下,使系统的分类性能得到持续的提升。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本申请实施例文档分类系统的结构示意图;图2为本申请实施例文档分类方法的第一种流程图;图3为本申请实施例文档分类方法的第二种流程图;图4为本申请实施例文档分类方法的第三种流程图;图5为本申请实施例文档分类装置的第一种结构示意图;图6为本申请实施例文档分类装置的第二种结构示意图;图7为本申请实施例文档分类装置的第三种结构示意图;图8为本申请实施例文档分类装置的第四种结构示意图。具体实施例方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当本文档来自技高网
...

【技术保护点】
1.一种文档分类方法,其特征在于,包括:对不同用户所上传的文档内容进行判重,将内容重复度超过预设阈值的文档构成重复文档集;获得用户对上传文档所标注的类别信息;对重复文档集中的文档类别信息进行统计,获得具有最多标注次数的类别;判断所述最多标注次数与该重复文档集的总标注次数的比值是否大于预设的阈值,如果是,则将所述标注次数最多的类别确定为该重复文档集中文档的类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐兴军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1