当前位置: 首页 > 专利查询>朱鹏翔专利>正文

一种数字对象分类方法和系统技术方案

技术编号:7736074 阅读:198 留言:0更新日期:2012-09-09 17:28
本发明专利技术提供了一种数字对象分类方法和系统。所述方法包括:获取数字对象的聚类方法;生成聚类后集合的粗略分类方法,包括对分类参数进行估计的方法,形成初步的分类器;用聚类结果对初步分类器进行参数调整,结合逻辑化推理方法确定最终分类器。在一个实施例中,初步分类结果根据伪似然估计方法确定参数,进一步借助概率推理的后验估计方法进行修正并确定最终分类器,从而有效的避免了干扰信息的影响,弥补了数字知识对象中不明确语义信息引起的歧义缺陷。利用本发明专利技术的分类方法和系统,可以提高数字知识对象分类的精确性和可扩展性。

【技术实现步骤摘要】

本专利技术属于知识管理领域。一般地涉及知识的分类组织、检索与挖掘。具体而言,涉及通过计算机技木,自动对以数字对象表现的计算机可以读取的知识进行分类组织,并自动对组织后的结果提供检索与挖掘所必须的数字特征。
技术介绍
目前,可获得的以计算机可以处理的数字对象为表象的知识快速增长,使得人们无法透彻了解并有效利用这大量的信息。如何帮助用户以高效的方式组织这些知识并找到所需的重点知识是ー项富有挑战性的任务,也是知识管理领域的核心目的。对知识统计关系的学习已成为知识管理领域的ー个重要研究热点,它在生物信息学、系统生物学、互联网搜索、社会网、似然模型获取与利用、地理信息系统和自然语言理解等领域,都获得了极高的重视。它是将关系/逻辑表示、概率推理机制(不确定性处理)、机器学习和数据挖掘集成在一起,以获取数据中的似然模型为目的的知识管理方法。统计关系学习中的统计指采用基于概率论的概率表示和推理机制,关系是指一阶逻辑表示和关系表示;学习等同于数据挖掘,是指从数据中学得统计关系模型。目前统计关系学习方法主要有基于Bayesian网的方法、基于(隐)Markov模型的方法、基于随机文法的方法和基于Markov网的方法等。本专利技术的研究利用统计关系学习的方法,实现知识管理中的知识获取、分类组织、挖掘与特征标注过程。在这些方面现有技术中存在很多研究成果,大致可以分为监瞀型、半监瞀型和无监瞀型三类。各自都存在一定程度缺陷监瞀型方法为了获得统计关系的參数估计需要大量的训练数据集,这在实用环境中特别是某些固定行业应用中难以获得,适用性差;半监瞀型方法会受局部数据特征分布的影响,导致整体參数估计的偏差,虽然有研究用似然估计的方法进行改进,但在计算机自动处理该过程时效果仍不明显;无监瞀型方法需要严格预定义先验知识列表,如关键字列表等,可扩展性差。因此需要新的对数字对象知识进行分类组织管理的方法,用以提高知识管理过程中,对数字对象的分类统计关系进行学习和生成的方法,用以实现计算机可处理的,高效的,可扩展的知识管理过程。
技术实现思路
针对上述问题,做出本专利技术。本专利技术提出ー种数字对象分类方法和系统,针对计算机可处理的数字对象知识,进行自动化的分类组织,通过对数字对象分类特征的统计关系学习,实现对分类过程适用性和可扩展性的提升。 本专利技术大致可分为以下步骤1)预处理过程;2)获得数字对象的特征向量空间;3)获得初始训练集;4)迭代分类器学习;5)最終分类器建立。首先,预处理过程是根据知识管理的需要,先对原始知识集合中的非知识对象或者非特定研究行业对象进行清洗,去处后续会带来干扰的非知识信息。其次,利用所研究行业的特定需求和计算机系统处理能力的需求将将知识数字对象化第三,在初始训练集合生成期间,初始训练集合实在先验知识的支持下基于类别名的语义分析而成的。在实际应用中,设计出一种基于描述的方法,用于建立分类器,其中每个类别具有语义相关的特征集,其相关度体现了统计相关參数。基于初始分类器,包括肯定和否定样本的初始训练集合被创建,以用于随后的迭代分类器学习。第四,在迭代分类器学习阶段,每次迭代中,来自上次迭代的分类器分类结果被用于建立这次迭代的训练集合。然后,从更新的训练集合中构造新的分类器。最后,实用新的分类器代替上次迭代的分类器来分类剩余的数字対象。当所有的数字对象分类完成后,形成的一组分类器收敛或者满足其他終止条件时,迭代过程终止。第五,在最終分类器建立阶段,从迭代学习终止后所得到的所有分类器中选择最符合预先获得的聚类结果的分类器,作为最终分类器。由于本专利技术假设不存在初始训练数据,对于分类器选择的方案上主要利用伪最大似然估计,并利用一阶逻辑关系进行修正。在本专利技术中,数字对象的聚类结果和分类结果之间的对准分析被执行,并被集成到训练集合建立以及迭代分类器学习的过程中,这样ー来,来源于类别名和相应语义分析的可能偏见和歧义得到控制,确保了所产生的训练数据以及最終分类结果的精确性得以提闻。另ー方面,本专利技术所采用的方法不需要初始训练数据或者初始约定的固定的关键字列表来进行分类。相反,本专利技术采用在现有知识源的支持下对类别名进行语义分析来建立初始训练集合。由于已有的外部知识源可以覆盖多个领域,因此当领域集改变时,本方面的方法仍可容易的应用到多个不同的领域集中,从而减少额外的人工干预工作,提高计算机自动化处理的程度。此外,本专利技术所提供的最終分类器建立的机制可以降低分类器由于迭代分类器学习过程中的噪声数据的存在而引起的过大偏差。从而提高最終分类的精确性。从以下实施例的描述中,可以看出本专利技术的具体特征和优点。本专利技术并不限于以下实施例中的描述或其他具体的实施例。附图说明附图I是数字对象分类系统SlOO的整体框图;附图2是图I所示数字对象分类系统SlOO的工作过程的流程图;附图3是图I所示的分类系统中的调整生成装置S103的ー个实例的结构框图;附图4是图I所示的分类系统中的粗略分类器S102的结构框图;附图5是根据本专利技术实施例,图I所示分类系统中的调整生成装置103采取迭代分类器学习的工作过程流程图;附图6是被用于实现本专利技术的计算机系统的示意性框图。具体实施例方式本专利技术所提出的分类器生成方法和系统可应用于一般知识管理过程中的知识获取与过滤,知识分类组织,知识搜索,和数据挖掘等等。图I所示分类系统SlOO的整体框图。如果所示,来自知识库S105的数字对象集合通过聚类装置S107被预先聚类成多个组,并将聚类结果存储在聚类结果库S104中。聚类结果库S104中所存储的关于文档集合的聚类结果将用于实际的具体知识管理应用中。关于聚类的方法属于本领域的公共知识技术,不作为本专利技术的研究重点,不做详细描述。图I所示根据本专利技术实施例的分类器系统包括获取装置S101,粗略分类装置S102以及调整生成装置S103。图2所示为图I中分类系统SlOO的工作过程的流程图。首先,在步骤201处,先对待处理的数据进行预处理工作,对与应用无关的原始内容进行过滤与清洗。其次,在步骤202处,将经过清洗的原始数字对象进行向量化的规范化处理,形成适用于应用程序的计算机可处理的数字对象表达形式。第三,规范化处理后的数字对象首先被粗略分类装置S102处理以进行粗略分类,从而得到粗略分类结果,如步骤203所示。例如,在本说明书
技术介绍
中描述的本领域公共知识技术的监瞀型分类、半监瞀型分类或无监瞀型分类方法均可用于实现粗略分类目的。在某些特定的实施例中,可以采用外部输入的训练集,也可以通过參考来自外部知识源的关于类名的语义信息自动生成训练集,以达到自适应的效果。同时,在步骤204处,获取装置SlOl从聚类结果库S104处获取预先存储的关于该集合的聚类結果。此时,来自粗略分类装置S102的粗略分类结果和来自获取装置SlOl的聚类结果都被提供到调整生成装置S103处。在步骤205处,利用聚类结果对来自粗略分类装置的粗略分类结果进行调整,从而生成最終分类器S106。在步骤206处,已经在步骤202处获得的集合被提供到所生成的最終分类器S106,最終分类器S106将集合中的每个分类指定到一个类别,并将分类结果存储到文档分类结果库S108中。过程结束。图3所示为分类系统的调整生成装置框图。其中包括概率计算单元S301和对准单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.ー种数字对象分类器生成方法,包括 获取数字对象的聚类方法; 生成聚类后结果的粗略分类方法,并形成初步分类器;以及 用聚类结果对初歩分类器进行參数调整,并形成最終分类器。2.如权利要求I所述的參数调整步骤包括 计算对应于所述粗略分类结果的初步分类器的參数估计; 利用聚类结果和最大伪似然估计方法对初步分类器參数进行修正,以生成对应于相应结果的后验概率;以及根据所述后验概率生成所述最终分类器。3.如权利要求2所述的方法,其中利用最大伪似然估计方法中,利用最大伪似然估计值代替一般最大似然估计值,并结合一阶逻辑谓词的方法进行參数值的修正。4.如权利要求2所述的方法,其中所述的參数估计值是利用训练集获得,训练集是通过如下过程自动生成的 获取与所述对象集合相关分类的类别名; 基于所述的类别名生成相关的关键值; 利用所述关键字分类所述对象集合以得到中间分类结果;以及从所述中间分类结果获得所述训练集。5.如权利要求4所述的方法,其中,生成所述关键值的步骤还包括 參考外部知识源对获取的所述类别名进行重新分类;以及基于经过重新分类的类别名生成所述关键值。6.如权利要求4所述的方法,其中所述关键值作为代表性描述,并且所述得到中间分类结果的步骤包括 ...

【专利技术属性】
技术研发人员:朱鹏翔
申请(专利权)人:朱鹏翔
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1