一种数字对象分类方法和系统技术方案

技术编号：7736074 阅读：198 留言：0更新日期：2012-09-09 17:28

本发明专利技术提供了一种数字对象分类方法和系统。所述方法包括：获取数字对象的聚类方法；生成聚类后集合的粗略分类方法，包括对分类参数进行估计的方法，形成初步的分类器；用聚类结果对初步分类器进行参数调整，结合逻辑化推理方法确定最终分类器。在一个实施例中，初步分类结果根据伪似然估计方法确定参数，进一步借助概率推理的后验估计方法进行修正并确定最终分类器，从而有效的避免了干扰信息的影响，弥补了数字知识对象中不明确语义信息引起的歧义缺陷。利用本发明专利技术的分类方法和系统，可以提高数字知识对象分类的精确性和可扩展性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于知识管理领域。一般地涉及知识的分类组织、检索与挖掘。具体而言，涉及通过计算机技木，自动对以数字对象表现的计算机可以读取的知识进行分类组织，并自动对组织后的结果提供检索与挖掘所必须的数字特征。
技术介绍
目前，可获得的以计算机可以处理的数字对象为表象的知识快速增长，使得人们无法透彻了解并有效利用这大量的信息。如何帮助用户以高效的方式组织这些知识并找到所需的重点知识是ー项富有挑战性的任务，也是知识管理领域的核心目的。对知识统计关系的学习已成为知识管理领域的ー个重要研究热点，它在生物信息学、系统生物学、互联网搜索、社会网、似然模型获取与利用、地理信息系统和自然语言理解等领域，都获得了极高的重视。它是将关系/逻辑表示、概率推理机制(不确定性处理)、机器学习和数据挖掘集成在一起，以获取数据中的似然模型为目的的知识管理方法。统计关系学习中的统计指采用基于概率论的概率表示和推理机制，关系是指一阶逻辑表示和关系表示；学习等同于数据挖掘，是指从数据中学得统计关系模型。目前统计关系学习方法主要有基于Bayesian网的方法、基于(隐)Markov模型的方法、基于随机文法的方法和基于Markov网的方法等。本专利技术的研究利用统计关系学习的方法，实现知识管理中的知识获取、分类组织、挖掘与特征标注过程。在这些方面现有技术中存在很多研究成果，大致可以分为监瞀型、半监瞀型和无监瞀型三类。各自都存在一定程度缺陷监瞀型方法为了获得统计关系的參数估计需要大量的训练数据集，这在实用环境中特别是某些固定行业应用中难以获得，适用性差；半监瞀型方法会受局部数据特征分布的影响，导致整...

【技术保护点】

【技术特征摘要】
1.ー种数字对象分类器生成方法，包括获取数字对象的聚类方法；生成聚类后结果的粗略分类方法，并形成初步分类器；以及用聚类结果对初歩分类器进行參数调整，并形成最終分类器。2.如权利要求I所述的參数调整步骤包括计算对应于所述粗略分类结果的初步分类器的參数估计；利用聚类结果和最大伪似然估计方法对初步分类器參数进行修正，以生成对应于相应结果的后验概率；以及根据所述后验概率生成所述最终分类器。3.如权利要求2所述的方法，其中利用最大伪似然估计方法中，利用最大伪似然估计值代替一般最大似然估计值，并结合一阶逻辑谓词的方法进行參数值的修正。4.如权利要求2所述的方法，其中所述的參数估计值是利用训练集获得，训练集是通过如下过程自动生成的获取与所述对象集合相关分类的类别名；基于所述的类别名生成相关的关键值；利用所述关键字分类所述对象集合以得到中间分类结果；以及从所述中间分类结果获得所述训练集。5.如权利要求4所述的方法，其中，生成所述关键值的步骤还包括參考外部知识源对获取的所述类别名进行重新分类；以及基于经过重新分类的类别名生成所述关键值。6.如权利要求4所述的方法，其中所述关键值作为代表性描述，并且所述得到中间分类结果的步骤包括 ...

【专利技术属性】
技术研发人员：朱鹏翔，
申请(专利权)人：朱鹏翔，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人