数据处理装置、数据处理方法、程序及集成电路制造方法及图纸

技术编号:5977730 阅读:163 留言:0更新日期:2012-04-11 18:40
一种数据处理装置(100),具有:临时记录部(5),记录聚类/要素对应表以及分组/聚类对应表,该聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的每个的聚类ID、和识别属于利用该聚类ID识别的聚类的要素ID相对应地保存,该分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的分组的聚类ID相对应地保存;特征抽取部(1),抽取新追加的要素数据的特征量;自动分类处理部(2),从多个聚类中确定归属聚类,并且按照规定的制约条件将规定归属聚类的边界的分类边界条件更新;数据管理部(6),将新追加的要素数据的要素ID和归属聚类的聚类ID相对应地记录在聚类/要素对应表中。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及以能够自动将逐次输入的数据分类、而且能够通过手动输入来修正 (annotation 标注)其结果为前提的数据处理装置或者数据处理方法。
技术介绍
以往,关于自动将数据分类的方法,已经公知有使用事前学习数据来识别数据并 分类的方法,和不使用事前学习数据而将数据分类的方法。无论哪种方法都通过从数据中 抽取多维的特征量并进行特征量的比较来实现。作为事前学习的一例有对每个分类分组,根据学习数据的分布信息来计算 概率分布,并判定输入数据归属于哪个分类分组的方法(例如贝叶斯估计=Bayesian Estimation)。作为其他示例有使学习数据的分布信息近似于多个高斯分布的重叠,并判 定输入数据归属于哪个分类分组的方法(例如高斯混合模型(Gaussian Mixture Model) 等)。作为另一个其他示例有根据学习数据的分布信息来设定分类分组之间的边界,并判定 输入数据归属于哪个分类分组的方法(例如支持向量机(Support Vector Machine)等)。 这些方法需要在实现自动分类之前预先由人工准备学习用的数据,其登记作业比较烦杂。另一方面,关于不使用事前学习数据而将数据自动分类的方法,已经公知有各种 聚类(clustering)方法。聚类用于根据数据自身的分布的浓淡将数据分类。关于具体 的聚类方法有预先指定分类数并进行分类的k-means(k-均值)法,或者根据输入模式 (pattern)群的相似度自主地获得分类的能力的神经网络即自组织映射法(SOM)等。数据的自动分类往往要求逐次处理型的学习及分类。例如,已经公知有依据于 k-means法的LBG (Linde-Buzo-Gray)算法等。这种LBG算法例如在自适应地将利用哪个代 表向量来代表各个向量记述为代码的向量量化等中得到应用,以便实现语音信号或者图像 信号的信息压缩。但是,在实际应用中LBG算法是对数据反复处理来发现代表向量的方法, 虽然说是逐次处理,但是存在需要相当长的处理时间的问题。通常,分类精度和逐次处理时 的分类结果的更新速度存在取舍关系。使用图22及图23说明在实际采用这种自动分类方法时的处理结构示例。图22 是进行自动分类并将其结果记录在临时记录部中的数据处理装置1000的框图。具体地讲, 图22所示的数据处理装置1000具有特征抽取部1100、自动分类处理部1200、聚类/要素 对应表更新记录部1300、临时记录部1400。特征抽取部1100在被输入了新追加的要素数据(以下也称为“追加要素”)时,进 行用于计算该要素数据的特征空间上的坐标的特征抽取处理。例如,在进行人脸图像的分 类的情况下,可以列举表示人脸的特征量的Gabor小波特征量等。这些特征量以及与追加 要素相关的信息被记录在临时记录部1400中并进行管理,以便明确对应关系。自动分类处理部1200在计算追加要素的特征量后,从临时记录部1400中读出此 前的作为过去的分类结果的各个聚类的分类边界条件、和属于附近聚类的全部要素数据的 特征空间上的坐标信息,进行追加要素属于哪个聚类的判定。并且,自动分类处理部1200向聚类/要素对应表更新记录部1300发送追加要素的信息(更新对象要素)、和该追加要 素归属的聚类的信息(归属聚类)。然后,自动分类处理部1200根据进行了追加要素的追加这一情况,修正过去的分 类结果。并且,自动分类处理部1200将被施加变更后的聚类的分类边界条件、和赋予了追 加要素的坐标的此前的全部要素数据的坐标数据,一并记录在临时记录部1400中。关于详 细的处理结构示例将在后面进行说明。聚类/要素对应表更新记录部1300读出在临时记录部1400中记录的过去的聚类 /要素对应表,并进行有关变更部位的更新,将更新后的对应表记录在临时记录部1400中。图23是表示自动分类处理部1200的详细处理及结构示例的图。图23所示的自 动分类处理部1200具有归属聚类判定部1210、附近聚类再分类部1220、分类边界条件读出 部1M0、分类边界条件更新记录部1230。归属聚类判定部1210在被输入追加要素后,通过分类边界条件读出部1240从临 时记录部1400读出过去的聚类的分类边界条件,并进行追加要素与各个聚类相似何种程 度的匹配处理。关于匹配处理的方法可以列举先前列举的LBG算法,该算法依据于不使用 事前学习数据而将数据逐次自动分类的k-means法。此外,也可以采用对应逐次处理的支 持向量机(SVM)或者层次式自动分类法等。所谓分类边界条件,例如对于SVM则相当于表 示聚类之间的分类边界面的函数,而对于层次式自动分类法则相当于各个层次/各个节点 的分支条件。或者,也可以考虑像使用事前学习数据的方式的高斯混合模型(GMM =Gaussian Mixture Model)那样、具有各个聚类在特征空间上分布的概率密度函数的形式。即,在把新 的要素数据设为对象时,只要是表示应该属于哪个聚类的判定条件的信息,则对其形式没 有特别要求。附近聚类再分类部1220把由归属聚类判定部1210得到的追加要素的特征空间上 的坐标及其匹配结果作为输入,并抽取追加要素的附近聚类。关于是否是附近的判定,可以 预先设定任意的距离指标,在比该距离小的情况下判定为是附近聚类。把归属于该附近聚 类的要素数据从临时记录部1400中全部读出,并与追加要素一起进行再分类。分类边界条件更新记录部1230根据由再分类的结果而得到的各个要素数据所归 属的聚类信息、和从临时记录部1400读出的各个要素数据的坐标,更新附近聚类之间的分 类边界条件及与已有聚类之间的分类边界条件,并记录在临时记录部1400中。并且,针对 再分类的结果为被施加了修正的要素数据,向聚类/要素对应表更新记录部1300发送该要 素数据和最终归属聚类的信息。另外,在附近聚类再分类部1220中,在判定为追加要素相对于哪一个聚类都比预 先设定的距离还远指标的情况下,生成该要素数据所属的新的聚类,并同样在分类边界条 件更新记录部1230进行分类边界条件的更新。临时记录部1400采用硬盘、光盘、半导体存储器等能够临时存储数据的装置。通过采用这种结构,在逐次追加数据的情况下,也能够在保存过去的自动分类的 结果的同时,体现新的追加数据的自动分类结果。另外,这种数据自动分类方法由于采用统计手法,所以通常不可能达到100%的分 类精度结果,只不过能够从概率论上估计结果。因此,需要根据用途来良好地进行可能得到 的结果的解释。另外,由于是以用户亲自手动修正自动分类后的结果为前提的系统结构,因此也存在把数据自动分类定位为“用户手动将大量数据分类时的助手”的系统。例如,在人脸图像分类的情况下,美国专利第7,274,822号说明书及美国专利第 7,403,642号说明书记述了高精度高效率地标注(annotation,通过用户的手动输入而进 行的分类修正)人脸照片的自动分类方法、以及其用户界面。例如,图24A 图24D表示标 注的示例。在图24A 图24D中,利用黑点表示作为分类对象的要素数据,利用线表示分类结 果。下文中,把被分类后的结果的单位称为聚类(cluster)。并且,关于标注的具体示例,列 举将作为分类结果而得到的一个聚类分割为两个的分本文档来自技高网...

【技术保护点】
一种数据处理装置,对要素数据进行分类,具有:  临时记录部,记录所述要素数据、聚类/要素对应表、分类边界条件以及分组/聚类对应表,所述聚类/要素对应表将识别由该数据处理装置分类后的多个聚类中的各个聚类的聚类ID、和识别属于利用该聚类ID识别的所述聚类的所述要素数据的要素ID相对应地保存,所述分类边界条件用于规定所述多个聚类各自的边界,所述分组/聚类对应表将识别按照用户的主观基准分类后的分组的分组ID、和识别属于利用该分组ID识别的所述分组的所述聚类的所述聚类ID相对应地保存;特征抽取部,抽取新追加的所述要素数据的特征量;  自动分类处理部,通过将由所述特征抽取部抽取的特征量与所述分类边界条件进行比较,确定所述多个聚类之中、所述新追加的要素数据应该归属的归属聚类,并且按照规定的制约条件将规定所述归属聚类的边界的所述分类边界条件更新,以使所述新追加的要素数据包含在所述归属聚类中;以及  数据管理部,将识别所述新追加的要素数据的要素ID、和识别由所述自动分类处理部确定的所述归属聚类的所述聚类ID相对应地记录在所述聚类/要素对应表中。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:河村岳矶贝邦昭刘亚洲
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1