【技术实现步骤摘要】
一种分类器链标签序列的优化方法及系统
本专利技术涉及机器学习
,具体涉及一种分类器链标签序列的优化方法及系统。
技术介绍
分类是机器学习中非常重要的方法,通过分类可以使得机器对所关心的对象进行类别划分,从而达到识别不同对象的目的。然而在实际问题中,一个对象所属的类别本身具有一定的不确定性,例如在一些文本分类的任务中,有关某些体育明星的新闻,既可以属于体育新闻,也可以属于明星娱乐新闻。现实中的对象总是可以附带不同的属性,为了将这些对象的所有属性都准确的预测并分类出来,多标签分类技术是一种常用的方法,相较于多分类或二分类问题,多标签分类的技术难点主要体现:要处理的标签的维度过高、难以发掘标签之间的潜在联系。但是,Read等人在二元相关性的基础上提出了分类器链(ClassifierChain,CC)算法,通过串行的连接分类器结果,使得整个分类器链可以利用标签间潜在的关联关系,从而让整个分类器链可以输出比较好的结果。尽管分类器链算法较原先的二元相关性算法有了优化,但由于其属于链式增长型的分类器模型,增加了要处理的标签的 ...
【技术保护点】
1.一种分类器链标签序列的优化方法,其特征在于,包括:/n获取待分类的输入样本;/n利用分类器链模型识别输入样本,生成样本标签集合,组成分类器链;/n利用共现分析获取样本标签集合对应的共现矩阵;/n利用共现矩阵的多个共现分支组成共现向量;/n根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序。/n
【技术特征摘要】
1.一种分类器链标签序列的优化方法,其特征在于,包括:
获取待分类的输入样本;
利用分类器链模型识别输入样本,生成样本标签集合,组成分类器链;
利用共现分析获取样本标签集合对应的共现矩阵;
利用共现矩阵的多个共现分支组成共现向量;
根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序。
2.根据权利要求1所述的分类器链标签序列的优化方法,其特征在于,共现矩阵的元素为样本标签集合中的样本标签集合元素同时出现和同时不出现的概率。
3.根据权利要求1所述的分类器链标签序列的优化方法,其特征在于,所述利用共现矩阵的多个共现分支组成共现向量的步骤,包括:
获取共现矩阵中各个第一样本标签元素对应的共现率,并获取其最大共现率;
获取与各个第一样本标签元素最大共现率对应的第二样本标签元素;
由各个第一样本标签元素、各个第一样本标签元素对应的最大共现率、及与各个第一样本标签元素最大共现率对应的第二样本标签元素组成多个共现分支;
由多个共现分支组成共现向量。
4.根据权利要求3所述的分类器链标签序列的优化方法,其特征在于,共现率为共现矩阵中各个元素与待分类输入样本个数的比值。
5.根据权利要求1所述的分类器链标签序列的优化方法,其特征在于,所述根据共现向量获取分类器链的起始分支,基于贪心策略生成分类器链标签的顺序的步骤,包括:
将共现向量中共现率最大的共现分支添加到分类器链的起始分支;
通过对分类器链末尾的标签寻找对应最大的共现分支,进行整个链式结构的不断增长,直到得到整条分类器链标签...
【专利技术属性】
技术研发人员:张强,宋博川,贾全烨,柴博,
申请(专利权)人:全球能源互联网研究院有限公司,国家电网有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。