基于层次化分类体系的情感判别和重要性划分方法技术

技术编号:19424995 阅读:155 留言:0更新日期:2018-11-14 10:34
本发明专利技术涉及一种基于层次化分类体系的情感判别和重要性划分方法,其包括:S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示;S3)针对每层中的内节点和基类,选取一定量的新闻数据进行人工标注;S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率;S5)对于新采集到的新闻数据,使用S4中建立的分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,从而使得新闻数据被归类到内节点或基类;S6)将新闻数据归类到节点后,计算并确定其情感和重要性标签。

【技术实现步骤摘要】
基于层次化分类体系的情感判别和重要性划分方法
本专利技术涉及数据处理
,尤其涉及一种基于层次化分类体系的情感判别和重要性划分方法。
技术介绍
随着网络信息的迅猛发展,互联网产生了海量的各种类型的原始信息,为了在浩如烟海又纷繁芜杂的信息中获取有效信息,信息处理成了人们必不可少的工具。在实际应用中,信息的获取往往聚焦于某一垂直领域,如财经、社会、体育等,以更好的对新闻的情感倾向(正面/负面/中性)和重要性(对于新闻主体影响高/中/低)进行判别,情感倾向和重要性是构建推荐系统及量化处理时的重要属性。在垂直领域内,通过层次化分类体系来构建分类器以自动对文本进行分类,是减少人工标注工作量和实时高效处理的前提。在传统文本分类中,并没有考虑到类别间存在的层次关系,而简单的认为所有类别相互之间没有交集,同处于一个平面,从而使得特征间存在大量冗余,因此基于层次化体系对文本进行分类是非常必要的。在将文本通过分类器归入到细分领域后,进行情感倾向和重要性两个属性的判别,通常将正/负面新闻与重要性相结合,构成一个单维度的分类,从而将问题转化为一个多分类问题,可使用机器学习中的通用分类算法解决。因为细分领域的新闻中存在专有名词,一些情感倾向及重要程度通过与内容相关的语义特征表达,所以通用的基于情感词表的方法在很多领域中不再适用。以新闻《创美药业2016年全年盈利同比大幅增加125.15%》为例,“集团的毛利为人民币180.30百万元,同比增长9.47%;毛利率为4.91%,较上年度增加0.06个百分点;净利润率为1.62%,较上年度增加0.84个百分点。总费用率为3.06%,较上年度减少0.73个百分点”,在内容中出现了“增加”,也出现了“减少”,所以通过情感词很难判断文章情感倾向。实际的情感倾向要取决于关键词对应的主体,既文中的“毛利”“总费用率”,事实上,“增加”和“减少”对应的情感倾向都是正面的。综上,现有技术方案主要包括:1、不考虑新闻特征,与其他情感分类问题类似,使用通用情感词表构建分类器。该方案对于大量不含明显情感词的新闻,不能进行正确的情感和重要性判别。2、采集某一垂直领域大量待分类新闻,由人工基于预先设定的规则,对于部分数据进行人工标注,并使用标注数据训练单一分类器,用分类器对未标注数据进行划分。然而,由于不同内容的新闻具有不同的情感和重要性划分标注,将所有类别的训练数据合并进行处理,训练得到的通用分类器对于大多数类别的分类效果都不够好。3、现有的普通层次化分类方法,对垂直领域内新闻内容进行分类,采集各层次中不同节点的内容进行标注,再对每个节点使用相同分类器进行训练,之后新获取的新闻数据,使用分类器对其进行划分。该方案存在以下不足:即使单一垂直领域,同一层次内新闻仍有不同的特点,针对不同节点使用相同分类器进行训练,忽略了不同新闻内容间的差异性,各节点间只是参数不同,当节点过多时容易误分,很难获得高准确率的结果。
技术实现思路
针对现有技术之不足,本专利技术提出一种基于层次化分类体系的情感判别和重要性划分方法,其包括:S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示,出现频率/概率高的细分领域被划分为内节点和基类,每层包含一个“其他”节点,归类出现频率低的细分领域;S3)针对每层中的内节点和基类,选取一定量的新闻数据,由专业人员进行人工标注,其中数据量的选取应满足节点分类器的训练要求;S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率,每个节点设置一个门限值Pmin;S5)对于新采集到的新闻数据,使用S4中建立的分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,从而使得新闻数据被归类到内节点或基类;S6)将新闻数据归类到节点后,计算并确定其情感和重要性标签。根据一个优选实施方式,在S4中,所分类器采用的分类算法包括:支持向量机、贝叶斯模型、决策树和神经网络算法。根据一个优选实施方式,在S5中,根据NaiveBayes分类方法计算新闻数据属于某节点的概率:其中,di表示任意新闻数据,cj表示某节点;对di进行分类,就是将di放入概率值最大的节点,即:本专利技术具有以下有益效果:本专利技术设计了一种在垂直领域中,基于层次化分类体系的情感判别和重要性划分方法。该方法首先将垂直领域进行分层处理,层次结构中每一个内节点处都有一个分类器,该分类器通过对节点处的样本子集使用Bayes方法进行训练得到,最后使用这些分类器将大量未标注的待分类新闻数据分到每个层次结构的节点当中。之后对节点中的新闻数据,针对该节点主题进行情感和重要性分类,得到最终的分类标签。该方法可以有效提高情感和重要性分类的准确率,处理更有针对性,克服了对传统垂直领域新闻数据处理的弊端。同时,通过层次体系分类,提高了标注数据的精确度,提升了训练的效率。而且该方法的层次化分类思想,可以根据不同垂直领域内新闻数据的特点,使用多种算法来实现,有良好的适应性和可移植性。附图说明图1是本专利技术的方法流程图;图2是垂直领域层次化分类的示意图;图3是不同节点使用多种方法训练的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。如图1所示,本专利技术的基于层次化分类体系的情感判别和重要性划分方法包括:步骤1:采集某垂直领域的大量新闻数据,内容尽可能多样化。步骤2:分析垂直领域,根据层次化分类的思想,可借助参考信息(包括但不限于百度指数等),对该领域进行层次化划分。划分后垂直领域可由树状图表示,出现频率/概率高的细分领域被划分为内节点(可再分)和基类(叶节点,不可再分),每层包含一个“其他”节点,归类出现频率低的细分领域。步骤3:针对每层中的内节点和基类,选取一定量的新闻数据,由专业人员进行人工标注,数据量的选取应满足节点分类器的训练要求。步骤4:对于每个内节点和基类,使用步骤3中标注好的训练数据建立分类器,分类器可根据该垂直领域的新闻特点选择,包括支持向量机、贝叶斯模型、决策树、神经网络等,此处不加以限制。分类器输出新进新闻属于该节点的概率,每个节点也要设置一个门限值Pmin,概率超过门限值时,不再继续向下判断。步骤5:对于新采集到的新闻数据,使用步骤4中分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,所以新闻数据会被归类到内节点或基类。假设di为任意新闻数据,计算其属于所有节点中某节点cj的概率,则根据NaiveBayes分类方法有:对di进行分类,就是将di放入概率值最大的节点,即:步骤6:将新闻数据归类到节点后,使用与当前节点主题相关性强的情感词对新闻数据进行处理,根据匹配到的情感词的情感倾向及词频,确定该新闻数据的情感和重要性标签。如图2所示,C1,C2,C3是对垂直领域的第一层分类,可看作是相对于根节点的三个基类,然后将层次分类问题逐层转化为一个个局部分类问题,在类树的每一个内部节点分本文档来自技高网
...

【技术保护点】
1.一种基于层次化分类体系的情感判别和重要性划分方法,其特征在于,其包括:S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示,出现频率/概率高的细分领域被划分为内节点和基类,每层包含一个“其他”节点,归类出现频率低的细分领域;S3)针对每层中的内节点和基类,选取一定量的新闻数据,由专业人员进行人工标注,其中数据量的选取应满足节点分类器的训练要求;S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率,每个节点设置一个门限值Pmin;S5)对于新采集到的新闻数据,使用S4中建立的分类器计算其属于每个节点的概率,将其归类于概率最大或超过门限值的节点,从而使得新闻数据被归类到内节点或基类;S6)将新闻数据归类到节点后,计算并确定其情感和重要性标签。

【技术特征摘要】
1.一种基于层次化分类体系的情感判别和重要性划分方法,其特征在于,其包括:S1)采集垂直领域的大量新闻数据,其内容尽可能多样化;S2)分析垂直领域,根据层次化分类的思想对该领域进行层次化划分,划分后的垂直领域由树状图表示,出现频率/概率高的细分领域被划分为内节点和基类,每层包含一个“其他”节点,归类出现频率低的细分领域;S3)针对每层中的内节点和基类,选取一定量的新闻数据,由专业人员进行人工标注,其中数据量的选取应满足节点分类器的训练要求;S4)对于每个内节点和基类,使用S3中标注好的训练数据建立分类器,分类器输出新进新闻属于该节点的概率,每个节点设置一个...

【专利技术属性】
技术研发人员:冯翱徐天豪吴锡
申请(专利权)人:成都信息工程大学成都智睿通拓科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1