一种主观文本和客观文本分类方法及装置制造方法及图纸

技术编号：7021084 阅读：240 留言：0更新日期：2012-04-11 18:40

本发明专利技术实施例公开了一种主观文本和客观文本分类方法及装置，该发明专利技术对不平衡训练样本进行多次欠采样，并对欠采样后的训练集进行训练，从而构建出多个基分类器，进而利用基分类器对待分样本进行分类，最后将所有分类结果进行统计得到最终的分类结果。本发明专利技术实施例采用多次欠采样能够充分利用样本，训练欠采样训练集时使用不同的机器学习方法，构建出差异性大的基分类器。解决了样本不平衡给机器学习分类方法带来的不利影响，提高了分类效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理
及模式识别领域，尤其涉及一种主观文本和客观文本分类方法及装置。
技术介绍
主客观分类是将文本分为主观性文本或者客观性文本的任务。所谓主观性文本是指对于非事实进行描述的文本。在文本中会带有发表者的个人情感倾向。所谓客观性文本是指作者对于事件、对象等进行基于事实的描述，不带有个人的好恶和偏见。例如“我今天买了一台笔记本，机子超级漂亮，我非常喜欢”，这句话中的前半句“我今天买了一台笔记本”为一客观句而后半句“机子超级漂亮，我非常喜欢”为主观句。主客观分类任务就是要将文本分成主观和客观部分。该任务是自然语言处理技术中的一个基础任务，实现文本的主客观计算机自动分类能够更好的帮助我们分析目前的浩瀚文本信息中的主观信息，并能帮助其他进一步的情感分析任务，例如情感倾向性分类。同时，主客观分类方法涉及到模式识别中的很多基本问题，例如分类器设计问题，高维特征问题等等。因此，主客观分类技术的研究具有重要的实用价值和理论意义。目前，主流的主客观分类方法是基于机器学习的监督分类方法，该方法分为两个过程训练过程和分类过程。其中，在训练过程中，需要人工标注一定数目的主观性文章和客观性文章，然后使用这些标注样本和机器学习分类方法，如最大熵分类方法去训练出主客观分类器；在分类过程中，使用获得的分类器对未知样本进行分类获得主客观类别。但是，目前的方法一个重要的假设是训练数据是平衡的，即主观性文章和客观性文章数目相当。但是实际应用中，主客观文本的分布往往会非常不平衡。例如，观察豆瓣网上的大量的电影评论后，发现电影评论中客观的文本远远超过主观的文本，平均一篇文...

【技术保护点】
１．一种主观文本和客观文本分类方法，其特征在于，包括：对不平衡训练样本进行多次欠采样，每次得到对应的一组欠采样训练集；对每一组所述欠采样训练集任意选择一种机器学习分类方法进行训练，从而为每一组所述欠采样训练集构建一个对应的基分类器；使用每个所述基分类器对待分样本进行分类，分别得到对应的分类结果；将所有所述的分类结果进行统计，得到统计结果；使用所述统计结果判断待分样本的主客观类别。

【技术特征摘要】

【专利技术属性】
技术研发人员：李寿山，孔芳，周国栋，
申请(专利权)人：苏州大学，
类型：发明
国别省市：32

全部详细技术资料下载我是这个专利的主人