一种问题分类方法及装置制造方法及图纸

技术编号:12585482 阅读:88 留言:0更新日期:2015-12-24 01:59
本发明专利技术公开了一种问题分类方法及装置,该方法包括:将待分类问题输入至预先建立的分类器中,所述分类器为对多组已知类别的训练样本集进行训练得到的,包括主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率;通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别以及客观类别的条件概率;分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率;将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别。本发明专利技术所提供的问题分类方法及装置,能够实现对输入的问题的主客观类别分类,具有较高的分类准确率。

【技术实现步骤摘要】

本专利技术设及自然语言处理及模式识别
,特别是设及一种问题分类方法及 装置。
技术介绍
自动问答技术是自然语言处理领域中一个非常热口的研究方向,一般包括=个主 要组成部分:问题分类、信息检索和答案抽取。 在问答系统中,问题分类作为其第一个重要模块主要有两个作用,第一,问题分类 能有效地减少候选答案的空间,提高系统返回答案的准确率。第二,问题分类提供的答案类 型信息,决定了答案抽取策略。 问题分类可W看作一种特殊的文本分类,然而,问题分类与文本分类存在巨大的 差别。例如,文本分类需要将一些无实际贡献的词("什么""是"等)作为停用词过滤,而 对于问题分类运些词则不能去掉,因为运些词正是区分问题类别的关键。再比如在文本分 类中词频信息对于区分文本中每个词汇的贡献程度很大,但在问题分类中词频信息不具明 显区分作用,因为问题通常比较短,问题中每个词汇的词频普遍为1。与文本相比,问题所包 含的词汇信息较少,运就需要我们加入对问题的情感分析W及更多的辅助特征,运样才能 获得较高的分类精度。[000引传统的问答分类基本都是针对问题的主题相关提问类型(例如:"why","what"类 型)进行分类,然而,实际应用中,用户会提出许多情感或者事实相关的问题,即主观或者 客观的问题。回答运些问题仅仅检索句中的主题词还远远不够,还需要对运些主题词的评 论文本进行情感分析,即对问题进行主客观分类。 主客观分类(Subjective/ObjectiveClassification)是将文本分为主观性文 本或者客观性文本的任务。所谓主观性文本是指对于非事实进行描述的文本,在文本中会 带有发表者的个人情感倾向。所谓客观性文本是指作者对于事件、对象等进行基于事实的 描述,不带有个人的好恶和偏见。例如:"淘宝从什么时候开的? 2003年5月10日投资创 立",运句话就是客观句;"送怀孕班主任什么礼物好?送康乃馨吧"为主观句。 对问题进行主客观分类,能够更好的帮助我们分析目前的浩滿文本信息中的主客 观信息,并有助于进一步的处理情感分析任务,例如情感倾向性分类。因此,对问题进行主 客观分类技术的研究具有重要的实用价值和理论意义。
技术实现思路
[000引本专利技术的目的是提供一种问题分类方法及装置,目的在于解决现有技术中不能对 问题进行主客观分类的问题。 为解决上述技术问题,本专利技术提供一种问题分类方法,包括: 将待分类问题输入至预先建立的分类器中,所述分类器为对多组已知类别的训练 样本集进行训练得到的,包括主观类别、客观类别分别在所述训练样本集中出现的概率W 及每个特征属性对主观类别、客观类别的条件概率; 通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别W及客观 类别的条件概率; 分别计算所述待分类问题属于主观类别的第一后验概率W及属于客观类别的第 二后验概率; 将所述第一后验概率W及第二后验概率中较大值对应的类别作为所述待分类问 题所属的类别。 可选地,所述分别计算所述待分类问题属于主观类别的第一后验概率W及属于客 观类别的第二后验概率包括: 分别计算主观类别在所述训练样本集中出现的概率与所述待分类问题对对应类 别的条件概率的第一乘积,W及客观类别在所述训练样本集中出现的概率与所述待分类问 题对客观类别的条件概率的第二乘积; 所述将所述第一后验概率W及第二后验概率中较大值对应的类别作为所述待分 类问题所属的类别包括: 将所述第一乘积W及第二乘积中较大值对应的类别作为所述待分类问题所属的 类别。 可选地,所述特征属性为问题中的一元词特征或一元与二元的组合特征。 可选地,预先建立所述分类器包括步骤: 抓取多个问题; 通过人工标注的方法对所抓取语料进行主客观类别的标注,作为训练样本集; 计算主观类别、客观类别分别在所述训练样本集中出现的概率W及每个特征属性 对主观类别、客观类别的条件概率。 可选地,所述抓取多个问题之后还包括: 将抓取到的问题进行过滤后,作为抓取语料。本专利技术还提供了一种问题分类装置,包括: 输入模块,用于将待分类问题输入至预先建立的分类器中,所述分类器为对多组 已知类别的训练样本集进行训练得到的,包括主观类别、客观类别分别在所述训练样本集 中出现的概率W及每个特征属性对主观类别、客观类别的条件概率; 确定模块,用于通过所述分类器分别确定所述待分类问题的每个特征属性对主观 类别W及客观类别的条件概率; 计算模块,用于分别计算所述待分类问题属于主观类别的第一后验概率W及属于 客观类别的第二后验概率; 分类模块,用于将所述第一后验概率W及第二后验概率中较大值对应的类别作为 所述待分类问题所属的类别。 可选地,所述计算模块用于分别计算所述待分类问题属于主观类别的第一后验概 率W及属于客观类别的第二后验概率包括: 所述计算模块具体用于分别计算主观类别在所述训练样本集中出现的概率与所 述待分类问题对对应类别的条件概率的第一乘积,W及客观类别在所述训练样本集中出现 的概率与所述待分类问题对客观类别的条件概率的第二乘积;所述分类模块用于将所述第一后验概率W及第二后验概率中较大值对应的类别 作为所述待分类问题所属的类别包括:所述分类模块具体用于将所述第一乘积W及第二乘积中较大值对应的类别作为 所述待分类问题所属的类别。本专利技术所提供的问题分类方法及装置,通过将待分类问题输入至预先建立的分类 器中,确定得到待分类问题的每个特征属性对主观类别W及客观类别的条件概率;然后分 别计算待分类问题属于主观类别的第一后验概率W及属于客观类别的第二后验概率;将所 述第一后验概率W及第二后验概率中较大值对应的类别作为待分类问题所属的类别。可 见,本专利技术所提供的问题分类方法及装置基于朴素贝叶斯分类器,能够实现对输入的问题 的主客观类别分类,具有较高的分类准确率。【附图说明】 图1为本专利技术所提供的问题分类方法的一种【具体实施方式】的方法流程图; 图2为本专利技术所提供的问题分类方法的另一种【具体实施方式】的方法流程图; 图3为本专利技术所提供的问题分类装置的一种【具体实施方式】的结构框图。【具体实施方式】传统的问题分类,基本都是针对问题的主题相关提问类型(例如:"why","what"等类型)进行分类。然而,实际应用中,用户会提出许多情感或者事实相关的问题。例如, 考虑W下四个问题: 例1:怎么修理台灯?(主题问题) W40] 例2 :白酒泡鸡蛋可W美白,鸡蛋需要去壳浸泡吗?(主题问题) 例3 :御宝珍羊牌奶粉质量好不好?(主观问题)[00创例4:毛毯什么牌子好啊?(主观问题)运四个例子中,例1和例2都是传统的主题问题,回答此类问题可W利用信息检索 技术帮助捜素句子中的主题词进行自动答案回复。然而,当前第1页1 2 3 本文档来自技高网
...

【技术保护点】
一种问题分类方法,其特征在于,包括:将待分类问题输入至预先建立的分类器中,所述分类器为对多组已知类别的训练样本集进行训练得到的,包括主观类别、客观类别分别在所述训练样本集中出现的概率以及每个特征属性对主观类别、客观类别的条件概率;通过所述分类器分别确定所述待分类问题的每个特征属性对主观类别以及客观类别的条件概率;分别计算所述待分类问题属于主观类别的第一后验概率以及属于客观类别的第二后验概率;将所述第一后验概率以及第二后验概率中较大值对应的类别作为所述待分类问题所属的类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:李寿山张栋周国栋
申请(专利权)人:苏州大学张家港工业技术研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1