一种情感与非情感问题的分类方法及系统技术方案

技术编号:12617390 阅读:62 留言:0更新日期:2015-12-30 14:28
本发明专利技术公开了一种情感与非情感问题的分类方法及系统,该方法包括:抓取作为训练样本的问题语料;参考预设的情感类问题分类规则,对作为训练样本的问题语料进行类别标签标注;利用标注后的作为训练样本的问题语料,构建情感问题分类器;向构建得到的情感问题分类器输入作为测试样本的问题语料,并利用情感问题分类器输出的类别标签,确认作为测试样本的问题语料的情感类别。以上技术方案能够对自动问答系统中问题语料的情感与非情感问题进行分类,达到了自动问答系统能够更好、更准确地对问题进行回答的目的。

【技术实现步骤摘要】

本专利技术涉及自然语言分类处理
,特别是涉及一种情感与非情感问题的分 类方法及系统。
技术介绍
通常地,利用传统的搜索引擎,可以从互联网上浏览和检索到我们所需要的信息, 为我们的生活带来很大的便利。但是,由于它们查询的基础是关键词,并非我们常用的自然 语言,搜索引擎仅仅缩小了用户的查找范围,却很少能直接给出用户想要的答案,用户必须 自己从海量相关信息中寻找答案。伴随着语音信息处理技术不断发展和优化,自动问答系 统应运而生,此类系统能够获得比信息检索更精确的信息。 自动问答系统是通过理解用户以自然语言方式提出的问题,经过信息检索后,返 回给用户一个准确、简洁的答案的系统。自动问答系统主要分为三个模块:问题分析模块, 信息检索模块和答案抽取模块。其中,问题分析模块中最主要的任务就是问题分类,问题分 类对答案抽取的具体策略起到决定性作用,其目的在于根据问答的问题类型给问题贴上标 签,从而可以有效、快速地抽取出准确的答案。 传统的问题分类方法中,基本都是针对问题的主题相关提问类型(例如:"why", "what"等类型)进行分类。然而,实际应用中,用户的提问有各种各样的类型,用户会提出 许多情感相关的问题,因此还要考虑问题本身是否包含情感词、包含什么样的情感词,这样 才能更好地帮助选择答案抽取的策略。例如,考虑以下四个问题语料: 例1、怎么修理台灯? 例2、白酒泡鸡蛋可以美白,鸡蛋需要去壳浸泡吗? 例3、御宝珍羊牌奶粉质量好不好? 例4、毛毯什么牌子好啊? 上述四个例子中,例1和例2都是传统的主题问题,回答此类问题可以利用信息检 索技术搜索句子中的主题词进行自动答案回复。然而,例3、例4是典型的情感问题,回答 此类问题仅仅检索句中的主题词还远远不够,还需要对这些主题词的评论文本进行情感分 析,结合情感分析技术才能更好、更准确地实现自动问题回答。 基于此,亟需一种能够对自动问答系统中问题语料的情感与非情感问题进行分类 的方法,以更好、更准确地对问题进行回答。
技术实现思路
有鉴于此,本专利技术提供了一种情感与非情感问题的分类方法及系统,以达到使自 动问答系统能够更好、更准确地对问题进行回答的目的。 为解决上述技术问题,本专利技术提供一种情感与非情感问题的分类方法,包括: 抓取作为训练样本的问题语料; 参考预设的情感类问题分类规则,对所述作为训练样本的问题语料进行类别标签 标注; 利用标注后的作为训练样本的问题语料,构建情感问题分类器; 向构建得到的情感问题分类器输入作为测试样本的问题语料,并利用所述情感问 题分类器输出的类别标签,确认所述作为测试样本的问题语料的情感类别; 其中,所述类别标签包括情感类标签或非情感类标签。 优选的,利用标注后的作为训练样本的问题语料,构建基于字特征和/或词特征 的情感问题分类器。 优选的,利用爬虫程序在网络中抓取所述作为训练样本的问题语料。 优选的,利用SVM算法构建所述情感问题分类器。 优选的,在对所述作为训练样本的问题语料进行类别标签标注之后,还包括: 对标注后的作为训练样本的问题语料进行一致性分析。 本专利技术还提供了一种情感与非情感问题的分类系统,包括: 语料获取单元,用于抓取作为训练样本的问题语料; 标注单元,用于参考预设的情感类问题分类规则,对所述作为训练样本的问题语 料进行类别标签标注; 分类器构建单元,用于利用标注后的作为训练样本的问题语料,构建情感问题分 类器; 情感分类单元,用于向构建得到的情感问题分类器输入作为测试样本的问题语 料,并利用所述情感问题分类器输出的类别标签,确认所述作为测试样本的问题语料的情 感类别; 其中,所述类别标签包括情感类标签或非情感类标签。 以上本专利技术提供的情感与非情感问题的分类方法及系统中,对抓取到的作为训 练样本的问题语料进行类别标签标注,这样,标注后的作为训练样本的问题语料的情感类 型是已知的,可以利用标注后的作为训练样本的问题语料,训练分类器,构建情感问题分类 器;向构建得到的情感问题分类器输入作为测试样本的问题语料,当情感问题分类器输出 的类别标签为情感类标签时,认为测试样本为情感类问题,当输出的类别标签为非情感类 标签时,认为测试样本为非情感类问题。以上技术方案能够对自动问答系统中问题语料的 情感与非情感问题进行分类,达到了自动问答系统能够更好、更准确地对问题进行回答的 目的。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。 图1为本专利技术一种情感与非情感问题的分类方法实施例1的流程图; 图2为本专利技术一种情感与非情感问题的分类系统实施例1的结构框图示意图。【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 本专利技术的核心是提供一种情感与非情感问题的分类方法及系统,以达到使自动问 答系统能够更好、更准确地对问题进行回答的目的。 为了便于叙述,先将本专利技术涉及的常用的术语与标记介绍如下: 定义1 :问答系统(Q&ASystem):当下比较热门的系统,用户提出问题,能够很快 得到相关的答案。 定义2 :词特征(wordfeature):-元词特征,例如"秦羊奶粉怎么认真假"分词 成:"秦"、"羊"、"奶粉"、"怎么"、"认"、"真假"。 定义3 :字特征(characterfeature):-元字特征,例如:"白色情人节男生要什 么礼物? "分成:"白"、"色"、"情"、"人"、"节"、"男"、"生"、"要"、"什"、"么"、"礼"、"物"、"?"。 定义 4 :机器学习分类方法(ClassificationMethodsBasedonMachine Learning):用于构建分类器的统计学习方法,输入是表示样本的向量,输出是样本的类别 标签。根据学习算法的不同,常见的分类方法有朴素贝叶斯、最大熵分类方法、支持向量机 等分类方法,本专利技术采用支持向量机。 为了使本
的人员更好地理解本专利技术方案,下面结合附图和【具体实施方式】 对本专利技术作进一步的详细说明。 参考图1,示出了本专利技术一种情感与非情感问题的分类方法实施例1的流程图,该 方法具体可以包括如下步骤: 步骤S100、抓取作为训练样本的问题语料; 具体地,可以利用爬虫程序在网络中抓取一定数量的问题语料,然后将其作为训 练样本。比如,从通过网络爬虫程序抓取百度知道生活类别中高悬赏问题。 本专利技术中,先从网络中抓取适量的问题语料,将这些问题语料中的一部分作为训 练语料,剩下的部分作为测试样本。 步骤S101、参考预设的情感类问题分类规则,对所述作为训练样本的问题语料进 行类别标签标注; 实际应用中,普通的文本情感分类主要是正负极性的分类,是针对文本中的关键 词进行分类;而问题分类需要考虑用户的提问方式,用户本文档来自技高网
...

【技术保护点】
一种情感与非情感问题的分类方法,其特征在于,包括:抓取作为训练样本的问题语料;参考预设的情感类问题分类规则,对所述作为训练样本的问题语料进行类别标签标注;利用标注后的作为训练样本的问题语料,构建情感问题分类器;向构建得到的情感问题分类器输入作为测试样本的问题语料,并利用所述情感问题分类器输出的类别标签,确认所述作为测试样本的问题语料的情感类别;其中,所述类别标签包括情感类标签或非情感类标签。

【技术特征摘要】

【专利技术属性】
技术研发人员:李寿山张栋周国栋
申请(专利权)人:苏州大学张家港工业技术研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1