一种问题分类方法及系统技术方案

技术编号：12297577 阅读：59 留言：0更新日期：2015-11-11 08:53

本发明专利技术公开了一种问题分类方法及系统，包括：获取第一预设量的第一训练文本和第二预设量的第二训练文本，第一训练文本已提供问题类型，第二训练文本未提供问题类型；利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型；确定第一训练文本和第二训练文本为训练文本，将训练文本进行分词处理，得到分别与每个训练文本对应的训练词组；利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器；利用最大熵分类器对待测词组进行分类，得到与待测词组对应的待测文本的问题类型。由此，不需确定大量训练文本的问题类型，无需耗费大量人力，且对待测词组进行分类得到的结果准确率较高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理
，更具体地说，涉及一种问题分类方法及系统。
技术介绍
自动问答技术是自然语言处理
中一个非常热门的研究方向，在自动问答技术中，问题分类是最重要的方面之一。问题分类是将文本分为该主题和非该主题的文本的任务，例如，将文本分为电脑类，如"我的电脑不能创建文件夹"，和非电脑类，如"梵高画过的黄房子现在还有吗";等。现有的问题分类方法通常是基于统计模型的方法，这类方法对领域的限定性较低，可扩展性较好。但是，现有的问题分类方法通常需要利用大量已确定其问题类型的样本进行机器学习，而确定大量样本的问题类型通常是由人工完成的，因此需要耗费大量的人力。综上所述，现有技术中的问题分类方法存在需要耗费大量的人力的问题。
技术实现思路
本专利技术的目的是提供一种问题分类方法及系统，以解决现有技术中存在的需要耗费大量的人力的问题。为了实现上述目的，本专利技术提供如下技术方案：一种问题分类方法，包括：获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型；利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法确定每个所述第二训练文本的问题类型；确定所述第一训练文本和所述第二训练文本为训练文本，将所述训练文本进行分词处理，得到分别与每个所述训练文本对应的训练词组；利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器；利用所述最大熵分类器对待测词组进行分类，得到与所述待测词组对应的待测文...

【技术保护点】
一种问题分类方法，其特征在于，包括：获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型；利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法确定每个所述第二训练文本的问题类型；确定所述第一训练文本和所述第二训练文本为训练文本，将所述训练文本进行分词处理，得到分别与每个所述训练文本对应的训练词组；利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器；利用所述最大熵分类器对待测词组进行分类，得到与所述待测词组对应的待测文本的问题类型。

【技术特征摘要】

【专利技术属性】
技术研发人员：李寿山，张栋，周国栋，
申请(专利权)人：苏州大学张家港工业技术研究院，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人