一种问题分类方法及系统技术方案

技术编号:12297577 阅读:59 留言:0更新日期:2015-11-11 08:53
本发明专利技术公开了一种问题分类方法及系统,包括:获取第一预设量的第一训练文本和第二预设量的第二训练文本,第一训练文本已提供问题类型,第二训练文本未提供问题类型;利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型;确定第一训练文本和第二训练文本为训练文本,将训练文本进行分词处理,得到分别与每个训练文本对应的训练词组;利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器;利用最大熵分类器对待测词组进行分类,得到与待测词组对应的待测文本的问题类型。由此,不需确定大量训练文本的问题类型,无需耗费大量人力,且对待测词组进行分类得到的结果准确率较高。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,更具体地说,涉及一种问题分类方法及系统
技术介绍
自动问答技术是自然语言处理
中一个非常热门的研究方向,在自动问答 技术中,问题分类是最重要的方面之一。 问题分类是将文本分为该主题和非该主题的文本的任务,例如,将文本分为电脑 类,如"我的电脑不能创建文件夹",和非电脑类,如"梵高画过的黄房子现在还有吗";等。 现有的问题分类方法通常是基于统计模型的方法,这类方法对领域的限定性较 低,可扩展性较好。但是,现有的问题分类方法通常需要利用大量已确定其问题类型的样本 进行机器学习,而确定大量样本的问题类型通常是由人工完成的,因此需要耗费大量的人 力。 综上所述,现有技术中的问题分类方法存在需要耗费大量的人力的问题。
技术实现思路
本专利技术的目的是提供一种问题分类方法及系统,以解决现有技术中存在的需要耗 费大量的人力的问题。 为了实现上述目的,本专利技术提供如下技术方案: 一种问题分类方法,包括: 获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第一训练文 本已提供其问题类型,所述第二训练文本未提供其问题类型; 利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法 确定每个所述第二训练文本的问题类型; 确定所述第一训练文本和所述第二训练文本为训练文本,将所述训练文本进行分 词处理,得到分别与每个所述训练文本对应的训练词组; 利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练 最大熵分类器; 利用所述最大熵分类器对待测词组进行分类,得到与所述待测词组对应的待测文 本的问题类型。 优选的,所述利用与每个所述训练文本对应的训练词组及每个所述训练文本的问 题类型训练最大熵分类器,包括: 按照TF-IDF向量法将所述训练词组转换成与每个所述训练文本对应的测试特征 向量; 利用每个所述训练文本的测试特征向量及每个所述训练文本的问题类型训练最 大熵分类器。 优选的,所述获取第一预设量的第一训练文本和第二预设量的第二训练文本,所 述第一训练文本已提供其问题类型,所述第二训练文本未提供其问题类型,包括: 获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第一训练文 本已提供其问题类型,所述第二训练文本未提供其问题类型;所述问题类型包括电脑类和 非电脑类,或者情感类和非情感类,或者运动类和非运动类,或者生活类和非生活类,或者 文化类和非文化类,或者健康类和非健康类。 优选的,所述获取第一预设量的第一训练文本和第二预设量的第二训练文本,包 括: 获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第二预设量 大于所述第一预设量。 优选的,所述获取第一预设量的第一训练文本和第二预设量的第二训练文本,包 括: 在特定的问答平台中,通过网络爬虫程序获取第一预设量的第一训练文本和第二 预设量的第二训练文本。 优选的,所述利用所述最大熵分类器对待测词组进行分类,得到与所述待测词组 对应的待测文本的问题类型,包括: 获取待测样本,将所述待测样本进行分词处理,得到待测词组;所述待测样本未提 供其问题类型; 按照TF-IDF向量法将所述待测词组转换成待测特征向量; 将所述待测特征向量作为最大熵分类器的输入,得到与所述待测特征向量对应的 测试结果; 根据所述测试结果确定所述待测文本的问题类型。 优选的,所述根据所述测试结果确定所述待测文本的问题类型,包括: 确定所述待测文本对应每个问题类型的概率; 确定所述概率中最大的概率对应的问题类型为待测文本的问题类型。 一种问题分类系统,包括: 获取模块,用于获取第一预设量的第一训练文本和第二预设量的第二训练文本, 所述第一训练文本已提供其问题类型,所述第二训练文本未提供其问题类型; 确定模块,用于利用所述第一训练文本及每个所述第一训练文本的问题类型通过 标签传播算法确定每个所述第二训练文本的问题类型; 分词模块,用于确定所述第一训练文本和所述第二训练文本为训练文本,将所述 训练文本进行分词处理,得到分别与每个所述训练文本对应的训练词组; 训练模块,用于利用与每个所述训练文本对应的训练词组及每个所述训练文本的 问题类型训练最大熵分类器; 分类模块,用于利用所述最大熵分类器对待测词组进行分类,得到与所述待测词 组对应的待测文本的问题类型。 本专利技术提供的一种问题分类方法及系统,包括:获取第一预设量的第一训练文本 和第二预设量的第二训练文本,第一训练文本已提供其问题类型,第二训练文本未提供其 问题类型;利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个 第二训练文本的问题类型;确定第一训练文本和第二训练文本为训练文本,将训练文本进 行分词处理,得到分别与每个训练文本对应的训练词组;利用与每个训练文本对应的训练 词组及每个训练文本的问题类型训练最大熵分类器;利用最大熵分类器对待测词组进行分 类,得到与待测词组对应的待测文本的问题类型。与现有技术相比,本申请中利用已提供其 问题类型的第一训练文本去获取未提供其问题类型的第二训练文本的问题类型,然后利用 第一训练文本和第二训练文本训练最大熵分类器,由此,不需对大量训练文本的问题类型 进行确定,而是利用少量已确定问题类型的训练文本去获取其他训练文本的问题类型,无 需耗费大量人力,且实验证明,本专利技术实施例提供的一种问题分类方法对待测词组进行分 类得到的结果准确率较高。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。 图1为本专利技术实施例提供的一种问题分类方法的流程图; 图2为本专利技术实施例提供的一种问题分类方法中利用最大熵分类器对待测词组 进行分类,得到与待测词组对应的待测文本的问题类型的流程图; 图3为本专利技术实施例提供的一种问题分类系统的结构示意图。【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 请参阅图1,其示出了本专利技术实施例提供的一种问题分类方法的流程图,可以包括 以下步骤: Sll :获取第一预设量的第一训练文本和第二预设量的第二训练文本,第一训练文 本已提供其问题类型,第二训练文本未提供其问题类型。 其中,第一预设量和第二预设量可以根据实际需要进行确定。 S12:利用第一训练当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种问题分类方法,其特征在于,包括:获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第一训练文本已提供其问题类型,所述第二训练文本未提供其问题类型;利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法确定每个所述第二训练文本的问题类型;确定所述第一训练文本和所述第二训练文本为训练文本,将所述训练文本进行分词处理,得到分别与每个所述训练文本对应的训练词组;利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器;利用所述最大熵分类器对待测词组进行分类,得到与所述待测词组对应的待测文本的问题类型。

【技术特征摘要】

【专利技术属性】
技术研发人员:李寿山张栋周国栋
申请(专利权)人:苏州大学张家港工业技术研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1