【技术实现步骤摘要】
一种分类语料确定方法和设备
本专利技术涉及互联网技术应用领域,尤其涉及一种分类语料确定方法和设备。
技术介绍
文本自动分类是指用计算机程序对文本集(或其他数据)按照一定的分类体系或标准进行自动分类标记。为了使计算机程序能对文本集进行自动分类标记,需要使用大量分类语料对其进行训练;其中,该分类语料是指大量具有类别标注信息的文本集合,上述计算机程序(如分类器)通过语料学习(训练)标注规则。现有技术中,获取分类语料的途径主要包括以下两种方式:(1)人工标注,即人工对大量的文本进行分类标注;(2)定向抓取,即通过自动爬虫等方式从互联网上已经分好类的数据中抓取;如,当需要影视类分类语料时,可以在互联网上的影视类网站数据库中抓取。专利技术人在实现本专利技术的过程中,发现现有技术至少存在以下缺陷:人工标注的方式需要花费大量的人力和时间,效率较低;定向抓取则无法保证分类语料的准确率,即无法保证从影视类网站数据库中获取到的文本集均为影视类的语料。
技术实现思路
本专利技术提供一种分类语料的确认方法和设备,以提高分类语料获取的效率和准确率。为了达到上述目的,本专利技术实施例提供一种分类语 ...
【技术保护点】
一种分类语料确定方法,其特征在于,包括:从数据库中获取预设数量的输入样本,组成输入样本集;其中,所述输入样本包含词条的词条名、分类信息以及相关词条信息;根据预设的种子词从所述输入样本集中获取特征样本,组成特征样本集;根据所述特征样本集确定分类特征词;根据所述分类特征词以及待选文本确定分类语料及其类别。
【技术特征摘要】
1.一种分类语料确定方法,其特征在于,包括:从数据库中获取预设数量的输入样本,组成输入样本集;其中,所述输入样本包含词条的词条名、分类信息以及相关词条信息;根据预设的种子词从所述输入样本集中获取特征样本,组成特征样本集,所述特征样本集中的特征样本包括所述预设的种子词;根据所述特征样本集确定分类特征词;根据所述分类特征词以及待选文本确定分类语料及其类别。2.如权利要求1所述的方法,其特征在于,所述根据预设的种子词从所述输入样本集中获取特征样本,具体通过以下流程实现:步骤A、从所述输入样本集中获取包含当前种子词的特征样本;步骤B、判断特征样本的数量是否超过第一阈值;若判断为是,则结束该流程;否则,转至步骤C;步骤C、获取所述特征样本中的词条和相关词条,并将所述获取到的词条和相关词条加入种子词,更新当前种子词;转至步骤A。3.如权利要求1所述的方法,其特征在于,所述根据所述特征样本集确定分类特征词,具体为:获取该特征样本集中的词条;确定该词条中各词条的权值;根据所述各词条的权值确定分类特征词。4.如权利要求3所述的方法,其特征在于,所述词条的权值为所述词条的区分度;所述确定该词条中各词条的权值,具体为:获取所述特征样本集中的相关词条;确定该相关词条中各相关词条的区分度;根据所述相关词条的区分度确定该词条中各词条的区分度;所述根据所述各词条的权值确定分类特征词,具体为:根据所述各词条的区分度确定分类特征词。5.如权利要求4所述的方法,其特征在于,所述该相关词条中各相关词条的区分度,具体为:所述相关词条中各相关词条在特征样本集中相关词条信息中出现的次数与该相关词条在输入样本集中出现的次数的比值;所述该词条中各词条的区分度,具体为:该词条所在特征样本中包含的相关词条的区分度的均值;所述根据所述各词条的区分度确定分类特征词,具体为:当所述词条的区分度超过第二阈值时,确定该词条为分类特征词。6.如权利要求3所述的方法,其特征在于,所述确定该词条中各词条的权值,具体为:根据预设参数确定各词条的权值;或,根据hits算法确定各词条的权值;其中,所述预设参数包括以下之一或任意组合:词条的点击量、好评数以及编辑次数;所述根据所述各词条的权值确定分类特征词,具体为:当所述词条的权值超过第三阈值时,确定该词条为分类特征词。7.如权利要求3所述的方法,其特征在于,所述根据所述分类特征词以及待选文本确定分类语料及其类别,具体为:对所述待选文本进行切词,并获取该待选文本中包含的分类特征词;根据获取到的分类特征词确定所述待选文本的权值;当所述待选文本的权值超过第四阈值时,确定所述待选文本为分类语料,并将所述预设的种子词所属的类别作为所述分类语料的类别。8.如权利要求7所述的方法,其特征在于,所述根据所述分类特征词以及获取到的特征词确定所述待选文本的权值,具体通过以下公式实现:其中,tf为所述待选文本中出现的分类特征词在该待选文本中的词频;所述n为分类特征词的个数;所述Qi为第i个分类特征词的权值;所述N为所述待选文本的字数。9.如权利要求7所述的方法,其特征在于,该方法还包括:将所述确定的分类语料分为多份;根据各份分类语料进行语料交叉验证,并确定最终的分类语料及其类别。10.如权利要求9所述的方法,其特征在于,所述根据各份分类语料进行语料交叉验证,具体通过以下流程实现:步骤A1、从所述各份分类语料中选择一份未被选择的分类语料作为测试数据;步骤B1、分别使用其余各份分类语料对所述测试数据的类别进行验证;步骤C1、统计验证正确的次数,并当其超过第五阈值时,确定所述测试数据为最终的分类语料;步骤D1、判断是否还存在未被选择的分类语料;若判断为是,则转至步骤A1;否则,结束该流程。11.一种分类语料确定设备,其特征在于,包括:第一获取...
【专利技术属性】
技术研发人员:贺翔,亓超,毛少林,翟俊杰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。