当前位置: 首页 > 专利查询>陈件专利>正文

一种多语句对文本语料分类方法和分类器技术

技术编号:17667601 阅读:50 留言:0更新日期:2018-04-11 05:55
本发明专利技术公开了一种多语句对文本语料分类方法和分类器,该分类方法包括:输入待预测数据,进行语种分离;将每个语种对应的词语随机打乱;将每个语种随机打乱后的词语载入对应语种的卷积神经网络模型,并进行预测得到预测结果;将多个语种对应的预测结果进行交互验证;根据交互验证结果输出最终判断结果。本发明专利技术的分类方法可以提高分类精度。

A multi sentence text categorization method and classifier

The invention discloses a multistatement of text corpus classification method and classification, including the classification method: input forecast data, language separation; each language corresponding words randomly; convolutional neural network model of each language randomly after the words load the corresponding languages, and will forecast; the prediction results are corresponding with multilingual cross validation; according to the cross validation results output the final judgment result. The classification method of the invention can improve the classification precision.

【技术实现步骤摘要】
一种多语句对文本语料分类方法和分类器
本专利技术涉及信息
,特别是涉及一种多语句对文本语料分类方法和分类器。
技术介绍
文本语料库也是以电子计算机为载体承载语言知识的基础资源,完整的口语语料库用于语言模型构建、词典编纂以及文本分类等,文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。但是目前的分类方法难以达到准确分类的目的,现有的一些平台上存在有大量的双语句对,大部分的句对没有被标注类别,其余的句对即使被标注了类别,准确标注的句对也只占相当少的部分,然而,对应的,在平台上的语料检索、内容分发和路由等方面都依赖于准确的语料类别标注,为了能够更好的发挥各种语料平台的作用,提供一种实用的并且分类精度高的分类方法是很有必要的。应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提供了一种提高分类精度的多语句对文本语料分类方法和分类器。为实现上述目的,本专利技术提供了一种多语句对文本语料分类方法,包括:输入待预测数据,进行语种分离;将每个语种对应的词语随机打乱;将每个语种随机打乱后的词语载入对应语种的卷积神经网络模型,并进行预测得到预测结果;将多个语种对应的预测结果进行交互验证;根据交互验证结果输出最终判断结果。进一步的,所述将每个语种对应的词语随机打乱的步骤之后,将每个语种随机打乱后的词语载入对应语种的卷积神经网络模型,并进行预测得到预测结果的步骤之前还包括:判断所述随机打乱次数是否达到预设次数,是则分次将所述预测结果对应交互验证得到预设次数的综合预测标签;所述最终判断结果是根据所述预设次数的综合预测标签判断得到的。本实施方案中,由于进行卷积神经网络模型训练,要求输入的向量尺寸相同,因而我们需要对一些长句子进行截短操作,这有可能导致语句信息的丢失;因而,重读打乱的次数至少为两次,该预设次数可以根据语种的种类、待预测数据的复杂程度等进行对应设置,多次重复打乱,然后再进行截短操作,以及后续的流程,可以避免截短操作使得语句关键信息丢失,同时,又可以将不好的、分类不明确、不利于训练的句对进行筛除;另外,最终的判断结果则是基于随机打乱多次的文本进行分别预测的,如果多次预测结果相同,自然可以认为该预测结果的准确度较高;再者,若是多次预测结果差异度大于预设值,可以将其分类至无法准确分类类别或者不清楚类别等;其中,该预设次数根据具体情况,使得训练出来的结果能够符合分类器的精度要求即可。进一步的,所述预设次数为5。本实施方案中,预设次数可以根据情况改变,例如,当待预测数据为中英双语时,可以大概将预设次数设置为5次。进一步的,所述语种包括中文语种和英文语种,所述卷积神经网络模型包括中文卷积神经网络模型和英文卷积神经网络模型。本实施例中,语种包括中文语种和英文语种,对应预先训练有中文卷积神经网络模型和英文卷积神经网络模型,在预测时,分别通过两者进行预测,并将两个分类器进行并联,进而交互验证,可以提高分类精度。进一步的,所述输入待预测数据,进行语种分离的步骤之后,所述将每个语种对应的词语随机打乱的步骤之前还包括:对分离得到的中文语种词语先进行中文分词处理,然后进行中文停止词过滤处理;同时,对分离得到的英文语种词语先进行英文空格分词,然后进行英文停止词过滤。本实施方案中,无论是文本向量化,还是停止词过滤等基于词语的文本操作,都需要先对文本进行分词,具体可以借助适用的分词器等进行分词;其中,停止词指的是那些使用频率过高、对语句信息贡献很小的词,这些词对我们的分类任务几乎没有帮助,而且会稀释别的具有区分性的词,因此在训练之前要将这些词过滤掉;具体的,可以将停止词数据库放到集合类型内,并借助适用的过滤方法对文本进行停止词过滤。进一步的,所述卷积神经网络模型是对样本预处理,通过卷积神经网络训练得到的。本实施方案中,该卷积神经网络模型预先根据样本预处理,通过卷积神经网络训练得到的,具体的,在适用平台等使用卷积神经网络模型的过程中,也可以将部分信息进行保存,以便对卷积神经网络模型进行优化;具体的,输入CNN的是尺寸可以为50*单位字典尺寸的二维向量,因为字典尺寸很大,所以这些二维向量的尺寸也很大,并且十分稀疏(含有大量的0),CNN不善于处理如此高维而且稀疏的向量,因此需要嵌入层把这些向量降维到50*200或者其他合适的尺寸(根据实际计算能力选择),再输入第二层训练更加高级的特征;这一层的作用就相当于一次预训练,其实已经提取出了初级的文本特征;另外,模型训练完成之后,我们进一步在新的样本上进行测试,发现很多样本的预测结果不符合常识判断,而这些样本实际上不属于任何一个已知的类别,我们要将这些样本剔除,于是考虑新增一个不清楚类别,专门用于接纳那些不属于任何一个已知类别的样本,这些样本由于不属于任何一个类别,我们推测这样的样本输入CNN网络后,输出的概率分布的标准差应该是相对较小的,通过实验,确认上述假设,并确定了一个标准差的阈值(0.05),将一些无分类样本分到了不清楚类别,提高了分类结果地可靠性。进一步的,卷积神经网络模型的训练步骤包括:对原始文本进行中英文分离操作;对分离操作得到的中文词语先进行中文分词处理,然后进行中文停止词过滤处理;同时,对分离得到的英文词语先进行英文空格分词处理,然后进行英文停止词过滤处理;基于术语词典从过滤处理得到的中文词语和英文词语中选择出高质量样本;使用卷积神经网络训练高质量样本得到中文卷积神经网络模型和英文卷积神经网络模型。本实施方案中,因为术语数据本身粒度太大,因此对术语进行分词操作,把术语拆解成粒度最小的词语,并生成词典(例如,利用Gensim库),再把样本数据投影到术语词典上,每个句子生成对应的一个由形式为(“一个词语”,出现频数)的二元组组成的向量。对向量中的二元组的第二维进行求和,以求得整个句子包含的术语(词汇)的个数,在这个基础之上,再求出术语(词汇)占句子总词数的比例,以此作为判断句子属于这个类别的程度;具体的,例如,搜狗细胞词库/tmxmall平台上有质量非常好的术语数据,利用这些术语数据可以从原始样本中选出质量相对较高的样本;对于一段语料(假设被标注为:医药),利用医药术语数据,我们可以统计出这段语料中出现的医药术语的频数,以及医药术语占这段语料总词数的百分比,综合这两个指标,我们可以判断出这段语料确实是属于“医药”的程度,通过实验测试出合理的阈值(每个类别都需要单独测试),从而选择出高质量的语料数据。进一步的,在使用卷积神经网络训练高质量样本之前,需要先将所述高质量样本向量化处理形成长度相同的向量。本实施例,向量化不仅在训练阶段要进行,在预测阶段也要进行;必须把长度各异的文本处理成长度相同的向量才能够输入卷积神经网络(CNN)进行训练;具体的,由于语本文档来自技高网...
一种多语句对文本语料分类方法和分类器

【技术保护点】
一种多语句对文本语料分类方法,其特征在于,包括:输入待预测数据,进行语种分离;将每个语种对应的词语随机打乱;将每个语种随机打乱后的词语载入对应语种的卷积神经网络模型,并进行预测得到预测结果;将多个语种对应的预测结果进行交互验证;根据交互验证结果输出最终判断结果。

【技术特征摘要】
1.一种多语句对文本语料分类方法,其特征在于,包括:输入待预测数据,进行语种分离;将每个语种对应的词语随机打乱;将每个语种随机打乱后的词语载入对应语种的卷积神经网络模型,并进行预测得到预测结果;将多个语种对应的预测结果进行交互验证;根据交互验证结果输出最终判断结果。2.如权利要求1所述的一种多语句对文本语料分类方法,其特征在于,所述将每个语种对应的词语随机打乱的步骤之后,将每个语种随机打乱后的词语载入对应语种的卷积神经网络模型,并进行预测得到预测结果的步骤之前还包括:判断所述随机打乱次数是否达到预设次数,是则分次将所述预测结果对应交互验证得到预设次数的综合预测标签;所述最终判断结果是根据所述预设次数的综合预测标签判断得到的。3.如权利要求2所述的所述的一种多语句对文本语料分类方法,其特征在于,所述预设次数为5。4.如权利要求1所述的所述的一种多语句对文本语料分类方法,其特征在于,所述语种包括中文语种和英文语种,所述卷积神经网络模型包括中文卷积神经网络模型和英文卷积神经网络模型。5.如权利要求4所述的所述的一种多语句对文本语料分类方法,其特征在于,所述输入待预测数据,进行语种分离的步骤之后,所述将每个语种对应的词语随机打乱的步骤之前还包括:对分离得到的中文语种词语先进行中文分词处理,然后进行中文停止词过滤处理;同时,对分离得到的英文语种词语先进行英文空格分词,然后进行英文停止词过滤。6.如权利要求1所述的所述的一种多语句对文本语...

【专利技术属性】
技术研发人员:陈件张井
申请(专利权)人:陈件张井
类型:发明
国别省市:上海,31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1