一种基于人工智能的多级文本多标签分类方法及系统技术方案

技术编号:18050118 阅读:40 留言:0更新日期:2018-05-26 08:07
本发明专利技术涉及一种基于人工智能的多级文本多标签分类方法及系统。该方法包括:1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。本发明专利技术只通过文档级的标注信息来推断组成文本的标签,可以很好的应用于组成文本标签难以收集的场景;相对于传统多示例学习方法,本发明专利技术引入最少假设,能够更好地拟合实际数据;本发明专利技术具有良好的可扩展性。

【技术实现步骤摘要】
一种基于人工智能的多级文本多标签分类方法及系统
本专利技术涉及人工智能、文本分类、内容可视化领域,尤其涉及一种基于人工智能的多级文本多标签分类方法及系统。
技术介绍
对文本内容的理解和分析是自然语言处理的研究目标。大部分文本内容以文档形式存在,每个文档对应一个文件,典型的文件格式包括TXT、HMTL、WORD、PDF等等。目前随着互联网以及移动互联网的蓬勃发展,待分析的文档数量急剧上升。如何对不同粒度文本(如句子、段落、文档)进行类别标记对信息发现、信息浏览和分析具有重要意义。比如大量电商网站提供用户评论的功能,如“这个榨汁机给宝宝做辅食特别细腻,速度非常快,好清洗,唯一的缺点是声音比想象中大”,这个评论虽然整体上属于正面情感,但是其中的细粒度句子(以逗号分隔的句子)既有正面情感也有负面情感,即“这个榨汁机给宝宝做辅食特别细腻”、“速度非常快”,“好清洗”是正面情感,“唯一的缺点是声音比想象中大”是负面情感。如何抽取评论中不同类别的代表子句对于进行产品分析具有重要价值。该问题可以看作是一个细粒度文本(子句)的分类问题。传统机器学习针对该问题有两种实现方法。一是收集各级别文本的类别标注信息,并学习相应分类模型;二是利用多示例学习(MIL,multi-instancelearning)方法,只需要文档级的类别信息。第一种方法面临的问题是细粒度文本的类别标注信息很少、收集成本高昂,大规模应用不现实;第二种方法面临的问题是传统多示例学习方法中的假设太强,不能很好的建模实际数据。
技术实现思路
针对上述不足,本专利技术提供一种基于人工智能的多级文本多标签分类方法及系统。该方法及系统能够在实际数据上进行建模,且能够对多级文本(如字、词、句子、段落、文档等)进行多标签分类。在本专利技术中,“文本”泛指文档内的字符串序列,其级别由低到高依次包括字、词、句子、段落、文档等,如句子的级别高于词,词的级别高于字;多级是指文本本身存在的多粒度组成关系,如词组成句子;多标签是指对于给定的文本,本专利技术既可以输入单个类别,也可以输入多个类别,从而满足对于文本分类的不同需求。本专利技术提供一种基于人工智能的多级文本多标签分类方法,主要包括以下步骤:1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;2)根据训练文本中已有的文本类别标注信息(即训练文本中正确的文本类别标注信息)与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。本专利技术的典型应用包括抽取文档中与类别相关的文本(如句子)以及对文档进行分类。本专利技术还提供一种基于人工智能的多级文本多标签分类系统,包括多级文本分类模块、模型学习模块和模型应用模块;所述多级文本分类模块用于利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;且所述多级文本分类模块包括加权组合模块、分类预测模块、序列编码模块;其中,所述分类预测模块又分为单标签分类模块和多标签分类模块,所述序列编码模块又分为序列到向量编码模块以及序列到序列编码模块。所述多级文本分类模块在构建多级文本多标签分类模型时包括4个步骤:(1)确定文本级别。文本的所有级别包括文档、段落(句子集合)、句子、词、字;构建的模型可以只对部分级别进行建模,至少设置的级别包括文档级别、要预测类别的文本级别、词级别(或者字级别),也可以将其他级别加入。(2)确定文本的构建假设。构建假设包括加权组合假设以及序列编码假设,其中,文档级别的构建使用加权组合假设;要预测类别的文本级别向上的相邻文本级别的构建使用加权组合假设;要预测类别的文本级别的构建既可以使用加权组合假设,也可以使用序列编码假设。(3)将构建假设转换为构建模块。加权组合假设对应加权组合模块,序列编码假设对应序列编码模块。(4)添加分类预测模块。根据训练集中标签所在的文本级别,为对应文本添加分类预测模块,用于预测给定文本的类别。所述加权组合模块用于生成文本在指定类别下的向量表示,即“文本-类别”对的向量表示,输入为文本及类别。具体做法是:(1)将文本拆分为低级别“构成文本”,使用构成文本序列对应的“构成文本-类别”向量序列以及类别向量作为输入;(2)人工加入至少1个“填充文本”并计算“填充文本-类别”向量序列;(3)利用神经网络的关注机理(attentionmechanisum),分别计算“构成文本-类别”权重以及“填充文本-类别”权重;(4)将相关的“构成文本-类别”向量和“填充文本-类别”向量进行加权相加,再经过非线性转换,得到最后的输出即“文本-类别”向量。这里非线性转换是可选项。所述加权组合假设认为文本是由低级别“构成文本-类别”向量加权组合而成,不考虑“构成文本”的位置顺序。所述序列编码假设认为文本是由低级别“构成文本-类别”向量顺序编码而成,考虑输入的文本向量的位置顺序。所述加权组合模块的“构成文本-类别”向量序列,序列的每一个向量可以来自于另一个加权组合模块的输出或者序列到向量编码模块的输出,整个序列也可以直接是序列到序列编码模块的输出。所述加权组合模块的“填充文本”是人工加入的与加权组合模块中的低级别“构成文本”同级别的背景文本,“填充文本”可以使用文档集中出现最频繁的字词来构建。对于给定级别文本的加权组合模块,“填充文本”的数量与低级别“构成文本”的数量和要等于一个常数,目的是确保加权组合时操作的向量个数相同,比如计算句子级别文本表示,为每个句子填充词,填充后所有句子长度要相等。所述加权组合模块的“填充文本-类别”向量序列的计算基于填充文本,计算过程与“构成文本-类别”向量序列的计算过程完全一致。所述序列到向量编码模块是指将向量序列输入转换为单个向量,有2种实现方法:(a)使用神经网络中的CNN模型对输入的“文本-类别”向量序列进行编码生成输入的文本序列对应的“文本-类别”的向量表示,CNN模型可以考虑低级别文本的局部依赖关系。(b)使用神经网络中的LSTM模型(https://en.wikipedia.org/wiki/Long_short-term_memory)或者GRU模型(https://en.wikipedia.org/wiki/Gated_recurrent_unit)对输入的“文本-类别”向量序列进行编码生成输入的文本序列对应“文本-类别”的向量表示,LSTM(GRU)能够考虑低级别文本的长距离依赖;所述序列到序列编码模块是指将向量序列输入转换为等长的新向量序列输出,计算使用LSTM、GRU、Bi-LSTM或者Bi-GRU(https://en.wikipedia.org/wiki/Bidirectional_recurrent_neural_networks)中的一种对输入的“文本-类别”向量序列进行编码,顺序保留每个位置的输出向量构成向量序列输出。所述单标签分类模块用于预测给定文本的唯一类别标签,以给定文本在所有类别上的“文本-类别”向量作为输入,计算文本在每个类别的得分,并根据最高得分得到文本类别预测结果,其中“文本-类别”向量输入来自于多次加权组合模块的输出,每次计本文档来自技高网...
一种基于人工智能的多级文本多标签分类方法及系统

【技术保护点】
一种基于人工智能的多级文本多标签分类方法,其特征在于,包括以下步骤:1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。

【技术特征摘要】
1.一种基于人工智能的多级文本多标签分类方法,其特征在于,包括以下步骤:1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果,对多级文本多标签分类模型的参数进行学习,得到参数确定的多级文本多标签分类模型;3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。2.如权利要求1所述的方法,其特征在于,步骤1)所述构建多级文本多标签分类模型,包括以下步骤:1-1)确定文本级别,其为文档、段落、句子、词、字中的全部或部分级别;1-2)确定文本的构建假设,所述构建假设包括加权组合假设以及序列编码假设,其中,文档级别的构建使用加权组合假设,要预测类别的文本级别向上的相邻文本级别的构建使用加权组合假设,要预测类别的文本级别的构建使用加权组合假设或者序列编码假设;所述加权组合假设认为文本是由低级别“构成文本-类别”向量加权组合而成,不考虑“构成文本”的位置顺序;所述序列编码假设认为文本是由低级别“构成文本-类别”向量顺序编码而成,考虑输入的文本向量的位置顺序;1-3)将构建假设转换为构建模块,其中,加权组合假设对应加权组合模块,序列编码假设对应序列编码模块;1-4)根据训练集中标签所在的文本级别,为对应文本添加分类预测模块。3.如权利要求2所述的方法,其特征在于,所述加权组合模块用于生成文本在指定类别下的向量表示,即“文本-类别”对的向量表示,包括以下步骤:(1)将文本拆分为低级别“构成文本”,使用构成文本序列对应的“构成文本-类别”向量序列以及类别向量作为输入;(2)人工加入至少1个“填充文本”并计算“填充文本-类别”向量序列;(3)利用神经网络的关注机理,分别计算“构成文本-类别”权重以及“填充文本-类别”权重;(4)将相关的“构成文本-类别”向量和“填充文本-类别”向量进行加权相加,得到最后的输出即“文本-类别”向量。4.如权利要求2所述的方法,其特征在于,所述序列编码模块包括序列到向量编码模块以及序列到序列编码模块;所述序列到向量编码模块将向量序列输入转换为单个向量;所述序列到序列编码模块将向量序列输入转换为等长的新向量序列输出。5.如权利要求4所述的方法,其特征在于,所述序列到向量编码模块采用CNN模型或者LSTM模型,对输入的“文本-类别”向量序列进行编码,...

【专利技术属性】
技术研发人员:李鹏王斌郭莉梅钰
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1