一种基于人工智能的多级文本多标签分类方法及系统技术方案

技术编号：18050118 阅读：40 留言：0更新日期：2018-05-26 08:07

本发明专利技术涉及一种基于人工智能的多级文本多标签分类方法及系统。该方法包括：1)利用神经网络构建多级文本多标签分类模型，并根据该模型得到训练文本的文本类别预测结果；2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果，对多级文本多标签分类模型的参数进行学习，得到参数确定的多级文本多标签分类模型；3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。本发明专利技术只通过文档级的标注信息来推断组成文本的标签，可以很好的应用于组成文本标签难以收集的场景；相对于传统多示例学习方法，本发明专利技术引入最少假设，能够更好地拟合实际数据；本发明专利技术具有良好的可扩展性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于人工智能的多级文本多标签分类方法及系统
本专利技术涉及人工智能、文本分类、内容可视化领域，尤其涉及一种基于人工智能的多级文本多标签分类方法及系统。
技术介绍
对文本内容的理解和分析是自然语言处理的研究目标。大部分文本内容以文档形式存在，每个文档对应一个文件，典型的文件格式包括TXT、HMTL、WORD、PDF等等。目前随着互联网以及移动互联网的蓬勃发展，待分析的文档数量急剧上升。如何对不同粒度文本(如句子、段落、文档)进行类别标记对信息发现、信息浏览和分析具有重要意义。比如大量电商网站提供用户评论的功能，如“这个榨汁机给宝宝做辅食特别细腻，速度非常快，好清洗，唯一的缺点是声音比想象中大”，这个评论虽然整体上属于正面情感，但是其中的细粒度句子(以逗号分隔的句子)既有正面情感也有负面情感，即“这个榨汁机给宝宝做辅食特别细腻”、“速度非常快”，“好清洗”是正面情感，“唯一的缺点是声音比想象中大”是负面情感。如何抽取评论中不同类别的代表子句对于进行产品分析具有重要价值。该问题可以看作是一个细粒度文本(子句)的分类问题。传统机器学习针对该问题有两种实现方法。一是收集各级别文本的类别标注信息，并学习相应分类模型；二是利用多示例学习(MIL，multi-instancelearning)方法，只需要文档级的类别信息。第一种方法面临的问题是细粒度文本的类别标注信息很少、收集成本高昂，大规模应用不现实；第二种方法面临的问题是传统多示例学习方法中的假设太强，不能很好的建模实际数据。
技术实现思路
针对上述不足，本专利技术提供一种基于人工智能的多级文本多标签分类方法及系统。...

【技术保护点】
一种基于人工智能的多级文本多标签分类方法，其特征在于，包括以下步骤：1)利用神经网络构建多级文本多标签分类模型，并根据该模型得到训练文本的文本类别预测结果；2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果，对多级文本多标签分类模型的参数进行学习，得到参数确定的多级文本多标签分类模型；3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。

【技术特征摘要】
1.一种基于人工智能的多级文本多标签分类方法，其特征在于，包括以下步骤：1)利用神经网络构建多级文本多标签分类模型，并根据该模型得到训练文本的文本类别预测结果；2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文本的文本类别预测结果，对多级文本多标签分类模型的参数进行学习，得到参数确定的多级文本多标签分类模型；3)利用参数确定的多级文本多标签分类模型对待分类文本进行分类。2.如权利要求1所述的方法，其特征在于，步骤1)所述构建多级文本多标签分类模型，包括以下步骤：1-1)确定文本级别，其为文档、段落、句子、词、字中的全部或部分级别；1-2)确定文本的构建假设，所述构建假设包括加权组合假设以及序列编码假设，其中，文档级别的构建使用加权组合假设，要预测类别的文本级别向上的相邻文本级别的构建使用加权组合假设，要预测类别的文本级别的构建使用加权组合假设或者序列编码假设；所述加权组合假设认为文本是由低级别“构成文本-类别”向量加权组合而成，不考虑“构成文本”的位置顺序；所述序列编码假设认为文本是由低级别“构成文本-类别”向量顺序编码而成，考虑输入的文本向量的位置顺序；1-3)将构建假设转换为构建模块，其中，加权组合假设对应加权组合模块，序列编码假设对应序列编码模块；1-4)根据训练集中标签所在的文本级别，为对应文本添加分类预测模块。3.如权利要求2所述的方法，其特征在于，所述加权组合模块用于生成文本在指定类别下的向量表示，即“文本-类别”对的向量表示，包括以下步骤：(1)将文本拆分为低级别“构成文本”，使用构成文本序列对应的“构成文本-类别”向量序列以及类别向量作为输入；(2)人工加入至少1个“填充文本”并计算“填充文本-类别”向量序列；(3)利用神经网络的关注机理，分别计算“构成文本-类别”权重以及“填充文本-类别”权重；(4)将相关的“构成文本-类别”向量和“填充文本-类别”向量进行加权相加，得到最后的输出即“文本-类别”向量。4.如权利要求2所述的方法，其特征在于，所述序列编码模块包括序列到向量编码模块以及序列到序列编码模块；所述序列到向量编码模块将向量序列输入转换为单个向量；所述序列到序列编码模块将向量序列输入转换为等长的新向量序列输出。5.如权利要求4所述的方法，其特征在于，所述序列到向量编码模块采用CNN模型或者LSTM模型，对输入的“文本-类别”向量序列进行编码，...

【专利技术属性】
技术研发人员：李鹏，王斌，郭莉，梅钰，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人