【技术实现步骤摘要】
基于小样本学习实现多语言混合短文本分类处理的系统、方法、装置、存储器及其存储介质
[0001]本专利技术涉及深度学习
,尤其涉及自然语言处理
,具体是指一种基于小样本学习实现多语言混合短文本分类处理的系统、方法、装置、存储器及其计算机可读存储介质。
技术介绍
[0002]文本分类是对文本分配标签的任务,是自然语言处理中重要且基础的任务之一,其有利支撑许多下游任务,如情感分类、主题抽取等。对发文平台的价值信息挖掘离不开关键的文本分类技术。发文多属于短文本,且存在句子较短、多语言、内容多样性、非正式性、语法错误、流行语、俚语等特点,因此需要一种有效的文本分类技术可以解决具有多种语言混合的短文本分类。
[0003]传统的文本分类算法较多关注文本的线性表达,例如采用词典或n
‑
gram词向量作为输入的支持向量机模型。近些年的研究表明,非线性模型可以有效捕获文本上下文信息,可以产生比线性模型更精准的预测。卷积神经网络模型是一种典型的非线性模型,它将数据的局部特征转换成低维向量,并保留了与任务相关的 ...
【技术保护点】
【技术特征摘要】
1.一种基于小样本学习实现多语言混合短文本分类处理的系统,其特征在于,所述的系统包括:数据采集模块,用于将少量预设标签样本输入至该系统;数据预处理模块,与所述的数据采集模块相连接,用于对所述的预设标签样本进行数据集划分、数据清洗以及批量处理操作;模型计算处理模块,与所述的数据预处理模块相连接,用于根据预处理后获取的文本数据进行关键特征提取,并生成相应的模型准确率计算结果;以及模型生成及输出模块,与所述的模型计算处理模块相连接,用于根据所述的模型准确率计算结果预测出当前文本数据的模型预测结果,并通过对所述的模型预测结果的抽样审核处理,进一步更新迭代该输出模型。2.根据权利要求1所述的基于小样本学习实现多语言混合短文本分类处理的系统,其特征在于,所述的模型计算处理模块具体包括:字词信息处理单元,与所述的数据预处理模块相连接,用于将经过批量处理后获取的所述的少量标签文本数据样本进行n元词法切分、字词嵌入以及字词集合的迭代处理;文本特征嵌入单元,与所述的字词信息处理单元相连接,用于将经过上述迭代处理后的字词信息组合成文本整体特征作为有效卷积层的输入;文本关键区域特征单元,与所述的文本特征嵌入单元相连接,用于获取文本整体特征中的文本关键特征信息;文本类别判断单元,与所述的文本关键区域特征单元相连接,用于分析并计算出当前输入文本所属的分类类别;以及模型准确率计算单元,与所述的文本类别判断单元相连接,用于将经过上述文本处理后所得的文本信息进行模型准确率的计算处理。3.根据权利要求2所述的基于小样本学习实现多语言混合短文本分类处理的系统,其特征在于,所述的模型生成及输出模块具体包括:模型预测处理单元,用于输入多语言混合短文本数据,进行模型预测;预测结果输出单元,与所述的模型预测处理单元相连接,用于输出模型预测结果;以及抽样审核单元,与所述的预测结果输出单元相连接,用于对模型预测结果进行抽样审核以此来检测该预测模型的准确性。4.根据权利要求3所述的基于小样本学习实现多语言混合短文本分类处理的系统,其特征在于,所述的抽样审核单元通过系统预设阈值根据以下规则判断是否进行更新校准:如果所述的抽样审核单元抽样审核的文本数据大于阈值,则添加标签新数据至所述的数据采集模块进行模型的迭代更新处理;否则所述的抽样审核单元抽样审核的文本数据不大于阈值,则需要进行校准处理后再添加标签新数据至所述的数据采集模块进行模型的迭代更新处理。5.一种利用权利要求4所述的系统实现基于小样本学习实现多语言混合短文本分类处理的方法,其特征在于,所述的方法包括以下步骤:(1)从多语言混合短文本中获取文本子词信息;(2)对所述的文本子词信息进行数据集划分、数据清洗以及批量操作的预处理;(3)对经过预处理后的所述文本子词信息进行文本特征嵌入,获取有效卷积层的输入
信息;(4)采用不同核卷积,获取所述的文本子词信息的邻近词信息以及文本关键区域信息;(5)通过概率分布判断文本所属类别;(6)根据类别信息进行分类模型的预测以及挖掘新的文本数据信息的处理,并进行模型的更新和迭代。6.根据权利要求5所述的基于小样本学习实现多语言混合短文本分类处理的方法,其特征在于,所述的步骤(3)具体包括以下步骤:(3.1)查找字词,若无,则按n元语法切分形成子词库,且切分前先查找特殊子词,进入步骤(3.3);否则,进入步骤(3.2);(3.2)若有,则按特殊子词切分,其余部分按n元语法切分,否则直接按n元语法切分,形成相应的形成子词库,并进入步骤(3.3);(3.3)将切分后形成的子词库仿射变换到词层面的表征,同时将新表征的词作为特殊子词增加到子词集合中,计算高一层的子词表征。7.根据权利要求6所述的基于小样本学习实现多语言混合短文本分类处理的方法,其特征在于,按照以下公式计算高一层的子词表征:其中,g为子词,i为句子中的第i个词,W
gi
为数据转换矩阵,θ
w
为字词集合,表示子词g的表征,u
i|g
(1≤i≤n)即子词的高一层的表征。8.根据权利要求7所述的基于小样本学习实现多语言混合短文本分类处理的方法,其特征在于,所述的步骤(4)具体包括以下步骤:(4.1)将仿射变换后的所述的高一层的子词表征u
i|g
组合成文本整体特征作为有效卷积层的输入;(4.2)采用不同宽度和不同通道数的卷积核对文本特征进行一维卷积,获取包含不同邻近词信息的全局特征;(4.3)采用自注意力机制进行文本全局特征把控,从而计算并输出文本关键区域信息特征。9.根据权利要求8所述的基于小样本学习...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。