System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于电子数据取证,具体涉及一种基于双塔卷积模型的中文短文本分类方法及其系统。
技术介绍
1、随着信息技术的快速发展,社会已经步入了大数据时代。由于网络、即时通讯和移动设备的进步,电子数据与个人的生活和行为愈发息息相关,人类活动产生的电子信息和数据也越来越多,电子数据取证领域也因此面临着严峻的挑战。而在各类电子数据中,随着即时通讯的流行,短文本成为信息传递的主要载体,包含的内容信息多且数量庞大,通过对短文本数据进行挖掘能够获取重要的信息。如何快速且准确地从海量短文本中提取出有价值的短文本,成为短文本分析亟待解决的问题。
2、由于短文本存在内容丰富、单条文本中可用于分类的信息量较少且不同类型短文本数量分布差异严重的情况,导致现有的短文本分类方法效果不佳。现有的短文本分类方法主要有:1)通过构建关键词词库比对,确定短文本的类别,该方法分类需要前期耗费较大的精力构建关键词库,且无法解决一词多义等问题;2)使用传统机器学习的方法,该方法需要人为进行特征提取,且特征质量直接影响模型效果;3)基于深度学习的方法,目前主流的深度学习方法是通过构造多分类问题,再进行数据采样以及损失函数优化等方法来试图降低数据不均衡的影响。但是实际效果仍然欠佳,尤其面对不同短文本类型数据分布差异明显时,分类效果往往差强人意。
3、现有的短文本分类方法在短文本分类应用中存在以下不足:(1)基于关键词匹配的方法,需要构建关键词库,并且需要不断更新维护该词库。该方法不仅需要大量人力资源,而且无法解决音变字、形变字等匹配问题,整体识别精度
4、有鉴于此,提出一种基于双塔卷积模型的中文短文本分类方法及其系统是非常具有意义的,能够有效提升短文本类型数据不均衡时的分类效果。
技术实现思路
1、为了解决现有以上现有的短文本分类技术中存在的明显不足,本专利技术提供一种基于双塔卷积模型的中文短文本分类方法及其系统,为样本数据较少的类型构建上级类型标签,并利用上级标签分类结果对下级标签的预测进行信息补充,以解决上述存在的技术缺陷问题。实验表明,本方法能够有效解决短文本类型数据不均衡导致的精度低问题,能明显提升分类效果,显著解决现有技术中存在的不足。
2、第一方面,本专利技术提出了一种基于双塔卷积模型的中文短文本分类方法,该方法包括如下步骤:
3、响应于获取文本以及文本对应的标签体系,所述标签包括一级标签和二级标签;
4、对获取的不同级标签分别进行特征提取,获得不同级标签对应的特征信息,每个特征提取模块包括嵌入模块、卷积层、池化层和全连接层;
5、基于不同级标签间的关联情况进行特征融合,利用上下级标签的特征相关性,结合一级和二级标签的预测评分,使用上级标签分类结果对下级标签的预测进行信息补充,通过一级标签的预测评分对二级标签的预测进行引导,调整二级标签的预测评分;以及
6、根据上述步骤获得的标签预测概率,使用联合损失函数对模型参数进行训练优化。
7、优选的,对获取的不同级标签分别进行特征提取,获得不同级标签对应的特征信息,具体包括:
8、将所述文本以字为单位进行切分,得到s={s1,s2,...,sn},其中n为文本长度;
9、从向量矩阵中获得所述文本的嵌入向量矩阵其中表示si的嵌入向量,k为嵌入向量的维度;
10、获得不同高度的滤波器下x的特征:
11、ci=f(w·xi:i+h-1+bc);
12、其中为卷积滤波器,h为滤波器的高度,即为该滤波器提取的是h个词间的文本特征,为偏置项,f为非线性激活函数;
13、获得不同高度的滤波器下语句的特征图:
14、
15、获得特征图c中的最大特征:
16、进一步结合不同滤波器获得的最大特征,获得:
17、
18、其中m为各个高度的滤波器的总个数;
19、通过全连接获得标签的预测评分:
20、
21、其中n为标签集中的标签数量,即n可以为一级标签的标签数或二级标签的标签数,为全连接层的参数,为偏置项。
22、进一步优选的,基于不同级标签间的关联情况进行特征融合,具体包括:
23、由特征提取模块中获得一级标签集的标签预测评分ga中获取一级标签集ya中的任意一级标签的预测评分
24、对二级标签集yb中的任意二级标签获得特征融合后的预测评分:
25、
26、其中,为特征提取模块中获得的二级标签集的标签预测评分gb中的预测评分,为ga中对应的一级标签的预测评分,λ为引导系数;
27、获得优化后的二级标签集yb的标签预测评分并在后续模块中使用更新gb;
28、获得标签的预测概率:
29、
30、其中f为softmax函数,使用ga和代替g可分别获得一级标签集ya和二级标签集yb的预测概率分布pa和pb,n为对应标签集的标签数量。
31、进一步优选的,根据上述步骤获得的标签预测概率,使用联合损失函数对模型参数进行训练优化,具体包括:
32、使用联合损失函数来训练优化模型参数,联合损失函数的公式为:
33、loss=γlossa+lossb
34、其中,γ为联合系数,lossa和lossb分别为一级标签和二级标签的预测分布与实际标签的交叉熵,公式如下:
35、
36、其中,m为数据集的样本数量,yk为该样本的标签,pk为预测该样本为yk时的概率。
37、优选的,还包括:二级标签为短文本类型标签,即为短文本分类任务最终输出的类型标签;一级标签为类型信息补充标签,分类结果仅为二级标签预测提供信息补充;构建方法具体如下:
38、对于样本数据较少的短文本类型,总结与其他短文本类型的共同特征构建上级补充标签,即构建对应一级标签,并将其它有该特征的短文本类型归于该一级标签下;
39、对于样本数据充足且不归属于其他一级标签的短文本类型,不额外构建上级标签,仅将该短文本类型本身作为其一级标签进行分析。
40、优选的,嵌入模块的方法采用任意的词向量技术方法,采用随机字向量矩阵作为嵌入模块的初始向量矩阵。
41、第二方面,本专利技术实施例提供了一种基于双塔卷积模型的中文短文本分类系统,包括:
42、获取模块,配置用于获取文本以及文本对应的标签体系;
43本文档来自技高网...
【技术保护点】
1.一种基于双塔卷积模型的中文短文本分类方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,对获取的不同级标签分别进行特征提取,获得不同级标签对应的特征信息,具体包括:
3.根据权利要求2所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,基于不同级标签间的关联情况进行特征融合,具体包括:
4.根据权利要求3所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,根据上述步骤获得的标签预测概率,使用联合损失函数对模型参数进行训练优化,具体包括:
5.根据权利要求1所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,还包括:二级标签为短文本类型标签,即为短文本分类任务最终输出的类型标签;一级标签为类型信息补充标签,分类结果仅为二级标签预测提供信息补充;构建方法具体如下:
6.根据权利要求1所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,嵌入模块的方法采用任意的词向量技术方法,采用随机字向量矩阵作为嵌入模块的初始向量矩阵。
7.一种基于
8.根据权利要求7所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,还包括:
9.一种电子设备,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一所述的方法。
...【技术特征摘要】
1.一种基于双塔卷积模型的中文短文本分类方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,对获取的不同级标签分别进行特征提取,获得不同级标签对应的特征信息,具体包括:
3.根据权利要求2所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,基于不同级标签间的关联情况进行特征融合,具体包括:
4.根据权利要求3所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,根据上述步骤获得的标签预测概率,使用联合损失函数对模型参数进行训练优化,具体包括:
5.根据权利要求1所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,还包括:二级标签为短...
【专利技术属性】
技术研发人员:陈宜暄,赵建强,刘晓芳,陈志明,庄灿波,
申请(专利权)人:厦门市美亚柏科信息安全研究所有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。