一种基于双塔卷积模型的中文短文本分类方法及其系统技术方案

技术编号:42304848 阅读:20 留言:0更新日期:2024-08-14 15:51
本发明专利技术提出了一种基于双塔卷积模型的中文短文本分类方法及其系统,包括:获取文本以及文本对应的标签体系,标签包括一级标签和二级标签;对获取的不同级标签分别进行特征提取,获得不同级标签对应的特征信息;基于不同级标签间的关联情况进行特征融合,利用上下级标签的特征相关性,结合一级和二级标签的预测评分,使用上级标签分类结果对下级标签的预测进行信息补充,通过一级标签的预测评分对二级标签的预测进行引导,调整二级标签的预测评分;根据上述步骤获得的标签预测概率,使用联合损失函数对模型参数进行训练优化。本方法能够有效解决短文本类型数据不均衡导致的精度低问题,能明显提升分类效果,显著解决现有技术中存在的不足。

【技术实现步骤摘要】

本专利技术属于电子数据取证,具体涉及一种基于双塔卷积模型的中文短文本分类方法及其系统


技术介绍

1、随着信息技术的快速发展,社会已经步入了大数据时代。由于网络、即时通讯和移动设备的进步,电子数据与个人的生活和行为愈发息息相关,人类活动产生的电子信息和数据也越来越多,电子数据取证领域也因此面临着严峻的挑战。而在各类电子数据中,随着即时通讯的流行,短文本成为信息传递的主要载体,包含的内容信息多且数量庞大,通过对短文本数据进行挖掘能够获取重要的信息。如何快速且准确地从海量短文本中提取出有价值的短文本,成为短文本分析亟待解决的问题。

2、由于短文本存在内容丰富、单条文本中可用于分类的信息量较少且不同类型短文本数量分布差异严重的情况,导致现有的短文本分类方法效果不佳。现有的短文本分类方法主要有:1)通过构建关键词词库比对,确定短文本的类别,该方法分类需要前期耗费较大的精力构建关键词库,且无法解决一词多义等问题;2)使用传统机器学习的方法,该方法需要人为进行特征提取,且特征质量直接影响模型效果;3)基于深度学习的方法,目前主流的深度学习方法是通过构造多分本文档来自技高网...

【技术保护点】

1.一种基于双塔卷积模型的中文短文本分类方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,对获取的不同级标签分别进行特征提取,获得不同级标签对应的特征信息,具体包括:

3.根据权利要求2所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,基于不同级标签间的关联情况进行特征融合,具体包括:

4.根据权利要求3所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,根据上述步骤获得的标签预测概率,使用联合损失函数对模型参数进行训练优化,具体包括:

5.根据权利要求1所述的基于双...

【技术特征摘要】

1.一种基于双塔卷积模型的中文短文本分类方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,对获取的不同级标签分别进行特征提取,获得不同级标签对应的特征信息,具体包括:

3.根据权利要求2所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,基于不同级标签间的关联情况进行特征融合,具体包括:

4.根据权利要求3所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,根据上述步骤获得的标签预测概率,使用联合损失函数对模型参数进行训练优化,具体包括:

5.根据权利要求1所述的基于双塔卷积模型的中文短文本分类方法,其特征在于,还包括:二级标签为短...

【专利技术属性】
技术研发人员:陈宜暄赵建强刘晓芳陈志明庄灿波
申请(专利权)人:厦门市美亚柏科信息安全研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1