粒子群算法结合CNN卷积神经网络的文本分类方法技术

技术编号:41094577 阅读:23 留言:0更新日期:2024-04-25 13:53
本发明专利技术涉及文本分类技术领域,特别是粒子群算法结合CNN卷积神经网络的文本分类方法,具体为一种基于自惯性权重自适应粒子群算法结合CNN卷积神经网络的文本分类方法。通过融合FastText与TF‑IDF算法,既能够计算每个词在文档中的频率(TF)和在整个文档集合中的逆文档频率(IDF),来衡量一个词对于文本的重要性,又改进了TF‑IDF无法捕捉到词语之间的语义关系的缺点。使用FastText模型可以学习到词语的语义信息,但它对单词出现次数较少的情况下效果较差。因此,融合TF‑IDF和FastText可以综合利用它们各自的优势,提高模型的性能。

【技术实现步骤摘要】

本专利技术涉及文本分类,特别是粒子群算法结合cnn卷积神经网络的文本分类方法。


技术介绍

1、1、目前主流的公文流转都是基于系统事先配置好的业务流程以工作流驱动电子公文进行流转;但是由于业务流程配置不灵活、流程节点办理人员经常变动、新入办公人员不熟悉公文处理流程等原因,造成公文处理后不知如何提交公文流转从而造成办公质量低和退回率高的问题。

2、2、当前大多数智能公文分类辅助系统其语料库都是基于互联网公开的语料库,这些语料库的特点主要在两方面,一方面是数据规模庞大;另一方面是数据库内的数据内容不存在领域偏差,公文智能分类中,领域内词汇对于最终效果的影响尤为明显。相比于普通文本材料,公文具有政治性突出,实效性强,格式规范等特点,因此将互联网公开的通用语料库作为政府公文训练的缺点是数据过于均衡无明显领域上的划分、训练出的词向量无法对其进行较为明确的概率定义等缺点。

3、3、在有些智能公文项目中,如大多数基于word2vec词向量的构建,通过提取公文正文特征,利用卷积神经网络进行公文信息识别分类从而进行公文智能辅助,但是此种处理办法未考虑公本文档来自技高网...

【技术保护点】

1.粒子群算法结合CNN卷积神经网络的文本分类方法,其特征在于包括如下步骤:

2.根据权利要求1所述的粒子群算法结合CNN卷积神经网络的文本分类方法,其特征在于还包括公文智能推荐,首先对待办公文正文及标题通过所述智能分类模块分类信息,同时通过用户姓名和ID获取存储在数据库中的用户公文画像,将分类信息和用户公文画像信息进行余弦相似度计算,并对计算的结果归一化处理,公式为:sim=0.5+0.5cos,计算出公文匹配度概率,将公文匹配度概率结合BMP工作流和公文签批意见实现公文智能推荐。

3.根据权利要求2所述的粒子群算法结合CNN卷积神经网络的文本分类方法,其特征在...

【技术特征摘要】

1.粒子群算法结合cnn卷积神经网络的文本分类方法,其特征在于包括如下步骤:

2.根据权利要求1所述的粒子群算法结合cnn卷积神经网络的文本分类方法,其特征在于还包括公文智能推荐,首先对待办公文正文及标题通过所述智能分类模块分类信息,同时通过用户姓名和id获取存储在数据库中的用户公文画像,将分类信息和用户公文画像信息进行余弦相似度计算,并对计算的结果归一化处理,公式为:sim=0.5+0.5...

【专利技术属性】
技术研发人员:徐志宏马国祖刘开瑞李明梁别俊
申请(专利权)人:中电万维信息技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1