一种对抗攻击敏感的文本分类方法技术

技术编号:26478711 阅读:50 留言:0更新日期:2020-11-25 19:22
本发明专利技术为一种对抗攻击敏感的文本分类方法,属于大数据、人工智能的分类领域。该方法包含以下步骤:S1:选择文本数据源;S2:对文本数据进行预处理,并采用词向量技术进行词向量训练,生成词库;S3:结合词库,建立特征提取模型,得到特征向量;S4:建立原型聚类模型,实现特征向量基于原型的分类;S5:训练步骤S3~步骤S4中的模型,将训练好的模型用于新文本数据的分类。本发明专利技术方法在拒绝和增量分类学习任务上都有很大的优势,能很好地拒绝噪声样本和异常值,在提升分类性能的同时提升了模型的鲁棒性,更进一步,优化了基于距离的中心损失函数,增加了正则化项,有效防止过拟合现象,进一步提高了本发明专利技术的泛化能力。

【技术实现步骤摘要】
一种对抗攻击敏感的文本分类方法
本专利技术涉及一种对抗攻击敏感的文本分类方法,属于大数据挖掘、人工智能分类领域,尤其适用于大规模的文本分类处理。
技术介绍
文本分类是自然语言处理当中的核心技术,有着广泛的应用场景。文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判断为事先确定的若干个类别的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。国内外对文本分类以及相关的信息检索、信息抽取领域进行了较为深入的研究。以医药专利分类为例。专利作为知识产权的重要载体,已成为各行业高科技企业和科研机构的重要战略资源,特别是在生物医药行业领域。在这样的背景下,为了进一步了解医疗研发的现状,制药公司在研制新药的同时往往会对涉及新药的专利分布情况进行详细的调研,以免触碰知识产权的保护范围。因此,根据制药企业的不同需求对专利进行定制化分类具有重要意义。在当今全球疫情严重的情况下,好的医药专利分类方法能够迅速地帮助制药公司和科研机构从现有的专利库里面找到有助于抑制新冠抗病毒类的相本文档来自技高网...

【技术保护点】
1.一种对抗攻击敏感的文本分类方法,其特征在于,该方法包含以下步骤:/nS1:选择文本数据源;/nS2:对文本数据进行预处理,并采用词向量技术进行词向量训练,生成词库;/nS3:结合词库,建立特征提取模型,得到特征向量;/nS4:建立原型聚类模型,实现特征向量基于原型的分类;/nS5:训练步骤S3~步骤S4中的模型,将训练好的模型用于新文本数据的分类。/n

【技术特征摘要】
1.一种对抗攻击敏感的文本分类方法,其特征在于,该方法包含以下步骤:
S1:选择文本数据源;
S2:对文本数据进行预处理,并采用词向量技术进行词向量训练,生成词库;
S3:结合词库,建立特征提取模型,得到特征向量;
S4:建立原型聚类模型,实现特征向量基于原型的分类;
S5:训练步骤S3~步骤S4中的模型,将训练好的模型用于新文本数据的分类。


2.根据权利要求1所述的一种对抗攻击敏感的文本分类方法,其特征在于,步骤S3所述的特征提取模型由一个一维卷积神经网络串联一个双向的长短时记忆网络,最后再串联一个全连接层构成;该模型以词库的词向量的数值形式作为输入,以特征向量作为输出。


3.根据权利要...

【专利技术属性】
技术研发人员:史晓雨尚明生王思源
申请(专利权)人:中国科学院重庆绿色智能技术研究院
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1