一种文本分类方法技术

技术编号:19480231 阅读:125 留言:0更新日期:2018-11-17 10:33
本发明专利技术涉及一种采用一种改进输入的Attention‑Based LSTM模型来进行高校学术活动的文本分类工作,采用字符级语言模型,对输入进行五笔码转化,随后进行文本数据向量表示,再输入Attention‑Based LSTM模型进行分类。本发明专利技术提供的文本分类方法,利用改进输入的Attention‑Based LSTM特征选择模型进行特征选择和分类,能够改善数据质量,降低数据维度,并有效地突出重点信息,优化特征向量,分类结果的准确率、召回率和F值都很高,可以很好地满足实际应用的需要。

【技术实现步骤摘要】
一种文本分类方法
本专利技术属于文本分类
,具体涉及一种高校学术活动的文本分类方法。
技术介绍
伴随信息技术的发展和大数据时代的到来,各大高校对打造“智慧校园”的需求不断增长。高校在举办不同类型的学术活动之前会在官网上发布通知公告。准确高效地抽取出学术活动通知公告的相关内容,并将学术活动分类统计,能够有效地整理、组织、查阅学术活动相关信息。因此针对高校学术活动进行文本分类是十分重要的。文本分类是自然语言处理中的基本任务之一。文本分类是指计算机将一篇文章归于预先给定的某一类或某几类的过程。机器学习自90年代被应用于文本分类以来,以其强大的适应能力获得了突出的效果。目前,用于文本分类的机器学习算法有很多,例如,朴素贝叶斯算法、K最近邻算法、支持向量机(SupportVectorMachine,SVM)等。近年来深度学习在图像分类等领域取得了很大的进展,研究者们逐渐尝试在自然语言处理领域使用深度学习技术。最常见的是循环神经网络(RecurrentNeuralNetwork,RNN),循环神经网络能够使用上下文信息,在解决序列化的问题上有突出的效果,在自然语言处理领域应用广泛,然而RN本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,采用Attention‑Based LSTM模型来进行文本分类。

【技术特征摘要】
1.一种文本分类方法,其特征在于,采用Attention-BasedLSTM模型来进行文本分类。2.根据权利要求1所述的文本分类方法,其特征在于,所述文本分类方法包括以下步骤:步骤1)文本预处理;步骤2)对预处理后的文本数据进行向量表示;步骤3)将所述向量输入Attention-BasedLSTM模型进行分类。3.根据权利要求1-2所述的文本分类方法,其特征在于,所述步骤1)具体为:提取标题和正文信息,再依据内容是否固定进行不同的文本数据编码工作,采用字符级语言模型,对输入进行五笔码转化。4.根据权利要求1-3所述的文本分类方法,其特征在于,所述步骤2)具体为:为每类数据分配一个维度进行向量表示,通过五笔字型码转换,每个中文字符平均转化为3个英文字符,为此类数据每类分配1000维进行向量表示,多于1000维的截断,少于1000维的在末尾补0。5.根据权利要求1-4所述的文本分类方法,其特征在于,所述步骤2)中,文本数据向量为:X={x1,x2,x3,x4,x5,…,xT};其中,X为文本总体的输入向量;x1为主讲人分量;x2为时间分量;x3为地点分量;x4为主办单位分量;x5,......,xT分量为题目和介绍部分的内容。6.根据权利要求1-4所述的文本分类方法,其特征在于,所述步骤3)具体为:将编码时的隐藏向量序列h1,h2,h3,……,hT按权重αki相加获得语义编码C;LSTM模型的输入即为包含注意力影响因子的语义编码C和最终节点的输入xT,输出为最后的特征向量hT’;αki表示历史输入的隐藏状态对当前输入的注意力...

【专利技术属性】
技术研发人员:吕学强董志安
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1