当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于RBF神经网络算法与语义特征选取的文本分类方法技术

技术编号:8413119 阅读:336 留言:0更新日期:2013-03-14 02:09
本发明专利技术公开了一种基于RBF神经网络算法与语义特征选取的文本分类方法。其中,所述系统中包含了改进RBF神经网络算法和语义特征选取的文本降维处理。网络结构采用RBFLN(径向基链网络)模型,添加输入层对输出层的线性映射,在训练过程中基于最大误差学习样本对资源分配网络(RAN)新性条件进行改动,在不满足新性条件时,采用相似度参数对隐层中心和宽度进行调整;而满足新性条件时,对新增隐层节点也通过类均值的方法做出相应的改进。由于基于词向量空间的文本分类模型很难处理文本的高维特性和语义复杂性,为此本文通过语义特征选取方法对文本输入空间进行语义特征的抽取和降维。本发明专利技术的RBF分类系统具有学习速率高,网络结构紧凑,分类效果好的优点。

【技术实现步骤摘要】

本专利技术属于信息检索及数据挖掘技术,尤其涉及一种文本分类挖掘系统及方法。
技术介绍
随着网络的使用在人们日常生活中越来越普及,人们也越来越开始习惯从网络中获取信息和知识,同时互联网中网站的数量和质量都在逐步的提高,网络中的信息量也在呈爆炸式的增长中,人们基本上可以从网络中获取各方各面的信息。2011年10月9日,互联网追踪机构Net craft的最新统计报告显示,全球网站在过去一个月内又增加了 1800万 个,幅度接近3.8%,目前总量为504082040个,首次突破5亿大关。当前互联网高速发展,使得海量的、内容丰富的文字信息以计算机可读的形式存在,并且其数量每天仍在急剧增力口。为了有效的管理和利用这些分布的海量信息,基于内容的信息检索和文本挖掘已经成为备受关注的研究领域。从目前数字图书馆建设的实际需求来看,信息资源的建设也急需高效信息管理手段的支撑。国家科学数字图书馆项目的建设目标,是要通过项目建设切实有效地提高科研用户获取信息的能力,实现资源数字化、查询网络化、服务个性化、存储虚拟化、信息使用共享化、信息加工智能化、用户界面友善化。这其中,资源的采集和过滤、个性化服务、信息智能加工,归根究底,都需要在文本自动分类技术上有所突破。文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,是组织和管理海量信息的有效手段,是几乎所有基于内容的文本管理的研究基础,并被广泛应用于信息处理领域在传统的情报检索、网站索引体系结构的建立和web信息检索等方面占有重要地位。它是指在给定的分类体系下,根据文本内容自动确定文本所属类别。信息的获取与过滤、信息的智能化加工、提供个性化的信息服务,都需要我们在文本自动分类上有所突破。正因如此文本自动分类技术正逐渐成为众多科研领域的研究热点和难点。作为文献组织、文本过滤、智能搜索、邮件过滤等领域的技术基础,文本自动分类有着广泛的商业前景。
技术实现思路
本专利技术的主要目的是提供一种基于RBF神经网络与语义特征选取方法的文本分类系统,以提高文本分类的查准率与查全率。为达到以上目的,本专利技术的技术具体方案实现如下一种基于RBF神经网络与语义特征选取方法的文本分类系统,包括文本预处理,文本分类算法模块。其中,文本预处理模块,将待测文本进行分词,去除噪声词,保留文本重要的关键信息,然后将文本表示成词-文档形式,紧接着,对生成的词-文档矩阵进行语义特征选取处理,做到进一步降低文本维度以及提高文本间的语义特性。RBF分类算法模块是指将生成的词-文档矩阵用于训练RBF网络结构,以达到文本分类器产生的目的。具体过程包括了初始隐层单元的选取;隐层单元参数的调整;权值的调整这三部分。A、初始隐层单元的选取假设学习样本的类别为k,初始隐层中心数目与训练样本的类别相同,则初始隐层中心Cj以及中心宽度为0j j = l,2,...,k,可以通过如下两个公式权利要求1.一种基于基于RBF神经网络算法与语义特征选取的文本分类方法,该方法包括文档预处理模块和RBF分类算法模块,其中 文本预处理模块,对待测文本进行分词,去除停用词,计算词频,利用向量空间算法,将文档集用文本特征矩阵表示。然后将空间向量算法表示的词-文档矩阵进一步利用语义特征方法进行处理,得到维度降低、语义相关性高的新的词_文档矩阵。RBF分类算法模块,采用RBFLN结构,基于最大误差样本改进RAN学习算法。该算法是根据样本输入信息初始化后,在训练过程中选取产生最大误差的样本。满足新性条件时,分配新的隐层节点;在不满足时使用相似度参数对隐层中心和宽度进行调整。2.如权利要求I所述的一种基于基于RBF神经网络算法与语义特征选取的文本分类系统,其特征在于,所采用的文本预处理是运用语义特征提取对向量空间算法产生的原始文档集A,可表示为A = mXn,其中m表示文档中的词的个数,n表示文档数目。奇异值分解常被用于提取对象之间的关联模式及所隐藏的对象间的结构关系的方法。文档矩阵A经奇异值分解,可表示成A = UX E XV形式,其中,U和V分别是矩阵A的奇异值对应的左、右奇异向量矩阵,潜在语义索引是利用U和V中的前k (k < min (m, n))个列构建A的k_秩矩阵Ak,即Ak = UkX E kXVk 而本系统采用的语义特征选取是利用A矩阵的转置矩阵D与Uk相乘,即 C = DXUk3.如权利要求I所述的种基于基于RBF神经网络算法与语义特征选取的文本分类系统,其特征在于文本分类算法模块包括初始隐层单元的选取;隐层单元参数的调整;权值的调整。4.如权利要求2所述的初始隐层单元的选取,其特征在于,假设学习样本的类别为k,初始隐层中心数目与训练样本的类别相同,则初始隐层中心q以及中心宽度为O ^ j = I,2,…,k,可以通过如下两个公式 I v C1 =——I X.Nj XiEAj 0 j = K dj max 其中,是训练样本的的归属集合。Xi是各个样本集合中的样本,%是各类样本的数量;奪为常数,dj fflax是各类样本集中学习样本到中心的最远距离。5.如权利要求2所述的隐层单元参数的调整,其特征在于,根据新颖性条件,隐层单元的调整包括两个部分分配网络新的隐层节点和调整网络已经存在的网络参数。在训练过程中,应当选取当前产生最大的学习样本Xmax error代替输入网络的顺序样本,则新颖性条件中的距离准则和误差准则分别为 T"*I 又一 /->I ^ 丄 max I Amax error nearest I max I Ymax error f (xmax error) I min 其中,XmM error疋广生取大差的学习样本,Ymax error与f (XmM error)分力ll代表xma!£ error所对应的期望输出与实际输出,c 是距离X_ 最近的隐层中心,6与6_是人为设定的一个阈值。将x_ error代入新颖性条件,如果满足,则根据下式进行隐层节点的添加6.如权利要求2所述的权值的调整,其特征在于,权值的调整包括两个部分隐层到输出层的权值W和输人层到输出层的权值V权值的调整,可以通过最小二乘法得到。设训练样本数为N,当前隐层中心数为k,则隐层的输出矩阵P由下式得到P = 其中,全文摘要本专利技术公开了一种基于RBF神经网络算法与语义特征选取的文本分类方法。其中,所述系统中包含了改进RBF神经网络算法和语义特征选取的文本降维处理。网络结构采用RBFLN(径向基链网络)模型,添加输入层对输出层的线性映射,在训练过程中基于最大误差学习样本对资源分配网络(RAN)新性条件进行改动,在不满足新性条件时,采用相似度参数对隐层中心和宽度进行调整;而满足新性条件时,对新增隐层节点也通过类均值的方法做出相应的改进。由于基于词向量空间的文本分类模型很难处理文本的高维特性和语义复杂性,为此本文通过语义特征选取方法对文本输入空间进行语义特征的抽取和降维。本专利技术的RBF分类系统具有学习速率高,网络结构紧凑,分类效果好的优点。文档编号G06F17/27GK102968410SQ20121052450公开日2013年3月13日 申请日期2012年12月4日 优先权日2012年12月4日专利技术者梁久本文档来自技高网
...

【技术保护点】
一种基于基于RBF神经网络算法与语义特征选取的文本分类方法,该方法包括文档预处理模块和RBF分类算法模块,其中:文本预处理模块,对待测文本进行分词,去除停用词,计算词频,利用向量空间算法,将文档集用文本特征矩阵表示。然后将空间向量算法表示的词?文档矩阵进一步利用语义特征方法进行处理,得到维度降低、语义相关性高的新的词?文档矩阵。RBF分类算法模块,采用RBFLN结构,基于最大误差样本改进RAN学习算法。该算法是根据样本输入信息初始化后,在训练过程中选取产生最大误差的样本。满足新性条件时,分配新的隐层节点;在不满足时使用相似度参数对隐层中心和宽度进行调整。

【技术特征摘要】

【专利技术属性】
技术研发人员:梁久祯何晓亮宋威
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1