基于KNN‑SVM的领域文本特征提取方法和系统技术方案

技术编号:15822692 阅读:33 留言:0更新日期:2017-07-15 04:54
本发明专利技术属于领域文本提取的技术领域,具体涉及一种基于KNN‑SVM的领域文本特征提取方法和系统;解决的技术问题为:提供一种准确率较高的、提取速度较快的基于KNN‑SVM的领域文本特征提取方法和系统;采用的技术方案为:基于KNN‑SVM的领域文本特征提取方法,包括:S101、创建领域文本特征库;S102、建立领域文本训练样本集;S103、采用KNN对领域文本的训练样本进行筛选;S104、采用SVM对筛选后的训练样本进行训练;S105、生成领域文本提取模型。

【技术实现步骤摘要】
基于KNN-SVM的领域文本特征提取方法和系统
本专利技术属于领域文本提取的
,具体涉及一种基于KNN-SVM的领域文本特征提取方法。
技术介绍
各领域文本特征提取的实质是对文本进行分类,将文本分为某领域的文档或者非领域文档,若是领域文本则提取出来,否则不予提取,若是领域文本,则筛选出来。领域文本提取的分类器构建直接影响提取效果,当前常采用K近邻算法(Knearestneighboralgorithm,KNN)和支持向量机(supportvectormachine,SVM)建立领域文本的分类器,对于英文文本,它们获得了理想的提取效果,文本特征提取的虚警率低;然而对于中文文本,单一KNN或者SVM的提取效果很差,这是因为基于某一领域的中文文本样本分布极不平均、特征的维数高,若采用KNN进行处理,易出现“维数灾”难题,提取速度慢;SVM虽然不存在“维数灾”难题,但是对于大规模领域文本,训练时间长,无法满足领域文本在线提取要求。
技术实现思路
本专利技术克服现有技术存在的不足,所要解决的技术问题为:提供一种准确率较高的、提取速度较快的基于KNN-SVM的领域文本特征提取方法和系统。为了解决上述技术问题,本专利技术采用的技术方案为:基于KNN-SVM的领域文本特征提取方法,其特征在于:包括:S101、创建领域文本特征库;S102、建立领域文本训练样本集;S103、采用KNN对领域文本的训练样本进行筛选;S104、采用SVM对筛选后的训练样本进行训练;S105、生成领域文本提取模型。优选地,所述创建领域文本特征库,具体包括:提取领域文本的特征;构建文本特征提取模型的输入向量;将领域文本的特征存入文本特征库。优选地,采用KNN对领域文本的训练样本进行筛选,具体包括:建立KNN的分类判别函数和决策函数;在训练样本集中,筛选出未知样本的K个邻近样本;统计K个邻近样本所属类别的样本数。优选地,采用SVM对筛选后的训练样本进行训练,具体包括:建立SVM的分类判别函数;通过分类判别函数对k个领域文本训练样本进行训练。优选地,建立领域文本提取模型之后,还包括:对领域文本提取模型进行性能测试。相应地,基于KNN-SVM的文本特征提取系统,包括:创建模块:用于创建领域文本特征库;建立模块:用于建立领域文本训练样本集;样本筛选模块:用于采用KNN对领域文本的训练样本进行筛选;样本训练模块:用于采用SVM对筛选后的训练样本进行训练;输出模块:用于生成领域文本提取模型。优选地,所述创建模块,具体用于:提取领域文本的特征;构建文本特征提取模型的输入向量;将领域文本的特征存入文本特征库。优选地,所述样本筛选模块,具体用于:建立KNN的分类判别函数和决策函数;在训练样本集中,筛选出未知样本的K个邻近样本;统计K个邻近样本所属类别的样本数。优选地,具体用于:建立SVM的分类判别函数;通过分类判别函数对k个领域文本训练样本进行训练。优选地,还包括:测试模块:用于对领域文本提取模型进行性能测试。本专利技术与现有技术相比具有以下有益效果:本专利技术针对领域本文特征提取维数高、样本不平衡的情况,提供了一种基于KNN-SVM的领域文本特征提取方法和系统,缩短了建立领域文本特征提取模型的时间,加快了特征信息提取的速度,获得了较为理想的领域文本特征提取结果,提高了特征提取的正确率,可以满足特定的领域文本特征提取的在线要求,实用性极强。附图说明下面结合附图对本专利技术做进一步详细的说明;图1为本专利技术实施例一提供的基于KNN-SVM的领域文本特征提取方法的流程示意图;图2为本专利技术实施例一提供的基于KNN-SVM的领域文本特征提取方法中描述文本内容的有向图;图3为本专利技术实施例二提供的基于KNN-SVM的领域文本特征提取系统与基于单一KNN或SVM的建立领域文本特征提取系统的正确率对比图;图4为本专利技术实施例二提供的基于KNN-SVM的领域文本特征提取系统与基于单一KNN或SVM的建立领域文本特征提取系统的召回率对比图;图5为本专利技术实施例一提供的基于KNN-SVM的领域文本特征提取系统的结构示意图;图6为本专利技术实施例二提供的基于KNN-SVM的领域文本特征提取系统的结构示意图;图中:101为创建模块,102为建立模块,103为样本筛选模块,104为样本训练模块,105为输出模块,106为测试模块。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例;基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例一提供的基于KNN-SVM的领域文本特征提取方法的流程示意图,如图1所示,基于KNN-SVM的领域文本特征提取方法,包括:S101、创建领域文本特征库;S102、建立领域文本训练样本集;S103、采用KNN对领域文本的训练样本进行筛选;S104、采用SVM对筛选后的训练样本进行训练;S105、生成领域文本提取模型。具体地,所述创建领域文本特征库,具体包括:提取领域文本的特征;构建文本特征提取模型的输入向量;将领域文本的特征存入文本特征库。领域文本包括大量的内容,无法直接对领域文本进行特征提取操作,因此需要对文本内容进行分析,找出一些关键元素,如词、字、或短词等,提取领域特征;图2为本专利技术实施例一提供的基于KNN-SVM的领域文本特征提取方法中描述文本内容的有向图,如图2所示,本实施例一中,采用有向图描述文本内容,在图中,表示文本中的句子,NP表示文本中的名词,VP表示文本中的动词、JJ、NN、PP、VBD以及IN均表示文本的不同类型介词短语;设有向图节点gk的权重为:{ω1,ω2,…,ωk},它们的上限分别为则gn权重上限计算公式为支持度的下界为设节点总数为n,节点A和B出现次数分别为φA和φB,两者均出现次数为φAB,那么有sup(A)=φA/n、sup(B)=φB/n、sup(A,B)=φAB/n,权重计算公式为根据向有图的子图及权重就能够提取到该领域文本的特征向量。进一步地,采用KNN对领域文本的训练样本进行筛选,具体包括:建立KNN的分类判别函数和决策函数;在训练样本集中,筛选出未知类型样本的K个邻近样本;统计K个邻近样本所属类别的样本数;本实施例一中,训练样本集中假设共有N个样本,共有c种类别,对于未知类型的样本x,从N个样本中选择出它的K个近邻样本,然后统计K个近邻样本属于每一类的样本数,那么KNN的分类判别函数和决策函数分别计算公式为gi(x)=ki,i=1,2,L,c(4)式中,Hj表示类别。更进一步地,采用SVM对筛选后的训练样本进行训练,具体包括:建立SVM的分类判别函数;通过分类判别函数对k个领域文本训练样本进行训练;本实施例一中,设训练样本集为:{xi,yi},xi∈Rn,i=1,2,…,n,xi为输入向量,yi={1,-1},则支持向量机的分类平面为y=ωTΦ(x)+b(6)式中,ω和b为SVM的参数。要直接找到最优参数ω和b值十分困难,为了简化ω和b的求解过程,引入松弛因子ξi进行变换,得到式(6)的二次优化问题为s.t.y本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201710115584.html" title="基于KNN‑SVM的领域文本特征提取方法和系统原文来自X技术">基于KNN‑SVM的领域文本特征提取方法和系统</a>

【技术保护点】
基于KNN‑SVM的领域文本特征提取方法,其特征在于:包括:S101、创建领域文本特征库;S102、建立领域文本训练样本集;S103、采用KNN对领域文本的训练样本进行筛选;S104、采用SVM对筛选后的训练样本进行训练;S105、生成领域文本提取模型。

【技术特征摘要】
1.基于KNN-SVM的领域文本特征提取方法,其特征在于:包括:S101、创建领域文本特征库;S102、建立领域文本训练样本集;S103、采用KNN对领域文本的训练样本进行筛选;S104、采用SVM对筛选后的训练样本进行训练;S105、生成领域文本提取模型。2.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:所述创建领域文本特征库,具体包括:提取领域文本的特征;构建文本特征提取模型的输入向量;将领域文本的特征存入文本特征库。3.根据权利要求1或2所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:采用KNN对领域文本的训练样本进行筛选,具体包括:建立KNN的分类判别函数和决策函数;在训练样本集中,筛选出未知类型样本的K个邻近样本;统计K个邻近样本所属类别的样本数。4.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:采用SVM对筛选后的训练样本进行训练,具体包括:建立SVM的分类判别函数;通过分类判别函数对k个领域文本训练样本进行训练。5.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:建立领域文本提取模型之后,还包括:对领域文本提取模型进行性能测试。6.基于KNN-SVM的...

【专利技术属性】
技术研发人员:林荫张竹清朱莹莹
申请(专利权)人:常州大学怀德学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1