【技术实现步骤摘要】
基于KNN-SVM的领域文本特征提取方法和系统
本专利技术属于领域文本提取的
,具体涉及一种基于KNN-SVM的领域文本特征提取方法。
技术介绍
各领域文本特征提取的实质是对文本进行分类,将文本分为某领域的文档或者非领域文档,若是领域文本则提取出来,否则不予提取,若是领域文本,则筛选出来。领域文本提取的分类器构建直接影响提取效果,当前常采用K近邻算法(Knearestneighboralgorithm,KNN)和支持向量机(supportvectormachine,SVM)建立领域文本的分类器,对于英文文本,它们获得了理想的提取效果,文本特征提取的虚警率低;然而对于中文文本,单一KNN或者SVM的提取效果很差,这是因为基于某一领域的中文文本样本分布极不平均、特征的维数高,若采用KNN进行处理,易出现“维数灾”难题,提取速度慢;SVM虽然不存在“维数灾”难题,但是对于大规模领域文本,训练时间长,无法满足领域文本在线提取要求。
技术实现思路
本专利技术克服现有技术存在的不足,所要解决的技术问题为:提供一种准确率较高的、提取速度较快的基于KNN-SVM的领域文本特征提 ...
【技术保护点】
基于KNN‑SVM的领域文本特征提取方法,其特征在于:包括:S101、创建领域文本特征库;S102、建立领域文本训练样本集;S103、采用KNN对领域文本的训练样本进行筛选;S104、采用SVM对筛选后的训练样本进行训练;S105、生成领域文本提取模型。
【技术特征摘要】
1.基于KNN-SVM的领域文本特征提取方法,其特征在于:包括:S101、创建领域文本特征库;S102、建立领域文本训练样本集;S103、采用KNN对领域文本的训练样本进行筛选;S104、采用SVM对筛选后的训练样本进行训练;S105、生成领域文本提取模型。2.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:所述创建领域文本特征库,具体包括:提取领域文本的特征;构建文本特征提取模型的输入向量;将领域文本的特征存入文本特征库。3.根据权利要求1或2所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:采用KNN对领域文本的训练样本进行筛选,具体包括:建立KNN的分类判别函数和决策函数;在训练样本集中,筛选出未知类型样本的K个邻近样本;统计K个邻近样本所属类别的样本数。4.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:采用SVM对筛选后的训练样本进行训练,具体包括:建立SVM的分类判别函数;通过分类判别函数对k个领域文本训练样本进行训练。5.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法,其特征在于:建立领域文本提取模型之后,还包括:对领域文本提取模型进行性能测试。6.基于KNN-SVM的...
【专利技术属性】
技术研发人员:林荫,张竹清,朱莹莹,
申请(专利权)人:常州大学怀德学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。