基于KNN‑SVM的领域文本特征提取方法和系统技术方案

技术编号：15822692 阅读：33 留言：0更新日期：2017-07-15 04:54

本发明专利技术属于领域文本提取的技术领域，具体涉及一种基于KNN‑SVM的领域文本特征提取方法和系统；解决的技术问题为：提供一种准确率较高的、提取速度较快的基于KNN‑SVM的领域文本特征提取方法和系统；采用的技术方案为：基于KNN‑SVM的领域文本特征提取方法，包括：S101、创建领域文本特征库；S102、建立领域文本训练样本集；S103、采用KNN对领域文本的训练样本进行筛选；S104、采用SVM对筛选后的训练样本进行训练；S105、生成领域文本提取模型。

全部详细技术资料下载

【技术实现步骤摘要】
基于KNN-SVM的领域文本特征提取方法和系统
本专利技术属于领域文本提取的
，具体涉及一种基于KNN-SVM的领域文本特征提取方法。
技术介绍
各领域文本特征提取的实质是对文本进行分类，将文本分为某领域的文档或者非领域文档，若是领域文本则提取出来，否则不予提取，若是领域文本，则筛选出来。领域文本提取的分类器构建直接影响提取效果，当前常采用K近邻算法(Knearestneighboralgorithm，KNN)和支持向量机(supportvectormachine，SVM)建立领域文本的分类器，对于英文文本，它们获得了理想的提取效果，文本特征提取的虚警率低；然而对于中文文本，单一KNN或者SVM的提取效果很差，这是因为基于某一领域的中文文本样本分布极不平均、特征的维数高，若采用KNN进行处理，易出现“维数灾”难题，提取速度慢；SVM虽然不存在“维数灾”难题，但是对于大规模领域文本，训练时间长，无法满足领域文本在线提取要求。
技术实现思路
本专利技术克服现有技术存在的不足，所要解决的技术问题为：提供一种准确率较高的、提取速度较快的基于KNN-SVM的领域文本特征提取方法和系统。为了解决上述技术问题，本专利技术采用的技术方案为：基于KNN-SVM的领域文本特征提取方法，其特征在于：包括：S101、创建领域文本特征库；S102、建立领域文本训练样本集；S103、采用KNN对领域文本的训练样本进行筛选；S104、采用SVM对筛选后的训练样本进行训练；S105、生成领域文本提取模型。优选地，所述创建领域文本特征库，具体包括：提取领域文本的特征；构建文本特征提取模型...
<a href="http://www.xjishu.com/zhuanli/55/201710115584.html" title="基于KNN‑SVM的领域文本特征提取方法和系统原文来自X技术">基于KNN‑SVM的领域文本特征提取方法和系统</a>

【技术保护点】
基于KNN‑SVM的领域文本特征提取方法，其特征在于：包括：S101、创建领域文本特征库；S102、建立领域文本训练样本集；S103、采用KNN对领域文本的训练样本进行筛选；S104、采用SVM对筛选后的训练样本进行训练；S105、生成领域文本提取模型。

【技术特征摘要】
1.基于KNN-SVM的领域文本特征提取方法，其特征在于：包括：S101、创建领域文本特征库；S102、建立领域文本训练样本集；S103、采用KNN对领域文本的训练样本进行筛选；S104、采用SVM对筛选后的训练样本进行训练；S105、生成领域文本提取模型。2.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法，其特征在于：所述创建领域文本特征库，具体包括：提取领域文本的特征；构建文本特征提取模型的输入向量；将领域文本的特征存入文本特征库。3.根据权利要求1或2所述的基于KNN-SVM的领域文本特征提取方法，其特征在于：采用KNN对领域文本的训练样本进行筛选，具体包括：建立KNN的分类判别函数和决策函数；在训练样本集中，筛选出未知类型样本的K个邻近样本；统计K个邻近样本所属类别的样本数。4.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法，其特征在于：采用SVM对筛选后的训练样本进行训练，具体包括：建立SVM的分类判别函数；通过分类判别函数对k个领域文本训练样本进行训练。5.根据权利要求1所述的基于KNN-SVM的领域文本特征提取方法，其特征在于：建立领域文本提取模型之后，还包括：对领域文本提取模型进行性能测试。6.基于KNN-SVM的...

【专利技术属性】
技术研发人员：林荫，张竹清，朱莹莹，
申请(专利权)人：常州大学怀德学院，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人