一种基于MSVM‑WKNN算法的分类方法及其应用技术

技术编号:15617264 阅读:73 留言:0更新日期:2017-06-14 03:40
本发明专利技术主要属于信息分类领域,具体涉及一种基于MSVM‑WKNN算法分类的方法及其在人物关系分类中的应用。主要属于信息分类领域,具体涉及一种基于MSVM‑WKNN算法分类的方法及其在人物关系分类中的应用。发明专利技术在针对现有技术上在KNN算法类别划分过程中采用一种属性权重调整的方法对训练样本属性进行赋予特定的权值,即通过调整属性权重的方式来提高KNN算法类别划分的准确率。

【技术实现步骤摘要】
一种基于MSVM-WKNN算法的分类方法及其应用
本专利技术主要属于信息分类领域,具体涉及一种基于MSVM-WKNN算法分类的方法及其在人物关系分类中的应用。
技术介绍
随着互联网技术的快速发展,信息资源已经日积月累,所包含的人物关系是一种有重要价值的信息,它在情报分析、网络舆情监控、社会网络分析等领域都有着十分重要的应用。当需要对人物的社会关系进行分析和挖掘时,人物关系的提取是首要解决的问题。因此,在面对大规模的文本信息下提高人物关系提取的精度,从中准确的挖掘出有价值的信息,是现有技术中亟待解决的问题。现有技术中有利用改进的MSVM-KNN算法来对人物关系进行分类提取的,多类支持向量机算法(MSVM)和KNN算法相结合所形成的一种MSVM-KNN分类算法对人物关系进行分类提取(简称,MSVM-KNN算法)。MSVM-KNN算法在最近邻分类时对每个属性指定相同的权重(即,W=1),但事实上,不同的特征属性其重要性是不一样的,即使两个样本中相同的属性个数多,但如果这些特征属性并不重要,那么这两个样本的相似度并不高,对每个属性指定相同的权重影响分类准确率。
技术实现思路
基于上述问题,本专利技术提供了一种基于MSVM-WKNN算法分类的方法,该方法基于MSVM-WKNN算法,在对拒分向量分类是调整了各属性的权值,提高了分类的精度。同时提供了该方法在人物关系分类中的应用。本专利技术是通过以下技术方案实现的:一种基于MSVM-WKNN算法的人物关系提取方法,将一种基于MSVM-WKNN算法的分类方法用于人物关系分类提取,将候选人物关系集作为所述训练文本集,利用MSVM-WKNN算法对候选人物关系集进行训练构建人物关系分类提取模型,利用人物关系分类提取模型对未标记的分类语料库进行人物关系提取,获取人物关系分类提取结果,基于MSVM-WKNN算法的分类方法在分类过程中对属性赋于不同权重,基于MSVM-WKNN算法的人物关系提取方法显著提高人物关系分类、提取的精度。这种人物关系提取方法可用于对新闻网页、文本等中提及的人物间的关系的提取。进一步地,所述基于MSVM-WKNN算法的分类方法包括以下两个步骤:(1)利用MSVM算法向量生成:采用One-vs-One多类支持向量机对训练文本集进行学习训练,构建出k(k-1)/2个二类分类器;(2)利用WKNN算法类别划分:对多类支持向量机训练过程中产生的拒分向量集合中每个向量进行属性权重调整,用WKNN算法将属性权重调整后的向量划分到某个类别中完成分类。进一步地,所述属性权重调整具体为:对各特征属性加权,特征属性i的权值为Wi,所述权值依据特征属性i对分类的贡献,特征属性i对分类的贡献越大其权值越大。进一步地,特征属性i权值具体为,其中,Si为特征属性i的灵敏度,m为样本的属性特征维数;n为样本个数;为将整个训练样本库作为前馈神经网络的训练样本,采用BP神经网络算法,对神经网络进行训练,直到收敛为止,得到一个神经网络分类器,神经网络分类器对训练样本库的样本h分类的预测精度值为对特征属性i,将训练样本中所有样本的第i个特征属性的值均改为0,其他特征属性值不变,形成新的训练样本库Bi,然后在训练样本库Bi的基础上,重新训练神经网络分类器,此时神经网络分类器对训练样本库的样本h分类的预测精度值为表示对于的相对误差的绝对值。进一步地,用WKNN算法划分类别过程中利用加权的欧几里得距离来作为k近邻计算的依据;加权的欧几里距离为其中,X为拒分向量,X={x1,x2,…,xm,xa}xa为X类别值;YC为第C类的样本向量,为YC类别值;Wj为第j个属性的权值。进一步地,所述KNN算法中采用以待分类的拒分向量为圆心,以待分类拒分向量与拒分向量集合中心向量的距离加上待分类拒分向量与最大的支持向量的距离之和为半径的圆作为k近邻计算的范围。进一步地,所述候选人物关系集经过利用语义角色标注分析方法标注。进一步地,所述候选人物关系集通过以下步骤获得:1)中文分词和词性标注:利用分词系统对原始文本集进行中文分词和词性标注;2)人名识别:把词性标注为“nr”、“nr1”、“nr2”、“nrj”、“nrf”的词语视为人名,作为人物信息挖掘的触发词;3)指代消解:利用Hobbs算法进行明确代词与其先行词的指代关系,即选择同一个句子中出现的人名,选择离代词近的人名,通过自左向右层次遍历句法数来消解代词;4)句子切分与选取:将句号“。”、叹号“!”、问号“?”、分号“;”作为句子的切分标志;将句子中是否存在两个及两个以上的人名作为判断句子中是否含有人物关系的依据;5)候选关系生成:以句子为单位,提取人名实体对和人名实体对周围的词场特征值;取人名实体前后各两个词作为它们的词场,以词以及词的相对位置、词性、人名实体属性为特征生成向量,即为候选人物关系向量;6)人物关系标注:对生成的候选关系向量进行人物关系标注,形成候选人物关系训练集。进一步地,所用分词系统为中科院计算所的ICTCLAS2015分词系统。本专利技术的有益技术效果:本专利技术在针对现有技术上在KNN算法类别划分过程中采用一种属性权重调整的方法对训练样本属性进行赋予特定的权值,即通过调整属性权重的方式来提高KNN算法类别划分的准确率。另外,本专利技术首次采用灵敏度法的神经网络算法,利用机器学习的思想进行训练学习计算特征属性的权重,其效率和准确率更高,同时为k邻近算法属性权重的计算提供新方法和新思路。同时,本专利技术将此方法与多类支持向量机分类算法相结合应用到人物关系分类提取领域,提高了人物关系分类提取精度。附图说明图1、利用基于MSVM-WKNN算法的分类方法进行人物关系分类提取流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。相反,本专利技术涵盖任何由权利要求定义的在本专利技术的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本专利技术有更好的了解,在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。实施例1人物关系,是指人物在其特定的社会范围内与他人之间存在和产生的关系。在基于特征提取的人物关系提取问题中,人物关系特征向量PR=<RelationType,RelationFeature,Keywords>由人物关系类别、人物关系特征和关键词组成。根据人与人之间的熟悉程度和亲密程度关系划分,人物关系类型主要分为以下几类:家庭关系,工作关系,朋友关系,师生关系,合作关系以及共现关系。这里给了人物关系一个定义:对于人物关系PR,存在一个人物实体对Pair,满足对于任意实体对Pair=<P1,P2>属于PAIR,则PR<P1,P2>=True,其中PR<P1,P2>=True表示P1和P2满足关系类型PR。人物关系的提取是属于实体关系提取范畴,而实体关系提取大多是基于特征提取的方法,基于特征提取的人物关系包括以下几个主要处理过程:中文分词、词性标注、人物姓名识别、指代消解、语句选取、人物关系特征提取以及人物关系分本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201710015034.html" title="一种基于MSVM‑WKNN算法的分类方法及其应用原文来自X技术">基于MSVM‑WKNN算法的分类方法及其应用</a>

【技术保护点】
一种基于MSVM‑WKNN算法的人物关系提取方法,其特征在于,所述人物关系提取方法将一种基于MSVM‑WKNN算法的分类方法应用于人物关系分类提取,将候选人物关系集作为训练文本集,利用MSVM‑WKNN算法对候选人物关系集进行训练构建人物关系分类提取模型,利用人物关系分类提取模型对未标记的分类语料库进行人物关系提取,获取人物关系分类提取结果;基于MSVM‑WKNN算法的分类方法在分类过程中对属性赋于不同权重,基于MSVM‑WKNN算法的人物关系提取方法显著提高人物关系分类、提取的精度。

【技术特征摘要】
1.一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,所述人物关系提取方法将一种基于MSVM-WKNN算法的分类方法应用于人物关系分类提取,将候选人物关系集作为训练文本集,利用MSVM-WKNN算法对候选人物关系集进行训练构建人物关系分类提取模型,利用人物关系分类提取模型对未标记的分类语料库进行人物关系提取,获取人物关系分类提取结果;基于MSVM-WKNN算法的分类方法在分类过程中对属性赋于不同权重,基于MSVM-WKNN算法的人物关系提取方法显著提高人物关系分类、提取的精度。2.如权利要求1所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,所述基于MSVM-WKNN算法的分类方法包括以下两个步骤:(1)利用MSVM算法向量生成:采用One-vs-One多类支持向量机对候选人物关系集进行学习训练,构建出k(k-1)/2个二类分类器;(2)利用WKNN算法类别划分:对多类支持向量机训练过程中产生的拒分向量集合中每个向量进行属性权重调整,用WKNN算法将属性权重调整后的向量划分到某个类别中完成分类。3.如权利要求2所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,所述属性权重调整具体为:对各特征属性加权,特征属性i的权值为Wi,所述权值依据特征属性i对分类的贡献,特征属性i对分类的贡献越大其权值越大。4.如权利要求3所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,特征属性i权值具体为,其中,Si为特征属性i的灵敏度,m为样本的属性特征维数;n为样本个数;为将整个训练样本库作为前馈神经网络的训练样本,采用BP神经网络算法,对神经网络进行训练,直到收敛为止,得到一个神经网络分类器,神经网络分类器对训练样本库的样本h分类的预测精度值为对特征属性i,将训练样本中所有样本的第i个特征属性的值均改为0,其他特征属性值不变,形成新的训练样本库Bi,然后在训练样本库Bi的基础上,重新训练神经网络分类器,此时神经网络分类器对训练样本库的样本h分类的...

【专利技术属性】
技术研发人员:蔡磊王忠林
申请(专利权)人:东方网力科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1