当前位置: 首页 > 专利查询>江苏大学专利>正文

一种专利文本自动分类方法技术

技术编号:19593340 阅读:46 留言:0更新日期:2018-11-28 04:52
本发明专利技术公开了一种专利文本自动分类方法,该方法包括专利文本分词、专利文本特征选择及向量化、基于k近邻策略的专利文本概率超图构建及基于超图学习的专利文本自动分类;在专利文本特征表示方面选取标题、摘要及主权项三个最能代表专利技术主题和法律特性的元素,然后分别统计每个特征词在三个部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重,相对于将整个专利文本看成一个整体处理的方式能够更加有效地描述专利文本的特征;在专利文本分类方面采用了基于概率超图半监督学习的方法,可以充分利用待测样本提供的样本结构分布信息来提高分类精度,从而可以在提供少量训练样本的情况下获得比较理想的分类精度和召回率。

【技术实现步骤摘要】
一种专利文本自动分类方法
本专利技术属于专利文献的计算机分析
,具体涉及一种基于概率超图半监督学习的专利文本自动分类方法。
技术介绍
随着科技的迅速发展及全球经济一体化趋势加剧,专利的作用越来越受到人们的重视。面对海量的专利数据,现有的专利文本分类主要依靠专家的人工分类,耗费大量的人力物力财力,同时难以保证分类的准确率。因此,如何借助于计算机技术来有效地解决专利文本自动分类问题具有重要的理论意义和实用价值。相对于传统的文本而言,专利文本具有领域词汇多、结构性及专业性强等特点,因此专利文本自动分类更具有挑战性。目前,基于传统文本分类方法,国内外学者已经提出了许多针对专利文本自动分类的方法。较早提出来的且比较有代表性的方法主要有支持向量机SVM、朴素贝叶斯、kNN(k近邻)等。Trappey等采用后向传播神经网络算法对IPC分类的小类和大组两个层级的专利文献进行自动分类,实验结果表明该方法取得比之前的分类方法更好的分类效果。He等提出了一种利用创新型关联规则自动构建基于TRIZ的专利分类方法,该方法能够发现专利文档特征的语义关系。Wu等提出的遗传算法与支持向量机融合的新算法(HGA本文档来自技高网...

【技术保护点】
1.一种专利文本自动分类方法,其特征在于,包括以下步骤:步骤一、基于概率超图的专利文本建模选取代表专利技术主题和法律特性的专利文本组成部分,分词处理后得到特征词,统计每个特征词在组成部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重;将超边内各顶点与超边相应类簇质心的相似度作为关联矩阵中相应元素的取值,并将超边内各顶点与超边相应类簇质心的相似度之和作为该超边的权重;步骤二、基于超图半监督学习的专利文本分类计算每个顶点对应各个类别的得分值,然后分别选取得分值最高的类别作为每个顶点的最终类别。

【技术特征摘要】
1.一种专利文本自动分类方法,其特征在于,包括以下步骤:步骤一、基于概率超图的专利文本建模选取代表专利技术主题和法律特性的专利文本组成部分,分词处理后得到特征词,统计每个特征词在组成部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重;将超边内各顶点与超边相应类簇质心的相似度作为关联矩阵中相应元素的取值,并将超边内各顶点与超边相应类簇质心的相似度之和作为该超边的权重;步骤二、基于超图半监督学习的专利文本分类计算每个顶点对应各个类别的得分值,然后分别选取得分值最高的类别作为每个顶点的最终类别。2.如权利要求1所述的一种专利文本自动分类方法,其特征在于,所述代表专利技术主题和法律特性的专利文本组成部分为标题、摘要及主权项。3.如权利要求1所述的一种专利文本自动分类方法,其特征在于,所述超边相应类簇质心的获取过程为:将每篇专利文本作为超图中的一个顶点,然后分别以每个顶点为基准构建一条超边,连接该顶点及其k个近邻顶点,对于每条超边,将该超边连接的k+1个...

【专利技术属性】
技术研发人员:刘桂锋汪满容
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1