当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于说明书的专利分类方法技术

技术编号:16128812 阅读:27 留言:0更新日期:2017-09-01 20:50
本发明专利技术公开了一种基于说明书的专利分类方法,属于文本处理与数据挖掘领域。首先对专利说明书进行文本预处理;其后构建倒排索引文件,利用信息增益和词频相结合的特征选择方法来选取特征词;进一步利用的改进过的TF‑IDF公式计算特征词权重,并构建专利特征向量;然后构建训练专利领域集合;最后利用优化过的KNN分类器对专利进行分类。该项研究为专利文献分类提供了新的思路,也为进一步研究专利文献智能检索等奠定了基础。

A patent classification method based on instructions

The invention discloses a patent classification method based on an instruction manual, belonging to the field of text processing and data mining. The patent specification text preprocessing; then construct inverted index file, according to the characteristics of using information gain and frequency selection method to select feature words; TF IDF further improved the formula using the term weight calculation, and construct the patent feature vector; then constructs the training set patent field; finally using KNN classifier to optimize the classification of patent. This study provides a new way for classifying patent documents, and lays a foundation for further research on patent documents and intelligent retrieval.

【技术实现步骤摘要】
一种基于说明书的专利分类方法
本专利技术属于计算机分析技术在专利文献的的应用,具体涉及一种利用专利说明书的专利分类方法。
技术介绍
专利是技术创新和企业价值的具体表现,是知识发展和创新的重要载体、成果和源泉之一,许多专利技术创造成果仅出现于专利文献中。据世界知识产权组织(WIPO)统计,世界上专利技术成果的70%~90%首先出现在专利文献中,而不是杂志、论文等其他载体的文献中。此外,为了保护自身的利益,企业会尽可能早的申请专利,专利中往往集中了最为活跃和先进的技术,包含了世界上90%~95%的技术信息。同时为了审查的方便,专利文献往往撰写的比较详细,相对于其他类型的资料而言,专利文献能够提供更多的信息,是一种最常见的技术创新成果,记录着专利活动的完整过程。它不仅反映各个
中技术活动的现状,而且能够体现某个特定
中技术活动的发展历史。专利文献中含有每一件申请专利的专利技术创造的具体技术解决方案,对于企业创新具有非常重要的作用,不仅使企业可以了解最新科研动态,避免重复研究,节约研究时间和科研经费,同时还可启迪企业研究人员的创新思路,提高创新的起点,借鉴以往的专利技术,极大缩短科研工作进度。随着我国新研究成果和专利技术创造的不断涌现,专利数量呈现出快速的增长。截止2016年10月5日,我国已公布的专利技术专利数已超过598万件,其中授权专利技术专利总数为223.850万件。如果每个专利的平均大小为2M,则专利数据的容量高达几百TB。为了科学地管理这些专利文献数据,同时也为了快速、方便地检索相关专利文献,专利文献的分类显得尤为重要。目前,世界上大多数国家均采用国际专利分类法IPC(InternationalPatentClassification)来对专利文献进行分类,IPC按照五个等级分类,即部(Section)、大类(Class)、小类(Subclass)、主组(MainGrop)、分组(Grop),其中部是分类表中最高等级的分类层,按照领域不同,分为八个大部,用一位的英文字母标记,分别是A-H,每个部分下属设有多个大类,大类是由二位数字组成,每个部下面有不同数量的大类。例如:G06F21/00表示物理-电数字数据处理-防止未授权行为的保护计算机、其部件、程序或数据的安全装置。由此可见,对于已或即将公布的专利技术专利而言,必须赋予一个或多个与之对应的分类号,如专利技术专利“一种关联规则挖掘中隐私数据的保护方法”的分类号为G06F21/00。对于即将提交的申请专利来讲,其分类号是未知并需要确定的,对此,目前常用的做法是根据专利描述对象的所属领域或专利内容来确定,需要依靠相关专家人工阅读申请书,随着专利申请量的急剧增加(每年的专利申请数已接近100万),此方法需要耗费大量的人力和物力,而且专家自身知识的局限性也难以保证分类结果的一致性和准确性。为此,本专利技术提出了一种基于专利文献说明书的专利分类方法,该方法利用已公布专利技术专利说明书中的信息来构造分类器或分类函数,并以此来确定申请专利的类别,由此实现专利的自动分类。
技术实现思路
本专利技术的目的在于针对现有专利分类方法不能充分有效地利用已公布专利技术专利中的说明书信息,提出一种基于专利文献说明书的专利分类方法,该方法将充分利用已公布专利技术专利所包含的说明书信息以及对应的类别来构造分类器或分类函数,以此来确定已提交申请专利的类别,并就构造过程中说明书的特征提取和选择、分类器的确定等方面提出了相应的优化解决方案。本专利技术采用的技术方案是:基于专利文献说明书的专利分类方法主要包括以下步骤:(1)专利数据预处理专利样本数据的采集、样本IPC号、说明书的提取、中文分词、词性标注。去掉说明书中符号、数字(说明书中存在大量的段落标号)。利用正则匹配过滤掉停用词、虚词、连接词等对专利分类用处不大的词语,仅保留名词、形容词、动词等关键词。(2)构建倒排索引文件统计出每个词的词频、位置信息、词性权重以及类间分布信息,利用这些统计值以及专利文本信息,构建倒排索引文件。(3)专利文本特征选择利用信息增益和词频相结合的特征选择方法来计算步骤(2)中词语的特征值,对特征值排序,选择一定数量的特征词来表征专利文本。设Aij为包含特征词ti并且属于cj的文档数量,Bij为包含特征词ti并且类别不属于cj的文档数量,Cij为不包含特征词ti并且类别属于cj的文档数量,Dij为不包含特征词ti并且类别属于不cj的文档数量,则特征值的计算如式(1)所示。其中,TF代表专利中词频对于专利特征选择的影响程度。设m为训练专利中类别总数,Nj表示cj类中的专利总数,TFjk表示特征词ti在cj类中专利Pk中的词频,则TF的计算如式(2)所示。式(1)中的IC代表特征词在类别间的分散程度,越分散说明该词越没有代表性,值也就越小。设TFj(ti)表示特征词ti在类cj中的频数,TF(ti)表示特征词ti的总频数,表示特征词ti在所有类中出现的频数平均值,则计算如式(3)所示。(4)专利文本向量化本步骤把包括:①权重计算,计算如式(4)所示。其中,表示特征词t在文本中出现的频率,N表示全部专利样本集中所有专利的个数,n表示全部专利样本集中出现特征词t的专利个数,Ct表示特征词词性所对应的词性权重系数,Pt表示特征词的位置权重系数。②排序,根据权重降序排序,构造专利文本的空间模型向量Vi(wi1,wi2,...,win),以此来表示每个专利文本的内容。(5)生成IPC各层次类别特征向量本步骤包括:①将各子组的类别描述并入所属主组的类别描述,进行分词、去停用词处理。②将每个主组的描述合并后进行特征选择,构造IPC小类层次的类别特征向量,向量表示为{VA01B1/00,VA01B3/00,...,VH99Z99/00}。其中,A01B1/00为IPC中第一个主组,H99Z99/00为IPC中最后一个主组。③将同一个小类下的所有基本描述合并后进行特征选择,构造IPC大类层次的类别特征向量,向量表示为{VA01B,VA01C,...,VH99Z}。其中,A01B为IPC中第一个小类,H99Z是IPC中最后一个小类。④将同一大类下的所有基本描述合并后进行特征选择,构造IPC部层次的类别特征向量,向量表示为{VA01,VA21,...,VH99}。其中,A01为IPC中第一个大类,H99Z是IPC中最后一个大类。(6)构建专利样本邻域本步骤包括:①计算专利训练集中各专利之间的相似度。相似度可以通过计算向量间的夹角余弦得到。设sim(di,dj)表示专利文本di与dj的相似度,则计算公式如式(5)所示。其中,Wik和Wjk表示专利向量中对应特证词的权重,n表示向量的维数。②将di与其他所有专利样本dj的相似度按降序排序,选择前K个专利样本形成集合Di,Di称作为专利di的邻域,K的值视具体情况而定。(7)待分类专利相似度计算本步骤包括:①待分类专利进行说明书的提取、中文分词、词性标注、去停用词。②专利特征选择和向量化。③计算待分类专利Bj特征向量与各IPC类别特征向量的余弦相似度Sai。④计算待分类专利Bj与专利训练集中每个专利的余弦相似度Sbj。⑤将上述的训练专利按相似度值Sbj降序排序,选择最前面K个专利作为其邻域集合。(8)分类决策本步骤包括:①计算待本文档来自技高网
...
一种基于说明书的专利分类方法

【技术保护点】
一种基于说明书的专利分类方法,其特征在于,包括以下步骤:步骤1,获取专利文本的数据,对专利说明书进行文本预处理;步骤2,统计出每个词的词频、位置信息、词性权重以及类间分布信息,利用这些统计值以及专利文本信息,构建倒排索引文件;步骤3,利用信息增益和词频相结合的特征选择方法来计算词语的特征值,对特征值排序,选择一定数量的特征词来表征专利文本;步骤4,利用倒排索引文件,计算每个专利特征词的权重,然后利用的改进过的TF‑IDF公式计算特征词权重,最后构建专利特征向量;步骤5,生成IPC各层次类别特征向量,在步骤1基础上,从小类开始逐层向上,计算每个词汇在对应层次的类别权重,权重的计算使用TF‑IDF,将一个类别描述看作一个文本,然后构建各层次的类别特征向量;步骤6,构建专利样本邻域,利用步骤4中的专利特征向量,计算每个专利与其他专利之间相似度,对这些专利相似度进行排序,选择其中相似度最大的K个专利,组成该专利的邻域集合;步骤7,计算待分类专利向量与IPC类别特征向量以及与训练集专利之间的余弦相似度值,同样计算出待分专利的邻域集合;步骤8,首先计算待分类专利与训练集中专利之间共享领域的大小,即计算邻域集合中相同专利的个数。然后计算待分专利与专利类别间的相似度加权和,对加权和排序后,将待分专利划分为值最大的那个类中。...

【技术特征摘要】
1.一种基于说明书的专利分类方法,其特征在于,包括以下步骤:步骤1,获取专利文本的数据,对专利说明书进行文本预处理;步骤2,统计出每个词的词频、位置信息、词性权重以及类间分布信息,利用这些统计值以及专利文本信息,构建倒排索引文件;步骤3,利用信息增益和词频相结合的特征选择方法来计算词语的特征值,对特征值排序,选择一定数量的特征词来表征专利文本;步骤4,利用倒排索引文件,计算每个专利特征词的权重,然后利用的改进过的TF-IDF公式计算特征词权重,最后构建专利特征向量;步骤5,生成IPC各层次类别特征向量,在步骤1基础上,从小类开始逐层向上,计算每个词汇在对应层次的类别权重,权重的计算使用TF-IDF,将一个类别描述看作一个文本,然后构建各层次的类别特征向量;步骤6,构建专利样本邻域,利用步骤4中的专利特征向量,计算每个专利与其他专利之间相似度,对这些专利相似度进行排序,选择其中相似度最大的K个专利,组成该专利的邻域集合;步骤7,计算待分类专利向量与IPC类别特征向量以及与训练集专利之间的余弦相似度值,同样计算出待分专利的邻域集合;步骤8,首先计算待分类专利与训练集中专利之间共享领域的大小,即计算邻域集合中相同专利的个数。然后计算待分专利与专利类别间的相似度加权和,对加权和排序后,将待分专利划分为值最大的那个类中。2.根据权利要求1所述的一种基于说明书的专利分类方法,其特征在于:所述步骤1具体包括:专利样本数据的采集、样本IPC号、说明书的提取、中文分词、词性标注。去掉说明书中符号、数字;利用正则匹配过滤掉停用词、虚词、连接词等对专利分类用处不大的词语,仅保留名词、形容词、动词等关键词。3.根据权利要求1所述的一种基于说明书的专利分类方法,其特征在于:所述步骤3中特征值的计算过程为:设Aij为包含特征词ti并且属于cj的文档数量,Bij为包含特征词ti并且类别不属于cj的文档数量,Cij为不包含特征词ti并且类别属于cj的文档数量,Dij为不包含特征词ti并且类别属于不cj的文档数量,则特征值的计算如式(1)所示:其中,TF代表专利中词频对于专利特征选择的影响程度;设m为训练专利中类别总数,Nj表示cj类中的专利总数,TFjk表示特征词ti在cj类中专利Pk中的词频,则TF的计算如式(2)所示:式(1)中的IC代表特征词在类别间的分散程度,越分散说明该词越没有代表性,值也就越小;设TFj(ti)表示特征词ti在类cj中的频数,TF(ti)表示特征词ti的总频数,表示特征词ti在所有类中出现的频数平均值,则计算如式(3)所示:4.根据权利要求1所述的一种基于说明书的专利分类方法,其特征在于:所述步骤4的具体过程为:步骤4.1,权重计算,计算如式(4)所示。其中,...

【专利技术属性】
技术研发人员:朱玉全金健佘远程石亮
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1