一种基于说明书的专利分类方法技术

技术编号：16128812 阅读：27 留言：0更新日期：2017-09-01 20:50

本发明专利技术公开了一种基于说明书的专利分类方法，属于文本处理与数据挖掘领域。首先对专利说明书进行文本预处理；其后构建倒排索引文件，利用信息增益和词频相结合的特征选择方法来选取特征词；进一步利用的改进过的TF‑IDF公式计算特征词权重，并构建专利特征向量；然后构建训练专利领域集合；最后利用优化过的KNN分类器对专利进行分类。该项研究为专利文献分类提供了新的思路，也为进一步研究专利文献智能检索等奠定了基础。

A patent classification method based on instructions

The invention discloses a patent classification method based on an instruction manual, belonging to the field of text processing and data mining. The patent specification text preprocessing; then construct inverted index file, according to the characteristics of using information gain and frequency selection method to select feature words; TF IDF further improved the formula using the term weight calculation, and construct the patent feature vector; then constructs the training set patent field; finally using KNN classifier to optimize the classification of patent. This study provides a new way for classifying patent documents, and lays a foundation for further research on patent documents and intelligent retrieval.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于说明书的专利分类方法
本专利技术属于计算机分析技术在专利文献的的应用，具体涉及一种利用专利说明书的专利分类方法。
技术介绍
专利是技术创新和企业价值的具体表现，是知识发展和创新的重要载体、成果和源泉之一，许多专利技术创造成果仅出现于专利文献中。据世界知识产权组织(WIPO)统计，世界上专利技术成果的70％～90％首先出现在专利文献中，而不是杂志、论文等其他载体的文献中。此外，为了保护自身的利益，企业会尽可能早的申请专利，专利中往往集中了最为活跃和先进的技术，包含了世界上90％～95％的技术信息。同时为了审查的方便，专利文献往往撰写的比较详细，相对于其他类型的资料而言，专利文献能够提供更多的信息，是一种最常见的技术创新成果，记录着专利活动的完整过程。它不仅反映各个
中技术活动的现状，而且能够体现某个特定
中技术活动的发展历史。专利文献中含有每一件申请专利的专利技术创造的具体技术解决方案，对于企业创新具有非常重要的作用，不仅使企业可以了解最新科研动态，避免重复研究，节约研究时间和科研经费，同时还可启迪企业研究人员的创新思路，提高创新的起点，借鉴以往的专利技术，极大缩短科研工作进度。随着我国新研究成果和专利技术创造的不断涌现，专利数量呈现出快速的增长。截止2016年10月5日，我国已公布的专利技术专利数已超过598万件，其中授权专利技术专利总数为223.850万件。如果每个专利的平均大小为2M，则专利数据的容量高达几百TB。为了科学地管理这些专利文献数据，同时也为了快速、方便地检索相关专利文献，专利文献的分类显得尤为重要。目前，世界上大多数国...
一种基于说明书的专利分类方法

【技术保护点】
一种基于说明书的专利分类方法，其特征在于，包括以下步骤：步骤1，获取专利文本的数据，对专利说明书进行文本预处理；步骤2，统计出每个词的词频、位置信息、词性权重以及类间分布信息，利用这些统计值以及专利文本信息，构建倒排索引文件；步骤3，利用信息增益和词频相结合的特征选择方法来计算词语的特征值，对特征值排序，选择一定数量的特征词来表征专利文本；步骤4，利用倒排索引文件，计算每个专利特征词的权重，然后利用的改进过的TF‑IDF公式计算特征词权重，最后构建专利特征向量；步骤5，生成IPC各层次类别特征向量，在步骤1基础上，从小类开始逐层向上，计算每个词汇在对应层次的类别权重，权重的计算使用TF‑IDF，将一个类别描述看作一个文本，然后构建各层次的类别特征向量；步骤6，构建专利样本邻域，利用步骤4中的专利特征向量，计算每个专利与其他专利之间相似度，对这些专利相似度进行排序，选择其中相似度最大的K个专利，组成该专利的邻域集合；步骤7，计算待分类专利向量与IPC类别特征向量以及与训练集专利之间的余弦相似度值，同样计算出待分专利的邻域集合；步骤8，首先计算待分类专利与训练集中专利之间共享领域的大小，即...

【技术特征摘要】
1.一种基于说明书的专利分类方法，其特征在于，包括以下步骤：步骤1，获取专利文本的数据，对专利说明书进行文本预处理；步骤2，统计出每个词的词频、位置信息、词性权重以及类间分布信息，利用这些统计值以及专利文本信息，构建倒排索引文件；步骤3，利用信息增益和词频相结合的特征选择方法来计算词语的特征值，对特征值排序，选择一定数量的特征词来表征专利文本；步骤4，利用倒排索引文件，计算每个专利特征词的权重，然后利用的改进过的TF-IDF公式计算特征词权重，最后构建专利特征向量；步骤5，生成IPC各层次类别特征向量，在步骤1基础上，从小类开始逐层向上，计算每个词汇在对应层次的类别权重，权重的计算使用TF-IDF，将一个类别描述看作一个文本，然后构建各层次的类别特征向量；步骤6，构建专利样本邻域，利用步骤4中的专利特征向量，计算每个专利与其他专利之间相似度，对这些专利相似度进行排序，选择其中相似度最大的K个专利，组成该专利的邻域集合；步骤7，计算待分类专利向量与IPC类别特征向量以及与训练集专利之间的余弦相似度值，同样计算出待分专利的邻域集合；步骤8，首先计算待分类专利与训练集中专利之间共享领域的大小，即计算邻域集合中相同专利的个数。然后计算待分专利与专利类别间的相似度加权和，对加权和排序后，将待分专利划分为值最大的那个类中。2.根据权利要求1所述的一种基于说明书的专利分类方法，其特征在于：所述步骤1具体包括：专利样本数据的采集、样本IPC号、说明书的提取、中文分词、词性标注。去掉说明书中符号、数字；利用正则匹配过滤掉停用词、虚词、连接词等对专利分类用处不大的词语，仅保留名词、形容词、动词等关键词。3.根据权利要求1所述的一种基于说明书的专利分类方法，其特征在于：所述步骤3中特征值的计算过程为：设Aij为包含特征词ti并且属于cj的文档数量，Bij为包含特征词ti并且类别不属于cj的文档数量，Cij为不包含特征词ti并且类别属于cj的文档数量,Dij为不包含特征词ti并且类别属于不cj的文档数量，则特征值的计算如式(1)所示：其中，TF代表专利中词频对于专利特征选择的影响程度；设m为训练专利中类别总数，Nj表示cj类中的专利总数，TFjk表示特征词ti在cj类中专利Pk中的词频，则TF的计算如式(2)所示：式(1)中的IC代表特征词在类别间的分散程度，越分散说明该词越没有代表性，值也就越小；设TFj(ti)表示特征词ti在类cj中的频数，TF(ti)表示特征词ti的总频数，表示特征词ti在所有类中出现的频数平均值，则计算如式(3)所示：4.根据权利要求1所述的一种基于说明书的专利分类方法，其特征在于：所述步骤4的具体过程为：步骤4.1，权重计算，计算如式(4)所示。其中，...

【专利技术属性】
技术研发人员：朱玉全，金健，佘远程，石亮，
申请(专利权)人：江苏大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人