一种专利文本特征提取方法及系统技术方案

技术编号:20992699 阅读:23 留言:0更新日期:2019-04-29 22:38
本申请实施例公开了一种专利文本特征提取方法及系统。该方案包括:输入全部目标专利文本,根据预设的准则构建专利数据集;利用文本的向量化算法处理专利数据集中的专利文本;对所述处理后的专利文本分类,构建专利训练集;输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量。该方案使用专利的摘要、详细描述、权利要求等更大范围文本来提取特征向量,尽可能地保留专利文本的重要信息,能保证较高的准确率和召回率,可以很好地满足实际应用的需要。

\u4e00\u79cd\u4e13\u5229\u6587\u672c\u7279\u5f81\u63d0\u53d6\u65b9\u6cd5\u53ca\u7cfb\u7edf

The embodiment of this application discloses a patent text feature extraction method and system. The scheme includes: input all target patent texts, construct patent datasets according to preset criteria; process Patent Texts in patent datasets using text vectorization algorithm; classify the processed Patent Texts and construct patent training set; input the patent training set, use the patent training set to train the neural network and extract the feature vectors of patent texts. \u3002 The scheme extracts feature vectors from a wider range of texts such as abstracts, detailed descriptions and claims of patents, and retains important information of Patent Texts as much as possible. It can ensure high accuracy and recall rate, and can meet the needs of practical application.

【技术实现步骤摘要】
一种专利文本特征提取方法及系统
本申请涉及计算机文本信息处理
,尤其涉及一种专利文本特征提取方法及系统。
技术介绍
随着科技的迅速发展及全球经济一体化趋势加剧,专利的作用越来越受到人们的重视。专利作为现代社会科学技术发展的衡量标志,在一定程度上起到风向标的作用。通过研究专利的发展脉络、提交数量、研究方向等信息,人们可以了解当下的技术热点、空白和壁垒,并推测下一个重要的技术爆发点等重要信息。这种专利研究决策的工作需要从海量专利文本中整理出有效信息。因此,专利的研究对社会科学技术发展起着非常重要的作用。但现有技术中,专利文本特征分析,不能保证较高的准确率和召回率,也不能很好地满足实际应用的需要。
技术实现思路
本申请实施例提供一种专利文本特征提取方法及装置,用以保证较高的准确率和召回率,并且满足了实际应用的需要。更加准确地对专利文本特征进行分析。本申请提供了一种专利文本特征提取方法,包括:输入全部目标专利文本,根据预设的准则构建专利数据集;利用文本的向量化算法处理专利数据集中的专利文本;对所述处理后的专利文本分类,构建专利训练集;输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量。进一步地,输入全部目标专利文本,根据预设的准则构建专利数据集,包括:根据预设的准则,构建的多个不同的专利数据集。进一步地,输入全部目标专利文本,根据预设的准则构建专利数据集,包括:根据预设的准则,提取任意一个专利的有效文本,来构成专利数据集中的单个专利样本;多个不同的所述专利样本,构建专利数据集。本申请中,提取专利的摘要、详细描述、权利要求等有效文本,有利于更加完整的保留专利文本的重要信息,为后续专利分析奠定了基础。进一步地,利用文本的向量化算法处理专利数据集中的专利文本,包括:采用向量化处理专利数据集中任意一个专利的有效文本。进一步地,对所述处理后的专利文本分类,构建专利训练集;包括:将专利数据集根据预设的条件,划分多个主题;基于多个主题,利用主题分析模型算法提取专利数据集隐含的主题,计算每个专利样本对应的各个主题概率,确定专利样本的所属类别。在本申请中,对专利数据集分类,有利于后续进一步对神经网络的训练。进一步地,输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量,包括:基于所述专利训练集中的每一个样本,通过对神经网络参数的训练,输出连续值的特征向量。在本申请中,通过神经网络的普适性提取的专利的特征向量,具备专利类别及数据集变化的自适应性;并且,输出的特征向量是连续值,可以表示在连续的向量空间中,反映出专利之间的量化关系,有利于进一步的采用数学方法对专利进行分析。对应地,本申请提供了一种专利文本特征提取系统,包括:构建模块,用于输入全部目标专利文本,根据预设的准则构建专利数据集;处理模块,用于利用文本的向量化算法处理专利数据集中的专利文本;训练模块,用于对所述处理后的专利文本分类,构建专利训练集;输出模块,用于基于所述专利训练集,通过对神经网络参数的训练,输出专利数据集中的特征向量。进一步地,构建模块,输入全部目标专利文本,根据预设的准则构建专利数据集,包括:根据预设的准则,构建多个不同的专利数据集。进一步地,构建模块,输入全部目标专利文本,根据预设的准则构建专利数据集,包括:根据预设的准则,提取任意一个专利的有效文本,来构成专利数据集中的单个专利样本;多个不同的所述专利样本,构建专利数据集。进一步地,处理模块,利用文本的向量化算法处理专利数据集中的专利文本,包括:采用向量化处理专利数据集中任意一个专利的有效文本。进一步地,训练模块,对所述处理后的专利文本分类,构建专利训练集;包括:将专利数据集根据预设的条件,划分多个主题;基于多个主题,利用主题分析模型算法提取专利数据集隐含的主题,计算每个专利样本对应的各个主题概率,确定专利样本的所属类别。进一步地,输出模块,输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量,包括:基于所述专利训练集中的每一个样本,通过对神经网络参数的训练,输出连续的特征向量。综上所述,本申请实施例采用的上述至少一个技术方案能够达到以下有效效果:该方案实现了使用专利的摘要、详细描述、权利要求等更大范围文本来提取特征向量,尽可能地保留专利文本的重要信息,能保证较高的准确率和召回率,可以很好地满足实际应用的需要;直接使用专利的初始文本训练文本学习神经网络,保留了初始文本的全部词语和语序信息;文本学习神经网络提取得到的特征向量是连续值,得到的特征向量可以较好地准确反映出专利之间的量化关系,也有利于进一步的采用数学方法对专利进行分析;提取的特征向量具备专利类别及数据集变化的自适应性;提取的特征向量具有唯一性。附图说明图1为本申请实施例提供的一种专利文本特征提取方法的流程示意图;图2为本申请实施例提供的一种专利文本特征提取方法的操作步骤流程图;图3为本申请实施例提供的一种卷积神经网络的结构示意图;图4为本申请实施例提供的一种专利文本特征提取系统的流程示意图;图5为本申请实施例提供的一种特征向量的数值分布概率密度统计图;图6为本申请实施例提供的一种使用PCA算法得到的特征向量在二维可视化向量空间的分布图;图7为本申请实施例提供的一种使用PCA算法得到的特征向量分类别展示在二维向量空间的分布图;图8为本申请实施例提供的一种示例专利与其他专利的特征向量欧式距离数值分布概率密度统计图;图9为本申请实施例提供的一种示例专利与其他分类别专利的特征向量欧式距离数值分布概率密度统计图;图10为本申请实施例提供的一种特征向量欧式距离数值分布概率密度统计图。具体实施方式本申请实施例提供一种专利文本特征提取方法及系统,能保证较高的准确率和召回率,并且很好地满足实际应用的需要。参见图1,本申请提供了一种专利文本特征提取方法,包括:S101:输入全部目标专利文本,根据预设的准则构建专利数据集;S103:利用文本的向量化算法处理专利数据集中的专利文本;S105:对所述处理后的专利文本分类,构建专利训练集;S107:输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量。本申请实施例中,利用主题分析模型算法提取专利数据集隐含的主题,并计算每个专利对应的各个主题的概率,完成对该专利所属类别的标记,构建了专利训练集;并且使用专利的摘要、详细描述、权利要求等更大范围文本来提取特征向量,尽可能地保留专利文本的重要信息,能保证较高的准确率和召回率,并且可以很好地满足实际应用的需要。下面完整叙述一种专利文本提取特征向量具体操作步骤,参见图2。步骤一:根据给定的准则,构建多个专利数据集,分别为专利数据集1、专利数据集2、专利数据集3、专利数据集4、专利数据集5。步骤二:提取专利数据集中的每一个专利的有效文本,利用文本处理算法对所述有效文本进行向量化处理。步骤三:用主题模型分析算法找出每个专利的隐含的主题,可以根据提取出专利数据集的若干关键字或者主题词,将专利数据集聚类到几个主题上,分别为主题1、主题2、主题3、主题4等,将每个专利根据找出的隐含主题,归入对应的主题中;然后计算每个专利样本对应的各个主题概率,来确定该专利样本的所属类别,从而将所有本文档来自技高网...

【技术保护点】
1.一种专利文本特征提取方法,其特征在于,包括:输入全部目标专利文本,根据预设的准则构建专利数据集;利用文本的向量化算法处理专利数据集中的专利文本;对所述处理后的专利文本分类,构建专利训练集;输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量。

【技术特征摘要】
1.一种专利文本特征提取方法,其特征在于,包括:输入全部目标专利文本,根据预设的准则构建专利数据集;利用文本的向量化算法处理专利数据集中的专利文本;对所述处理后的专利文本分类,构建专利训练集;输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量。2.如权利要求1所述的方法,其特征在于,所述输入全部目标专利文本,根据预设的准则构建专利数据集,包括:输入全部目标专利文本,根据预设的准则,构建多个不同类别的结构化专利数据集,各个类别数据集相互独立。3.如权利要求1所述的方法,其特征在于,所述输入全部目标专利文本,根据预设的准则构建专利数据集,包括:根据预设的准则,提取任意一个专利的有效文本,来构成专利数据集中的单个专利样本;多个不同的所述专利样本,构建专利数据集。4.如权利要求1所述的方法,其特征在于,所述利用文本的向量化算法处理专利数据集中的专利文本,包括:采用向量化处理专利数据集中任意一个专利的有效文本。5.如权利要求1所述的方法,其特征在于,所述对所述处理后的专利文本分类,构建专利训练集,包括:将专利数据集根据预设的条件,划分多个主题;基于多个主题,利用主题分析模型算法提取专利数据集隐含的主题,计算每个专利样本对应的各个主题概率,确定专利样本的所属类别。6.如权利要求1所述的方法,其特征在于,所述输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量,包括:基于所述专利训练集中的每一个样本,通过对神经网络参数的训练,输出连续值的特征向量。7.一种专利文本特征提取系统...

【专利技术属性】
技术研发人员:郑侃齐家驹侯璐
申请(专利权)人:北京极智感科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1