The embodiment of this application discloses a patent text feature extraction method and system. The scheme includes: input all target patent texts, construct patent datasets according to preset criteria; process Patent Texts in patent datasets using text vectorization algorithm; classify the processed Patent Texts and construct patent training set; input the patent training set, use the patent training set to train the neural network and extract the feature vectors of patent texts. \u3002 The scheme extracts feature vectors from a wider range of texts such as abstracts, detailed descriptions and claims of patents, and retains important information of Patent Texts as much as possible. It can ensure high accuracy and recall rate, and can meet the needs of practical application.
【技术实现步骤摘要】
一种专利文本特征提取方法及系统
本申请涉及计算机文本信息处理
,尤其涉及一种专利文本特征提取方法及系统。
技术介绍
随着科技的迅速发展及全球经济一体化趋势加剧,专利的作用越来越受到人们的重视。专利作为现代社会科学技术发展的衡量标志,在一定程度上起到风向标的作用。通过研究专利的发展脉络、提交数量、研究方向等信息,人们可以了解当下的技术热点、空白和壁垒,并推测下一个重要的技术爆发点等重要信息。这种专利研究决策的工作需要从海量专利文本中整理出有效信息。因此,专利的研究对社会科学技术发展起着非常重要的作用。但现有技术中,专利文本特征分析,不能保证较高的准确率和召回率,也不能很好地满足实际应用的需要。
技术实现思路
本申请实施例提供一种专利文本特征提取方法及装置,用以保证较高的准确率和召回率,并且满足了实际应用的需要。更加准确地对专利文本特征进行分析。本申请提供了一种专利文本特征提取方法,包括:输入全部目标专利文本,根据预设的准则构建专利数据集;利用文本的向量化算法处理专利数据集中的专利文本;对所述处理后的专利文本分类,构建专利训练集;输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量。进一步地,输入全部目标专利文本,根据预设的准则构建专利数据集,包括:根据预设的准则,构建的多个不同的专利数据集。进一步地,输入全部目标专利文本,根据预设的准则构建专利数据集,包括:根据预设的准则,提取任意一个专利的有效文本,来构成专利数据集中的单个专利样本;多个不同的所述专利样本,构建专利数据集。本申请中,提取专利的摘要、详细描述、权利要求等有效文本,有利 ...
【技术保护点】
1.一种专利文本特征提取方法,其特征在于,包括:输入全部目标专利文本,根据预设的准则构建专利数据集;利用文本的向量化算法处理专利数据集中的专利文本;对所述处理后的专利文本分类,构建专利训练集;输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量。
【技术特征摘要】
1.一种专利文本特征提取方法,其特征在于,包括:输入全部目标专利文本,根据预设的准则构建专利数据集;利用文本的向量化算法处理专利数据集中的专利文本;对所述处理后的专利文本分类,构建专利训练集;输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量。2.如权利要求1所述的方法,其特征在于,所述输入全部目标专利文本,根据预设的准则构建专利数据集,包括:输入全部目标专利文本,根据预设的准则,构建多个不同类别的结构化专利数据集,各个类别数据集相互独立。3.如权利要求1所述的方法,其特征在于,所述输入全部目标专利文本,根据预设的准则构建专利数据集,包括:根据预设的准则,提取任意一个专利的有效文本,来构成专利数据集中的单个专利样本;多个不同的所述专利样本,构建专利数据集。4.如权利要求1所述的方法,其特征在于,所述利用文本的向量化算法处理专利数据集中的专利文本,包括:采用向量化处理专利数据集中任意一个专利的有效文本。5.如权利要求1所述的方法,其特征在于,所述对所述处理后的专利文本分类,构建专利训练集,包括:将专利数据集根据预设的条件,划分多个主题;基于多个主题,利用主题分析模型算法提取专利数据集隐含的主题,计算每个专利样本对应的各个主题概率,确定专利样本的所属类别。6.如权利要求1所述的方法,其特征在于,所述输入所述专利训练集,利用所述专利训练集对神经网络训练,提取专利文本的特征向量,包括:基于所述专利训练集中的每一个样本,通过对神经网络参数的训练,输出连续值的特征向量。7.一种专利文本特征提取系统...
【专利技术属性】
技术研发人员:郑侃,齐家驹,侯璐,
申请(专利权)人:北京极智感科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。