System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于专利价值评估,具体涉及一种基于自然语言处理技术的专利价值评估方法。
技术介绍
1、在当前信息爆炸的时代,专利是保护创新成果的重要工具,对于专利技术者、企业和整个社会都具有巨大的意义和价值,对其价值的评估自然也至关重要。然而,现有的专利价值评估方法主要集中在引文和分类代码的分析上,或者使用通用的词嵌入模型来进行文本特征提取,通过聚类等方法识别有价值的专利,这些方法存在一些限制。首先,引文和分类代码的分析可能无法全面反映专利的技术创新程度和商业价值。其次,通用的词嵌入模型可能无法很好地捕捉专利领域的特定语义信息,导致对专利文本的内容提取不到位。
2、因此,针对上述问题,予以进一步改进。
技术实现思路
1、本专利技术的主要目的在于提供一种基于自然语言处理技术的专利价值评估方法,引入了一个新的评估专利价值的指标,使用了更先进的关键词提取和词嵌入模型,为专利价值的研究提供了一种新的解决思路。
2、为达到以上目的,本专利技术提供一种基于自然语言处理技术的专利价值评估方法,包括以下步骤:
3、步骤s1:制作预设领域的专利数据集,并且对专利数据集进行预处理;
4、步骤s2:使用关键词提取技术提取步骤s1中专利数据集的关键词,统计每个专利中新出现多元词组数量,以其在之后的专利中出现的次数作为权重;
5、步骤s3:使用预训练的词嵌入模型将步骤s2中提取到的关键词向量化,平均后得到专利向量;
6、步骤s4:利用专利向量
7、步骤s5:利用步骤s2中加权后的新数组数量和步骤s4中的专利之间的余弦相似度,综合判断专利的价值。
8、作为上述技术方案的进一步优选的技术方案,专利数据集包括收集的各个专利的申请号、题目、摘要、专利技术人、申请人、提交日期和公示日期,预处理包括合并题目和摘要,删除文本中的括号及其内部内容(删除停止词,识别和处理词干和大小写转换)。
9、作为上述技术方案的进一步优选的技术方案,步骤s2中对于关键词提取具体实施为:
10、通过nltk模块进行词性标注,识别多元词组,以其他词性的(单)词作为结束标志,并保留离词组最近的形容词。
11、作为上述技术方案的进一步优选的技术方案,在步骤s2中,为每个专利建立一个词典,关键词为新出现的多元词组,先并将其数量初始化为1,以此专利提交时间为节点,之后提交的专利中统计这个多元词组出现的次数,开根号后作为权重赋为该多元词组的值;统计每个专利词典中所有多元词组的值,求和后作为此专利的加权后的多元词组数量。
12、作为上述技术方案的进一步优选的技术方案,步骤s3中,专利向量的计算方式如下:
13、将步骤s2中提取到的专利关键词输入到词嵌入模型,未被词嵌入模型识别的(单)词舍弃:
14、
15、作为上述技术方案的进一步优选的技术方案,步骤s4中,以专利提交日期为节点,分别计算专利的前向相似度和后向相似度,并将后向相似度除以前向相似度得到最后的相似分数,(前向相似度越低越能体现专利的创新度;后向相似度越高越能体现专利研究内容的影响力)其中:
16、前向相似度计算公式如下:
17、forward_similaritya=∑file data of b<file date of acos_similarity(a,b)/length;
18、后向相似度计算公式如下:
19、backward_similaritya=∑file data of b>file date of acos_similarity(a,b)/length。
20、作为上述技术方案的进一步优选的技术方案,在步骤s5中,依据加权后的新数组的数量和专利之间的余弦相似度得到两个排名,两个排名相加得到最后的专利价值排名。
本文档来自技高网...【技术保护点】
1.一种基于自然语言处理技术的专利价值评估方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自然语言处理技术的专利价值评估方法,其特征在于,专利数据集包括收集的各个专利的申请号、题目、摘要、专利技术人、申请人、提交日期和公示日期,预处理包括合并题目和摘要,删除文本中的括号及其内部内容。
3.根据权利要求1所述的一种基于自然语言处理技术的专利价值评估方法,其特征在于,步骤S2中对于关键词提取具体实施为:
4.根据权利要求3所述的一种基于自然语言处理技术的专利价值评估方法,其特征在于,在步骤S2中,为每个专利建立一个词典,关键词为新出现的多元词组,先并将其数量初始化为1,以此专利提交时间为节点,之后提交的专利中统计这个多元词组出现的次数,开根号后作为权重赋为该多元词组的值;统计每个专利词典中所有多元词组的值,求和后作为此专利的加权后的多元词组数量。
5.根据权利要求1所述的一种基于自然语言处理技术的专利价值评估方法,其特征在于,步骤S3中,专利向量的计算方式如下:
6.根据权利要求1所述的一种基于自然语言处理
7.根据权利要求1所述的一种基于自然语言处理技术的专利价值评估方法,其特征在于,在步骤S5中,依据加权后的新数组的数量和专利之间的余弦相似度得到两个排名,两个排名相加得到最后的专利价值排名。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于自然语言处理技术的专利价值评估方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于自然语言处理技术的专利价值评估方法的步骤。
...【技术特征摘要】
1.一种基于自然语言处理技术的专利价值评估方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自然语言处理技术的专利价值评估方法,其特征在于,专利数据集包括收集的各个专利的申请号、题目、摘要、发明人、申请人、提交日期和公示日期,预处理包括合并题目和摘要,删除文本中的括号及其内部内容。
3.根据权利要求1所述的一种基于自然语言处理技术的专利价值评估方法,其特征在于,步骤s2中对于关键词提取具体实施为:
4.根据权利要求3所述的一种基于自然语言处理技术的专利价值评估方法,其特征在于,在步骤s2中,为每个专利建立一个词典,关键词为新出现的多元词组,先并将其数量初始化为1,以此专利提交时间为节点,之后提交的专利中统计这个多元词组出现的次数,开根号后作为权重赋为该多元词组的值;统计每个专利词典中所有多元词组的值,求和后作为此专利的加权后的多元词组数量。
5.根据权利要求1所述的一种基于自然语言处理技术的专利价值评...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。