一种基于领域专利数据的技术创新主题挖掘方法技术

技术编号:28872579 阅读:18 留言:0更新日期:2021-06-15 23:05
本发明专利技术公开了一种基于领域专利数据的技术创新主题挖掘方法,属于数据挖掘处理技术领域,运用TF‑IDF、困惑度和四分位数法构建领域专利的LDA主题模型;利用所述LDA主题模型输出的概率分布矩阵,结合专利价值评价指标,构建量化指标体系;选取领域专利进行验证试验,计算量化指标并运用热力图对其可视化,识别出技术创新主题;基于专利、LDA的输出矩阵、创新主题和量化指标之间的映射关系,进行专利筛选和技术创新主题的合理标记。本发明专利技术能够快速有效地挖掘出领域内多个技术创新主题,为技术创新方向的确定提供借鉴。

【技术实现步骤摘要】
一种基于领域专利数据的技术创新主题挖掘方法
本专利技术涉及数据挖掘处理
,具体地说是一种基于领域专利数据的技术创新主题挖掘方法。
技术介绍
基于领域专利引用特征的技术主题识别方法较早受到研究人员的关注。构建专利引文网络、专利引文耦合网络和共引网络等,利用分析算法识别技术主题;通过改进的PageRank算法与专利的被引次数和专利年龄结合,并将其应用到OLED领域中来识别核心专利技术主题。随着文本聚类、LDA主题模型和社区识别等自然语言处理技术的发展,基于领域专利内容特征的技术主题识别方法也逐渐受到研究人员的重视。结合LDA模型和战略坐标图方法进行专利文本内容分析,识别出技术主题及其结构特征;应用专利内容聚类的主题模型和聚类算法,将潜在狄利克雷分布(LDA)主题模型和OPTICS算法相结合进行核心技术主题分析。综合现有研究分析发现,虽然基于专利引文特征的识别方法能够较为有效地识别出领域技术主题,但由于引文分析存在引文时滞性,所以,识别出的技术主题在时效性、准确性方面存在一定的缺陷。另外,基于专利文本内容相比基于引文特征的方法具有一定的优势(不存在引文时滞性),但同样存在一定的不足,如从专利标题、摘要等文本内容中挖掘技术主题,仅仅从自然语言处理的角度进行考量,并没有考虑技术主题需要具备的经济和技术属性。
技术实现思路
本专利技术的技术任务是针对以上不足之处,提供一种基于领域专利数据的技术创新主题挖掘方法,能够快速有效地挖掘出领域内多个技术创新主题,为技术创新方向的确定提供借鉴。r>本专利技术解决其技术问题所采用的技术方案是:一种基于领域专利数据的技术创新主题挖掘方法,运用TF-IDF、困惑度和四分位数法构建领域专利的LDA主题模型;利用所述LDA主题模型输出的概率分布矩阵,结合专利价值评价指标,构建量化指标体系;选取领域专利进行验证试验,计算量化指标并运用热力图对其可视化,识别出技术创新主题;基于专利、LDA的输出矩阵、创新主题和量化指标之间的映射关系,进行专利筛选和技术创新主题的合理标记。对领域专利数据技术主题的挖掘不仅考虑自然语言处理属性,还考虑技术主题需要具备的经济和技术属性;挖掘出的领域专利技术主题,避免引文分析存在的引文时滞性,挖掘出的技术主题具有时效性、准确性;融合多属性挖掘技术主题,不仅有基于LDA挖掘的自然语言处理属性,还通过量化方法融合多属性使挖掘的技术主题具有经济和技术属性。优选的,所述构建LDA主题模型,首先基于困惑度方法确定LDA主题模型的最优主题数;将数据集分为训练集与测试集,使用TF-IDF对数据集加权处理,利用加权后的训练集构建LDA模型;将基于LDA概率主题建模生成专利文档-主题和主题-特征词的概率分布矩阵;模型训练结束后,将测试集作为语料计算LDA模型在不同主题下的困惑度,最终选取困惑度最小时的主题数作为模型的最优主题数;然后正式构建LDA主题模型,最终生成文档-主题矩阵和主题-特征词矩阵。优选的,将获取的源数据进行技术特征词向量化,包括数据预处理和构建向量空间模型,数据预处理,首先对语料进行分词,然后去除停用词、词干还原,最后去除标点符号、特殊符号和数字;构建向量空间模型,首先根据确定的技术特征词数量,将预处理后的语料转换为词频矩阵;然后将词频矩阵转换成逆文本词频矩阵;最后将TF与IDF矩阵相乘生成TF-IDF矩阵。数据来源主要包括,领域专利领域的专利文献,从专利数据库TotalPatent下载领域专利文献,如芯片,医疗等领域,下载的专利文档条目包括标题、摘要、IPC分类号以及权利要求。优选的,所述专利评价指标包括权利要求和IPC;构建识别技术创新主题的三级量化指标体系,包括Ⅲ级量化指标,Ⅱ级量化指标和Ⅰ级量化指标:Ⅲ级量化指标定义,定义具有自然语言处理属性的量化指标CTM、CTS、TWM,并基于IPC分类数和权利要求数定义具有经济和技术属性的量化指标IPCc、IPCcn、IPCcns;其中,CTM表示在语料库范围内技术主题概率的均值,CTS表示在语料库范围内技术主题概率的标准差,TWM表示技术主题的特征词概率的均值;IPCc表示专利的潜在技术价值,IPCcn是将IPCc归一化,IPCcns是技术主题的IPCcn之和;Ⅱ级量化指标定义,包括定义TVC和TLV,TVC是技术主题的CTS的倒数与TWM的乘积;TLV是技术主题的CTM与IPCcns的乘积;Ⅰ级量化指标定义,定义TI,即TVC与TLV的乘积。具体的,CTM值表示技术主题在当前语料库内技术价值的大小,CTM值越大,表示技术主题在当前语料库内所具有的技术价值越大,反之亦然,其公式如下:其中,N表示语料库内专利文档的数量;M表示主题数量;tij表示主题j在第i篇专利文档的概率值;CTS值表示技术主题在当前语料库内技术价值的稳定性,稳定性衡量该技术主题在当前语料库内技术价值的离散程度,CTS值越小,表示技术主题在当前语料库内的技术价值越稳定,反之亦然,其公式如下:其中,N表示语料库内专利文档的数量;M表示主题数量;tij表示主题j在第i篇专利文档的概率值;CTMj表示主题j在语料库中的均值;TWM值表示技术主题被解释程度的大小,TWM值越大,表示技术主题被解释的越充分,即技术主题当前具有的技术价值越具有说服力,反之亦然,其公式如下:其中,K表示特征词的数量;M表示主题数量;tij表示主题j的第i个特征词的概率,TWM(j)表示主题j的特征词概率均值;IPCc值表示专利具有的潜在技术价值,IPCc值越大,表示专利具有的潜在技术价值越大,反之亦然;设置调节系数α和β使权利要求数与IPC分类数对整体的贡献度相同,调节系数的设置取决于当前语料库内数据,计算公式如下:IPCc(i)=αN_Claimi+βN_IPCi(i<=N0<α<=1β>=1)N表示语料库专利文档的数量;N_Claimi表示第i篇专利文档中权利要求的数量;N_IPCi表示第i篇专利文档中IPC分类号的数量;表示语料库内权利要求数的总和;表示语料库内IPC分类数的总和;IPCcns值表示技术主题所具有的专利潜在技术价值之和,IPCcns的值越大,表示技术主题具有潜在技术价值的专利越多,反之亦然,其公式如下:P表示属于每个技术主题的专利文档的数量,每个技术主题的专利文档的数量不同;M表示技术主题数量;IPCcns(j)表示技术主题j的IPCcn累加之和;TVC值表示技术主题中心性的强弱,即技术主题在当前阶段所具有的技术价值,TVC值越大,表示技术主题在当前所具有的技术价值越大,反之亦然,其公式如下:M表示主题的数量;CTSj表示主题j的语料库主题概率标准差值;TWMj表示主题j的特征词概率平均值。TLV值表示技术主题潜在技术价值的大小,即技术主题在本文档来自技高网...

【技术保护点】
1.一种基于领域专利数据的技术创新主题挖掘方法,其特征在于,运用TF-IDF、困惑度和四分位数法构建领域专利的LDA主题模型;/n利用所述LDA主题模型输出的概率分布矩阵,结合专利价值评价指标,构建量化指标体系;/n选取领域专利进行验证试验,计算量化指标并运用热力图对其可视化,识别出技术创新主题;/n基于专利、LDA的输出矩阵、创新主题和量化指标之间的映射关系,进行专利筛选和技术创新主题的合理标记。/n

【技术特征摘要】
1.一种基于领域专利数据的技术创新主题挖掘方法,其特征在于,运用TF-IDF、困惑度和四分位数法构建领域专利的LDA主题模型;
利用所述LDA主题模型输出的概率分布矩阵,结合专利价值评价指标,构建量化指标体系;
选取领域专利进行验证试验,计算量化指标并运用热力图对其可视化,识别出技术创新主题;
基于专利、LDA的输出矩阵、创新主题和量化指标之间的映射关系,进行专利筛选和技术创新主题的合理标记。


2.根据权利要求1所述的一种基于领域专利数据的技术创新主题挖掘方法,其特征在于,所述构建LDA主题模型,
首先基于困惑度方法确定LDA主题模型的最优主题数;
将数据集分为训练集与测试集,使用TF-IDF对数据集加权处理,利用加权后的训练集构建LDA模型;
将基于LDA概率主题建模生成专利文档-主题和主题-特征词的概率分布矩阵;
模型训练结束后,将测试集作为语料计算LDA模型在不同主题下的困惑度,最终选取困惑度最小时的主题数作为模型的最优主题数;
然后正式构建LDA主题模型,最终生成文档-主题矩阵和主题-特征词矩阵。


3.根据权利要求1或2所述的一种基于领域专利数据的技术创新主题挖掘方法,其特征在于,将获取的源数据进行技术特征词向量化,包括数据预处理和构建向量空间模型,
数据预处理,首先对语料进行分词,然后去除停用词、词干还原,最后去除标点符号、特殊符号和数字;
构建向量空间模型,首先根据确定的技术特征词数量,将预处理后的语料转换为词频矩阵;然后将词频矩阵转换成逆文本词频矩阵;最后将TF与IDF矩阵相乘生成TF-IDF矩阵。


4.根据权利要求3所述的一种基于领域专利数据的技术创新主题挖掘方法,其特征在于,所述专利评价指标包括权利要求和IPC;
构建识别技术创新主题的三级量化指标体系,包括Ⅲ级量化指标,Ⅱ级量化指标和Ⅰ级量化指标:
Ⅲ级量化指标定义,定义具有自然语言处理属性的量化指标CTM、CTS、TWM,并基于IPC分类数和权利要求数定义具有经济和技术属性的量化指标IPCc、IPCcn、IPCcns;其中,CTM表示在语料库范围内技术主题概率的均值,CTS表示在语料库范围内技术主题概率的标准差,TWM表示技术主题的特征词概率的均值;IPCc表示专利的潜在技术价值,IPCcn是将IPCc归一化,IPCcns是技术主题的IPCcn之和;
Ⅱ级量化指标定义,包括定义TVC和TLV,TVC是技术主题的CTS的倒数与TWM的乘积;TLV是技术主题的CTM与IPCcns的乘积;
Ⅰ级量化指标定义,定义TI,即TVC与TLV的乘积。


5.根据权利要求4所述的一种基于领域专利数据的技术创新主题挖掘方法,其特征在于,CTM值表示技术主题在当前语料库内技术价值的大小,CTM值越大,表示技术主题在当前语料库内所具有的技术价值越大,反之亦然,其公式如下:



其中,N表示语料库内专利文档的数量;M表示主题数量;tij表示主题j在第i篇专利文档的概率值;
CTS值表示技术主题在当前语料库内技术价值的稳定性,稳定性衡量该技术主题在当前语料库内技术价值的离散程度,CTS值越小,表示技术主题在当前语料库内的技术价值越稳定,反之亦然,其公式如下:



其中,N表示语料库内专利文档的数量;M表示主题数量;tij表示主题j在第i篇专利文档的概率值;CTMj表示主题j在语料库中的均值;
TWM值表示技术主题被解释程度的大小,TWM值越大,表示技术主题被解释的越充分,即技术主题当前具有的技术价值越具有说服力,反...

【专利技术属性】
技术研发人员:玄洪升李明明潘心冰顾英健郭保荣
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1