一种专利技术领域的创新主题挖掘方法技术

技术编号:29791059 阅读:12 留言:0更新日期:2021-08-24 18:10
本发明专利技术公开一种专利技术领域的创新主题挖掘方法,涉及数据挖掘技术领域,包括:获取并预处理专利技术领域的专利文献,构建向量空间模型;基于困惑度的方法确定最优主题数,构建LDA主题模型,并生成文档‑主题矩阵和主题‑特征词矩阵;针对主题‑特征词矩阵,利用四分位数法得到四分化主题‑特征词概率分布矩阵;对四分化主题‑特征词概率分布矩阵进行关联统计,得到主题间相同特征词来构建邻接矩阵,定义邻接矩阵的二值化规则,完成邻接矩阵的二值化处理;基于二值化的邻接矩阵,绘制专利主题网络图,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利技术领域的创新主题。本发明专利技术可以挖掘专利技术领域的新主题。

【技术实现步骤摘要】
一种专利
的创新主题挖掘方法
本专利技术涉及数据挖掘
,具体的说是一种专利
的创新主题挖掘方法。
技术介绍
专利技术主题发现对于快速整体掌握领域技术研究热点、技术创新发展决策和行业投资规划有重要借鉴意义。国内外研究人员将结构洞理论应用于专利数据的研究并取得很多有效的科研成果,其中重要的研究成果多表现在利用结构洞理论对专利情报网络图进行分析,从网络中发掘有价值的情报信息及其所在位置。非均衡演进特征是结构洞在创新网路中的主要表现,具体表现两种重要的态势,态势一为小型结构洞的特征出现在创新网络的早期;态势二为极少数大型结构洞与大量小型结构洞并存在创新网络的中后期。调整分析的研究结果表明一种正向作用,这种正向作用分为两种情况,情况一是提高结构洞的非均衡化水平将会提高技术创造性程度更高的技术创新的产出;情况二是提高结构洞的平均水平将会提高技术创造性程度较低的技术创新的产出。既有的研究表明,结构洞的理论和方法对专利情报分析领域有重要的应用价值,可以发现网络结构中隐藏的知识等。
技术实现思路
本专利技术针对目前技术发展的需求和不足之处,提供一种专利
的创新主题挖掘方法,通过将LDA(LatentDirichletAllocation)主题模型与结构洞理论相结合,为挖掘专利
的创新方向提供新思路。本专利技术的一种专利
的创新主题挖掘方法,解决上述技术问题采用的技术方案如下:一种专利
的创新主题挖掘方法,其实现包括:步骤S1、数据准备阶段:获取专利
A的专利文献,对获取的专利文献进行预处理,构建向量空间模型;步骤S2、数据处理阶段:首先,基于困惑度的方法确定最优主题数,构建LDA主题模型,并生成文档-主题矩阵和主题-特征词矩阵;随后,针对主题-特征词矩阵,利用四分位数法将每个主题下的特征词按照概率值降序排列,并选择前四分之一的特征词,得到四分化主题-特征词概率分布矩阵;步骤S3、邻接矩阵二值化阶段:对四分化主题-特征词概率分布矩阵进行关联统计,得到主题间相同特征词来构建邻接矩阵,并通过定义邻接矩阵的二值化规则,完成邻接矩阵的二值化处理;步骤S4、创新主题挖掘阶段:基于二值化处理后的邻接矩阵,绘制专利主题网络图,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利
A的创新主题。可选的,所涉及专利文献来自于专利数据库TotalPatent,每个专利文献包括标题、摘要、IPC分类号、权利要求四部分信息。可选的,执行步骤S1时,对获取的专利文献进行预处理的具体操作为:基于获取的专利文献,首先对其语料进行分词,然后去除停用词、词干还原,最后去除标点符号、特殊符号和数字。进一步可选的,执行步骤S1时,构建向量空间模型的具体操作为:基于预处理完成的专利文献,确定特征词数量;将预处理后的语料转换为词频TF矩阵;将词频TF矩阵转换成逆文本词频IDF矩阵;将词频TF矩阵与逆文本词频IDF矩阵相乘,生成TF-IDF矩阵,该TF-IDF矩阵即为向量空间模型。进一步可选的,执行步骤S2时,基于困惑度的方法确定最优主题数,构建LDA主题模型,具体操作包括:将获取的专利文献存储于数据集,将数据集随机划分为训练集与测试集;针对获取的专利文献,使用基于困惑度的方法确定最优主题数;使用向量空间模型对训练集、测试集进行加权处理,并利用加权后的训练集构建LDA模型;将测试集作为语料,计算LDA模型在不同主题下的困惑度,并选取困惑度最小的主题数作为LDA模型的最优主题数;以加权测试集和最优主题数作为构建元素,基于LDA模型,构建LDA主题模型。进一步可选的,执行步骤S3时,对四分化主题-特征词概率分布矩阵进行关联统计,得到主题间相同特征词,具体操作为:步骤S3.1、按行遍历四分化主题-特征词概率分布矩阵;步骤S3.2、关联统计第一行与第二行数据拥有相同特征词的数目,继续统计第一行与第三行直至最后一行数据具有相同特征词的数目;步骤S3.3、关联统计第二行与第三行数据拥有相同特征词的数目,继续统计第二行与第四行直至最后一行数据具有相同特征词的数目;步骤S3.4、由步骤S3.3类推,直到关联统计倒数第二行与倒数第一行数据拥有相同特征词的数目,关联统计结束完成对主题间相同特征词的统计。进一步可选的,针对构建的邻接矩阵,定义的二值化规则为:y(i,j)=1ifx(i,j)>=1,and0otherwise.(1)规则(1)中x(i,j)表示邻接矩阵中i行与j列的关联值,y(i,j)表示二值化后的值,规则(1)表示当邻接矩阵中行与列的关联值满足大于等于1时,二值化后的值为1,否则,二值化后的值为0。进一步可选的,执行步骤S4,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利
A的创新主题,这一过程具体包括:首先,使用Burt提出的结构洞度量算法进行结构洞度量,分析得出的度量结果;随后,使用Freeman提出的中介中心度算法度量节点的结构洞数量,分析得出的结果;再随后,使用皮尔逊积矩相关系数,对结构洞度量算法得出的结果与中介中心度算法得出的结果进行相关性判别;最后,根据判别结果,得到不同主题占据专利主题网络图的结构洞数量,进而挖掘专利
A的创新主题。本专利技术的一种专利
的创新主题挖掘方法,与现有技术相比具有的有益效果是:本专利技术在数据准备阶段构建向量空间模型,在数据处理阶段构建LDA主题模型,并得到四分化主题-特征词概率分布矩阵,在邻接矩阵二值化阶段构建邻接矩阵并进行二值化处理,最后在创新主题挖掘阶段绘制专利主题网络图,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利
A的创新主题;本专利技术通过将LDA主题模型与结构洞理论相结合,为挖掘专利
的创新方向提供新思路。附图说明附图1是本专利技术的方法流程示意图;附图2是本专利技术绘制的专利主题网络图;附图3是本专利技术绘制的基于中介中心度算法度量节点的网络主题图,图中节点越大表示中介中心度越大,同时表示节点占据结构洞数量越多的可能性越大;附图4是本专利技术绘制的基于结构洞度量算法表示结构约束的节点系数值升序图,其中,系数值越高,网络闭合性越高,表示节点占据结构洞数量越少的可能性越大;附图5是本专利技术绘制的基于结构洞度量算法表示有效规模的节点系数值降序图,其中,系数值越高,系数值越高,网络的冗余程度低,表示节点占据结构洞数量越多的可能性越大。具体实施方式为使本专利技术的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本专利技术的技术方案进行清楚、完整的描述。实施例一:结合附图1,本实施例提出一种专利
的创新主题挖掘方法,其实现包括:...

【技术保护点】
1.一种专利技术领域的创新主题挖掘方法,其特征在于,其实现包括:/n步骤S1、数据准备阶段:获取专利技术领域A的专利文献,对获取的专利文献进行预处理,构建向量空间模型;/n步骤S2、数据处理阶段:首先,基于困惑度的方法确定最优主题数,构建LDA主题模型,并生成文档-主题矩阵和主题-特征词矩阵;随后,针对主题-特征词矩阵,利用四分位数法将每个主题下的特征词按照概率值降序排列,并选择前四分之一的特征词,得到四分化主题-特征词概率分布矩阵;/n步骤S3、邻接矩阵二值化阶段:对四分化主题-特征词概率分布矩阵进行关联统计,得到主题间相同特征词来构建邻接矩阵,并通过定义邻接矩阵的二值化规则,完成邻接矩阵的二值化处理;/n步骤S4、创新主题挖掘阶段:基于二值化处理后的邻接矩阵,绘制专利主题网络图,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利技术领域A的创新主题。/n

【技术特征摘要】
1.一种专利技术领域的创新主题挖掘方法,其特征在于,其实现包括:
步骤S1、数据准备阶段:获取专利技术领域A的专利文献,对获取的专利文献进行预处理,构建向量空间模型;
步骤S2、数据处理阶段:首先,基于困惑度的方法确定最优主题数,构建LDA主题模型,并生成文档-主题矩阵和主题-特征词矩阵;随后,针对主题-特征词矩阵,利用四分位数法将每个主题下的特征词按照概率值降序排列,并选择前四分之一的特征词,得到四分化主题-特征词概率分布矩阵;
步骤S3、邻接矩阵二值化阶段:对四分化主题-特征词概率分布矩阵进行关联统计,得到主题间相同特征词来构建邻接矩阵,并通过定义邻接矩阵的二值化规则,完成邻接矩阵的二值化处理;
步骤S4、创新主题挖掘阶段:基于二值化处理后的邻接矩阵,绘制专利主题网络图,利用结构洞度量算法,根据不同主题占据专利主题网络图的结构洞数量,挖掘专利技术领域A的创新主题。


2.根据权利要求1所述的一种专利技术领域的创新主题挖掘方法,其特征在于,专利文献来自于专利数据库TotalPatent,每个专利文献包括标题、摘要、IPC分类号、权利要求四部分信息。


3.根据权利要求2所述的一种专利技术领域的创新主题挖掘方法,其特征在于,执行步骤S1时,对获取的专利文献进行预处理的具体操作为:
基于获取的专利文献,首先对其语料进行分词,然后去除停用词、词干还原,最后去除标点符号、特殊符号和数字。


4.根据权利要求3所述的一种专利技术领域的创新主题挖掘方法,其特征在于,执行步骤S1时,构建向量空间模型的具体操作为:
基于预处理完成的专利文献,确定特征词数量;
将预处理后的语料转换为词频TF矩阵;
将词频TF矩阵转换成逆文本词频IDF矩阵;
将词频TF矩阵与逆文本词频IDF矩阵相乘,生成TF-IDF矩阵,该TF-IDF矩阵即为向量空间模型。


5.根据权利要求4所述的一种专利技术领域的创新主题挖掘方法,其特征在于,执行步骤S2时,基于困惑度的方法确定最优主题数,构建LDA主题模型,具体操作包括:
将获取的专利文献存储于数据集,将数据集随机划分为训练集与测试集;
针对获取的专利文献,使用基于困惑度的方法确定最优主题数;

【专利技术属性】
技术研发人员:玄洪升李明明潘心冰顾英健郭保荣
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1