当前位置: 首页 > 专利查询>武汉大学专利>正文

高校专利个性化推荐系统技术方案

技术编号:24456172 阅读:27 留言:0更新日期:2020-06-10 15:37
本发明专利技术提供了一种高校专利个性化推荐系统,它包括:数据检索与预处理模块,检索得到特定技术领域的专利数据,并进行自然语言处理,获取最优的分词结果集;主题提取与文本聚类模块,采用LDA模型进行主题提取,得到文档‑主题概率矩阵,对主题进行概括;专利数据聚类划分模块,依据文档‑主题概率矩阵,运用K‑means算法进行文本聚类;待推荐专利数据生成模块,结合目标企业的技术强弱情况,通过相似度计算生成待推荐的专利数据列表,进行“数据检索‑数据处理‑数据存储‑数据分析‑数据应用”的全过程涵盖自然语言处理、主题建模、文本聚类、相似度计算等,最终从高校的专利汇总列表中筛选出优质的专利数据推荐给目标企业。

University Patent personalized recommendation system

【技术实现步骤摘要】
高校专利个性化推荐系统
本专利技术属于大数据分析处理
,具体地涉及一种高校专利个性化推荐系统。
技术介绍
专利(patent),从字面上是指专有的权利和利益。在现代,专利一般是由政府机关或者代表若干国家的区域性组织根据申请而颁发的一种文件,这种文件记载了专利技术创造的内容,并且在一定时期内产生这样一种法律状态,即获得专利的专利技术创造在一般情况下他人只有经专利权人许可才能予以实施。也就是说,专利是专利权人对自己的研发成果进行技术保护的一种有效手段。目前,在各大高校内,老师或学生在进行科学研究过程中也会产生众多专利技术创造,继而申请了非常多的专利。然而,各大高校面临的问题是,科研产生的众多专利仅仅只是申请了专利权,并未进行实际应用,而对该技术有需求的企业也很难找到适合自己需求的高校专利资源,造成了大量优质专利技术创造的浪费。因此,现有技术中缺乏一种能够将高校产生的优质专利推荐给有需求的企业的技术方案。
技术实现思路
本专利技术是为了解决上述问题而进行的,目的在于提供一种能够有效地将高校的优质专利推荐给有需求的目标企业的高校专利个性化推荐系统。本专利技术提供了一种高校专利个性化推荐系统,其特征在于,包括:数据检索与预处理模块,基于预设
进行检索得到对应的专利数据,并对该专利数据进行自然语言处理,将文本向量转换成词向量;对分词数据集进行整理、更新、迭代,获取最优的分词结果集;主题提取与文本聚类模块,采用LDA模型对检索得到的专利数据进行主题提取,得到文档-主题概率矩阵,并用最相关的语义词对主题进行概括;专利数据聚类划分模块,依据文档-主题概率矩阵,计算K-means算法的初始聚类中心值,进而运用K-means算法进行文本聚类,设置聚类数、初始聚类中心、迭代次数,从而对检索得到的专利数据进行聚类划分;以及待推荐专利数据生成模块,结合高校专利数据与目标企业的技术强弱情况,通过相似度计算生成待推荐给所述目标企业的专利数据列表。在本专利技术提供的高校专利个性化推荐系统中,还可以具有这样的特征,其中,所述数据检索与预处理模块执行如下处理过程:在检索得到对应的专利数据后,利用R语言的jiebaR包对检索得到的专利数据进行文本分词、去停用词、筛选词等自然语言处理;然后对分词结果集进行词典更新、多轮迭代等最优化整理。在本专利技术提供的高校专利个性化推荐系统中,还可以具有这样的特征,其中,所述主题提取与文本聚类模块执行如下处理过程:利用R语言的lda包对检索得到的专利数据进行主题提取;利用LDAvis包展示主题可视化结果,调整主题数目、alpha值和beta值,利用多维尺度分析确定最优主题数目、判断主题模型抽取结果的优异程度;将LDA模型与K-means算法融合,依据LDA提取的文档-主题概率矩阵,在K个主题的维度上确定初始聚类中心,设置聚类数、迭代次数,实现对检索得到的专利数据进行聚类划分。在本专利技术提供的高校专利个性化推荐系统中,还可以具有这样的特征,其中,所述待推荐专利数据生成模块为基于内容推荐的数据生成模块,执行如下处理过程:确定所述目标企业的技术重点主题,通过与该重点主题下的专利进行平均主题相似度计算对高校专利汇总列表进行筛选,从而生成基于内容推荐的高校专利列表。在本专利技术提供的高校专利个性化推荐系统中,还可以具有这样的特征,其中,所述待推荐专利数据生成模块为基于协同过滤推荐的数据生成模块,执行如下处理过程:确定所述目标企业的技术薄弱主题,统计对应主题中专利数量最多的技术竞争者集合,通过与技术竞争企业的专利进行平均主题相似度计算对高校专利汇总列表进行筛选,从而生成基于协同过滤推荐的高校专利列表。在本专利技术提供的高校专利个性化推荐系统中,还可以具有这样的特征,其中,所述待推荐专利数据生成模块为混合模式推荐的生成模块,执行如下处理过程:首先,确定所述目标企业的技术重点主题,通过与该重点主题下的专利进行平均主题相似度计算对高校专利汇总列表进行筛选,从而生成基于内容推荐的高校专利列表,然后,确定所述目标企业的技术薄弱主题,统计对应主题中专利数量最多的技术竞争者集合,通过与技术竞争企业的专利进行平均主题相似度计算对高校专利汇总列表进行筛选,从而生成基于协同过滤推荐的高校专利列表,最后,对基于内容推荐和基于协同过滤推荐分别得到的高校专利列表进行数据组合,从而生成最优推荐的高校专利列表。专利技术的作用与效果根据本专利技术所涉及的高校专利个性化推荐系统,根据高校专利汇总列表确定特定的
以及目标企业,然后采用LDA模型、K-means聚类算法以及相似度计算相结合的方式进行“数据检索-数据处理-数据存储-数据分析-数据应用”的全过程,涵盖自然语言处理、主题建模、文本聚类、相似度计算等,最终从高校的专利汇总列表中筛选出优质的专利数据推荐给目标企业,为推动高校专利向企业转化、解决高校专利转化困境、提升企业科技能力、支持知识强国建设具有重要意义。附图说明图1是本专利技术的实施例中高校专利个性化推荐系统的结构框图。具体实施方式下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实施例范围之中。<实施例>图1是本专利技术的实施例中高校专利个性化推荐系统的结构框图。如图1所示,在本实施例中,高校专利个性化推荐系统用于将高校的优质专利推荐给目标企业。该高校专利个性化推荐系统包括:数据检索与预处理模块、主题提取与文本聚类模块、专利数据聚类划分模块以及待推荐专利数据生成模块。数据检索与预处理模块,基于预设
进行检索得到对应的专利数据,并对该专利数据进行自然语言处理,将文本向量转换成词向量;对分词数据集进行整理、更新、迭代,获取最优的分词结果集。具体处理过程如下:在检索得到对应的专利数据后,利用R语言的jiebaR包对检索得到的专利数据进行文本分词、去停用词、筛选词等自然语言处理;然后对分词结果集进行词典更新、多轮迭代等最优化整理。主题提取与文本聚类模块,采用LDA模型对检索得到的专利数据进行主题提取,得到文档-主题概率矩阵,并用最相关的语义词对主题进行概括。具体处理过程如下:利用R语言的lda包对检索得到的专利数据进行主题提取;利用LDAvis包展示主题可视化结果,调整主题数目、alpha值和beta值,利用多维尺度分析确定最优主题数目、判断主题模型抽取结果的优异程度;将LDA模型与K-means算法融合,依据LDA提取的文档-主题概率矩阵,在K个主题的维度上确定初始聚类中心,设置聚类数、迭代次数,实现对检索得到的专利数据进行聚类划分。专利数据聚类划分模块,依据文档-主题概率矩阵,计算K-means算法的初始聚类中心值,进而运用K-means算法进行文本聚类,设置聚类数、初始聚类中心、迭代次数,从而对检索得到的专利数据进行聚类划分。待推荐专利数据生成模块,结合高校专利数据与目标企业的技术强弱情况,通过相似度计算生成待推荐给目标企业的专利数据列表。...

【技术保护点】
1.一种高校专利个性化推荐系统,其特征在于,包括:/n数据检索与预处理模块,基于预设技术领域进行检索得到对应的专利数据,并对该专利数据进行自然语言处理,将文本向量转换成词向量;对分词数据集进行整理、更新、迭代,获取最优的分词结果集;/n主题提取与文本聚类模块,采用LDA模型对检索得到的专利数据进行主题提取,得到文档-主题概率矩阵,并用最相关的语义词对主题进行概括;/n专利数据聚类划分模块,依据文档-主题概率矩阵,计算K-means算法的初始聚类中心值,进而运用K-means算法进行文本聚类,设置聚类数、初始聚类中心、迭代次数,从而对检索得到的专利数据进行聚类划分;以及/n待推荐专利数据生成模块,结合高校专利数据与目标企业的技术强弱情况,通过相似度计算生成待推荐给所述目标企业的专利数据列表。/n

【技术特征摘要】
1.一种高校专利个性化推荐系统,其特征在于,包括:
数据检索与预处理模块,基于预设技术领域进行检索得到对应的专利数据,并对该专利数据进行自然语言处理,将文本向量转换成词向量;对分词数据集进行整理、更新、迭代,获取最优的分词结果集;
主题提取与文本聚类模块,采用LDA模型对检索得到的专利数据进行主题提取,得到文档-主题概率矩阵,并用最相关的语义词对主题进行概括;
专利数据聚类划分模块,依据文档-主题概率矩阵,计算K-means算法的初始聚类中心值,进而运用K-means算法进行文本聚类,设置聚类数、初始聚类中心、迭代次数,从而对检索得到的专利数据进行聚类划分;以及
待推荐专利数据生成模块,结合高校专利数据与目标企业的技术强弱情况,通过相似度计算生成待推荐给所述目标企业的专利数据列表。


2.如权利要求1所述的高校专利个性化推荐系统,其特征在于:
所述数据检索与预处理模块执行如下处理过程:在检索得到对应的专利数据后,利用R语言的jiebaR包对检索得到的专利数据进行文本分词、去停用词、筛选词等自然语言处理;然后对分词结果集进行词典更新、多轮迭代等最优化整理。


3.如权利要求2所述的高校专利个性化推荐系统,其特征在于:
所述主题提取与文本聚类模块执行如下处理过程:利用R语言的lda包对检索得到的专利数据进行主题提取;利用LDAvis包展示主题可视化结果,调整主题数目、alpha值和beta值,利用多维尺度分析确定最优主题数目、判断主题模型抽取结果的优异程度;将LDA模型与K-means算法融合,依据LDA提取的文档...

【专利技术属性】
技术研发人员:冉从敬宋凯
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1