高校专利个性化推荐系统技术方案

技术编号：24456172 阅读：27 留言：0更新日期：2020-06-10 15:37

本发明专利技术提供了一种高校专利个性化推荐系统，它包括：数据检索与预处理模块，检索得到特定技术领域的专利数据，并进行自然语言处理，获取最优的分词结果集；主题提取与文本聚类模块，采用LDA模型进行主题提取，得到文档‑主题概率矩阵，对主题进行概括；专利数据聚类划分模块，依据文档‑主题概率矩阵，运用K‑means算法进行文本聚类；待推荐专利数据生成模块，结合目标企业的技术强弱情况，通过相似度计算生成待推荐的专利数据列表，进行“数据检索‑数据处理‑数据存储‑数据分析‑数据应用”的全过程涵盖自然语言处理、主题建模、文本聚类、相似度计算等，最终从高校的专利汇总列表中筛选出优质的专利数据推荐给目标企业。

University Patent personalized recommendation system

全部详细技术资料下载

【技术实现步骤摘要】
高校专利个性化推荐系统
本专利技术属于大数据分析处理
，具体地涉及一种高校专利个性化推荐系统。
技术介绍
专利(patent)，从字面上是指专有的权利和利益。在现代，专利一般是由政府机关或者代表若干国家的区域性组织根据申请而颁发的一种文件，这种文件记载了专利技术创造的内容，并且在一定时期内产生这样一种法律状态，即获得专利的专利技术创造在一般情况下他人只有经专利权人许可才能予以实施。也就是说，专利是专利权人对自己的研发成果进行技术保护的一种有效手段。目前，在各大高校内，老师或学生在进行科学研究过程中也会产生众多专利技术创造，继而申请了非常多的专利。然而，各大高校面临的问题是，科研产生的众多专利仅仅只是申请了专利权，并未进行实际应用，而对该技术有需求的企业也很难找到适合自己需求的高校专利资源，造成了大量优质专利技术创造的浪费。因此，现有技术中缺乏一种能够将高校产生的优质专利推荐给有需求的企业的技术方案。
技术实现思路
本专利技术是为了解决上述问题而进行的，目的在于提供一种能够有效地将高校的优质专利推荐给有需求的目标企业的高校专利个性化推荐系统。本专利技术提供了一种高校专利个性化推荐系统，其特征在于，包括：数据检索与预处理模块，基于预设
进行检索得到对应的专利数据，并对该专利数据进行自然语言处理，将文本向量转换成词向量；对分词数据集进行整理、更新、迭代，获取最优的分词结果集；主题提取与文本聚类模块，采用LDA模型对检索得到的专利数据进行主题提取，得到文档-主题概率矩阵

【技术保护点】
1.一种高校专利个性化推荐系统，其特征在于，包括：/n数据检索与预处理模块，基于预设技术领域进行检索得到对应的专利数据，并对该专利数据进行自然语言处理，将文本向量转换成词向量；对分词数据集进行整理、更新、迭代，获取最优的分词结果集；/n主题提取与文本聚类模块，采用LDA模型对检索得到的专利数据进行主题提取，得到文档-主题概率矩阵，并用最相关的语义词对主题进行概括；/n专利数据聚类划分模块，依据文档-主题概率矩阵，计算K-means算法的初始聚类中心值，进而运用K-means算法进行文本聚类，设置聚类数、初始聚类中心、迭代次数，从而对检索得到的专利数据进行聚类划分；以及/n待推荐专利数据生成模块，结合高校专利数据与目标企业的技术强弱情况，通过相似度计算生成待推荐给所述目标企业的专利数据列表。/n

【技术特征摘要】
1.一种高校专利个性化推荐系统，其特征在于，包括：
数据检索与预处理模块，基于预设技术领域进行检索得到对应的专利数据，并对该专利数据进行自然语言处理，将文本向量转换成词向量；对分词数据集进行整理、更新、迭代，获取最优的分词结果集；
主题提取与文本聚类模块，采用LDA模型对检索得到的专利数据进行主题提取，得到文档-主题概率矩阵，并用最相关的语义词对主题进行概括；
专利数据聚类划分模块，依据文档-主题概率矩阵，计算K-means算法的初始聚类中心值，进而运用K-means算法进行文本聚类，设置聚类数、初始聚类中心、迭代次数，从而对检索得到的专利数据进行聚类划分；以及
待推荐专利数据生成模块，结合高校专利数据与目标企业的技术强弱情况，通过相似度计算生成待推荐给所述目标企业的专利数据列表。

2.如权利要求1所述的高校专利个性化推荐系统，其特征在于：
所述数据检索与预处理模块执行如下处理过程：在检索得到对应的专利数据后，利用R语言的jiebaR包对检索得到的专利数据进行文本分词、去停用词、筛选词等自然语言处理；然后对分词结果集进行词典更新、多轮迭代等最优化整理。

3.如权利要求2所述的高校专利个性化推荐系统，其特征在于：
所述主题提取与文本聚类模块执行如下处理过程：利用R语言的lda包对检索得到的专利数据进行主题提取；利用LDAvis包展示主题可视化结果，调整主题数目、alpha值和beta值，利用多维尺度分析确定最优主题数目、判断主题模型抽取结果的优异程度；将LDA模型与K-means算法融合，依据LDA提取的文档...

【专利技术属性】
技术研发人员：冉从敬，宋凯，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人