【技术实现步骤摘要】
基于论文数据分析的专家推荐方法、装置、设备及存储介质
本专利技术设置文本处理领域,具体而言,本申请涉及一种基于论文数据分析的专家推荐方法、装置、设备及存储介质。
技术介绍
在科技服务领域,企业对技术专家的依赖度较高,当企业遇到特定技术问题时往往希望能够寻求到最合适的相关专家的帮助。但是由于信息不对称,寻找合适的专家的成本比较高,效率低,专家查找困难。因此,高效的专家推荐方法是有必要的。传统的专家推荐一般采用专家库查找方式,但是专家库缺乏统一的标准和规范,且存在信息量少、信息更新不及时等明显缺陷。
技术实现思路
为了解决上述技术问题中的至少一个,本专利技术第一方面提供了一种基于论文数据分析的专家推荐方法,其包括:获取需求文档及所述需求文档的关键词;使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊;基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度;基于所述论文作者信息获取所述论文的各个论文作者对论文的贡献率; ...
【技术保护点】
1.一种基于论文数据分析的专家推荐方法,其特征在于,其包括:/n获取需求文档及所述需求文档的关键词;/n使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊;/n基于所述论文标题和所述论文摘要获取所述论文与所述需求文档之间的文本相似度;/n基于所述论文作者信息获取所述论文的各论文作者对论文的贡献率;/n基于所属期刊获取所述论文的经标准化处理后的复合影响因子;/n基于所述文本相似度、所述贡献率及所述复合影响因子计算出各论文作者的推荐分数。/n
【技术特征摘要】
1.一种基于论文数据分析的专家推荐方法,其特征在于,其包括:
获取需求文档及所述需求文档的关键词;
使用网络爬虫爬取到与所述需求文档的关键词相关的论文的论文标题、论文摘要、论文作者及所属期刊;
基于所述论文标题和所述论文摘要获取所述论文与所述需求文档之间的文本相似度;
基于所述论文作者信息获取所述论文的各论文作者对论文的贡献率;
基于所属期刊获取所述论文的经标准化处理后的复合影响因子;
基于所述文本相似度、所述贡献率及所述复合影响因子计算出各论文作者的推荐分数。
2.如权利要求1所述的专家推荐方法,其特征在于,所述基于所述论文标题和论文摘要获取所述论文与所述需求文档之间的文本相似度包括:
将所述论文标题和所述论文摘要合并以形成论文索引文档,每篇论文均形成一与其对应的论文索引文档;
对所述论文索引文档和所述需求文档分别进行分词处理;
使用LDA主题模型分别提取出经分词处理后的所述论文索引文档和所述需求文档的若干主题词;
使用word2vec模型分别将所述论文索引文档和所述需求文档的若干主题词映射为若干词向量;
基于所述论文索引文档和所述需求文档的若干词向量计算所述论文索引文档与所述需求文档之间的文本相似度。
3.如权利要求2所述的专家推荐方法,其特征在于:
使用jieba中文分词方法对所述论文索引文档和所述需求文档分别进行分词处理,并剔除其中的停用词。
4.如权利要求2所述的专家推荐方法,其特征在于:在使用LDA主题模型提取经分词处理后的所述论文索引文档和所述需求文档的主题词之前,还包括:
对经分词处理后的所述论文索引文档和所述需求文档进行词典构造,将其表示为词袋模型以作为LDA主题模型的输入。
5.如权利要求2所述专家推荐方法,其特征在于:基于所述论文索引文档和所述需求文...
【专利技术属性】
技术研发人员:孙圣力,李杰,李青山,司华友,
申请(专利权)人:北京大学,南京博雅区块链研究院有限公司,北京国信云服科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。