一种针对个性化科研文献的筛选方法技术

技术编号：15437340 阅读：281 留言：0更新日期：2017-05-25 19:29

本发明专利技术公开了一种针对个性化科研文献的筛选方法，该筛选方法采用了基于向量余弦值比较的算法，结合指定科研领域的文献内容和个人研究领域相关的科学文献，最终得出符合个性化需求的科研文献；与传统的人工文献搜索相比，本发明专利技术大量节省了文献阅读的时间、大幅提升了科研效率、比传统以人工搜索方法找到的科研文献更贴近用户研究领域，避免了重复研究带来的资源浪费。

A screening method for personalized research literature

The invention discloses a screening method for personalized scientific literature, the screening method by comparison algorithm of vector cosine value based on the combination of scientific research in the field of literature specifies the content and personal related research in the field of scientific literature, ultimately meet the personalized needs of the scientific research literature; compared with the traditional manual literature search, the invention is large save the literature reading of the time, greatly enhance the efficiency of scientific research, closer to the user than the traditional research fields in artificial search method to find the scientific literature, to avoid duplication of the waste of resources.

全部详细技术资料下载

【技术实现步骤摘要】
一种针对个性化科研文献的筛选方法
本专利技术涉及科研文献的筛选和检索方法领域，尤其涉及一种针对个性化科研文献的筛选方法。
技术介绍
科研文献是目前科研成果的主要载体，在实验手段不断革新、技术平台不断创新的大背景下，各个研究领域内的科研文献在数量上均出现了井喷。科研人员在查看某具体研究领域的时候，往往花费大量的时间在筛选文献上，同时因为科研文献大多为英语文献而国内科研人员的英语阅读能力普遍不高，所以科研文献的阅读和搜索是我国科研领域中的一大瓶颈。以肺癌基因研究为例（2016年7月），根据”lungcancergene”关键词在NCBIPubmed上进行搜索发现超过3万篇文献（其中近3年内的文献已经超过7000篇）。要用纯人工阅读的传统方法去完成如此繁重的文献阅读并筛选出符合自己研究领域的参考文献是耗时的、低效的，因此，开发出自动识别用户个性化需求的科研文献推荐系统显得非常迫切。目前比较常用的推荐算法有协同过滤推荐算法和基于内容的推荐算法。协同过滤推荐算法的原理是根据用户和用户之间的相似性找到用户潜在的兴趣进而作出合理的推荐对象，但是该推荐算法的缺点是不适用于对象的特...
一种针对个性化科研文献的筛选方法

【技术保护点】
一种针对个性化科研文献的筛选方法，其特征在于，所述的筛选方法包括如下操作步骤：1）通过科研人员收集X个的特定领域的关键词，在数据库上输入这些关键词然后得到大量的科研文章，然后将题目、作者和摘要信息输出成一个汇总的文本文件，并要求科研人员提供阅读过的Y篇在该特定领域内偏好文献；2）在该汇总的文本文件内将每篇文章去除标点符号，将文章分隔成单个的词，然后对所有词进行TF‑IDF值的计算，并建立表示每篇文章的k维向量，以

【技术特征摘要】
1.一种针对个性化科研文献的筛选方法，其特征在于，所述的筛选方法包括如下操作步骤：1）通过科研人员收集X个的特定领域的关键词，在数据库上输入这些关键词然后得到大量的科研文章，然后将题目、作者和摘要信息输出成一个汇总的文本文件，并要求科研人员提供阅读过的Y篇在该特定领域内偏好文献；2）在该汇总的文本文件内将每篇文章去除标点符号，将文章分隔成单个的词，然后对所有词进行TF-IDF值的计算，并建立表示每篇文章的k维向量，以和分别表示所有文章和用户偏好参考文献的向量，w是每个单词的TF-IDF值而k为单词的个数；单词Ki在文献dj中的词频TFi定义为，单词Ki在整个文献集中出现的逆向文献频率IDFi定义为，每个单词的w等于TF-IDF并定义为，其中N为文献集包含的文献数，ni为文献集中包含单词Ki的文献数，fij为单词Ki在文档dj中出现的次数；每个候选文献与所有用户研究领域中偏好的...

【专利技术属性】
技术研发人员：江经纬，孙媛媛，
申请(专利权)人：南京双运生物技术有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人