一种针对个性化科研文献的筛选方法技术

技术编号:15437340 阅读:236 留言:0更新日期:2017-05-25 19:29
本发明专利技术公开了一种针对个性化科研文献的筛选方法,该筛选方法采用了基于向量余弦值比较的算法,结合指定科研领域的文献内容和个人研究领域相关的科学文献,最终得出符合个性化需求的科研文献;与传统的人工文献搜索相比,本发明专利技术大量节省了文献阅读的时间、大幅提升了科研效率、比传统以人工搜索方法找到的科研文献更贴近用户研究领域,避免了重复研究带来的资源浪费。

A screening method for personalized research literature

The invention discloses a screening method for personalized scientific literature, the screening method by comparison algorithm of vector cosine value based on the combination of scientific research in the field of literature specifies the content and personal related research in the field of scientific literature, ultimately meet the personalized needs of the scientific research literature; compared with the traditional manual literature search, the invention is large save the literature reading of the time, greatly enhance the efficiency of scientific research, closer to the user than the traditional research fields in artificial search method to find the scientific literature, to avoid duplication of the waste of resources.

【技术实现步骤摘要】
一种针对个性化科研文献的筛选方法
本专利技术涉及科研文献的筛选和检索方法领域,尤其涉及一种针对个性化科研文献的筛选方法。
技术介绍
科研文献是目前科研成果的主要载体,在实验手段不断革新、技术平台不断创新的大背景下,各个研究领域内的科研文献在数量上均出现了井喷。科研人员在查看某具体研究领域的时候,往往花费大量的时间在筛选文献上,同时因为科研文献大多为英语文献而国内科研人员的英语阅读能力普遍不高,所以科研文献的阅读和搜索是我国科研领域中的一大瓶颈。以肺癌基因研究为例(2016年7月),根据”lungcancergene”关键词在NCBIPubmed上进行搜索发现超过3万篇文献(其中近3年内的文献已经超过7000篇)。要用纯人工阅读的传统方法去完成如此繁重的文献阅读并筛选出符合自己研究领域的参考文献是耗时的、低效的,因此,开发出自动识别用户个性化需求的科研文献推荐系统显得非常迫切。目前比较常用的推荐算法有协同过滤推荐算法和基于内容的推荐算法。协同过滤推荐算法的原理是根据用户和用户之间的相似性找到用户潜在的兴趣进而作出合理的推荐对象,但是该推荐算法的缺点是不适用于对象的特征值难以提取的情况(例如:科研文献)。科学文献是一种字符化的信息,在单词分割后再计算出每个词的TF-IDF值(词频-逆向文档频率)并据此构建出每篇文献相应的向量,再计算出每篇科研文献与用户研究领域内的参考文献之间的余弦值,最后根据余弦值的大小排序并完成向用户推荐个性化科研文献。因此,基于内容的推荐算法比较适用于个性化的科研文献推荐。目前,对于应用传统人工搜索的每一个科研人员来说,要在数量和信息量井喷的科研文献里找到与自己研究领域高度相关的科研文献并进行整理和设计实验,这个过程需要花费的时间在目前大约3-6个月,目前和可预见的未来数年内科研文献无论在数量上还是在信息量上都呈现指数式的增长趋势,所以很有必要开发出对应的科研文献推荐算法以解决传统人工搜索文献过程需要耗时太长的问题。
技术实现思路
针对上述存在的问题,本专利技术目的在于提供一种准确率高,操作简单方便,可大幅缩短科研人员在阅读和整理科研文献时间的个性化科研文献的高效检索方法。为了达到上述目的,本专利技术采用的技术方案如下:一种针对个性化科研文献的筛选方法,所述的筛选方法包括如下操作步骤:1)通过科研人员收集X个的特定领域的关键词,在数据库上输入这些关键词然后得到大量的科研文章,然后将题目、作者和摘要信息输出成一个汇总的文本文件,并要求科研人员提供阅读过的Y篇在该特定领域内偏好文献。2)在该汇总的文本文件内将每篇文章去除标点符号,将文章分隔成单个的词,然后对所有词进行TF-IDF值的计算,并建立表示每篇文章的k维向量;以和分别表示所有文章和用户偏好参考文献的向量,w是每个单词的TF-IDF值而k为单词的个数;单词Ki在文献dj中的词频TFi定义为;单词Ki在整个文献集中出现的逆向文献频率IDFi定义为;每个单词的w等于TF-IDF并定义为,其中N为文献集包含的文献数,ni为文献集中包含关键词Ki的文献数,fij为关键字Ki在文档dj中出现的次数;每个候选文献与所有用户研究领域中偏好的参考文献按照进行余弦值计算以表示相似度;把每篇候选文献与所有用户偏好的参考文献之间的余弦值进行求和,得到每篇候选文献的综合相似度;对各篇候选文件的综合相似度进行降序排列,得出第一轮综合推荐文献结果;3)将步骤2)得出的结果返回给用户进行人工判断,再从第一轮推综合推荐文献结果中重新筛选Y篇的用户偏好文献,按照步骤2)的操作方法进行迭代运算一次,得出第二轮综合推荐文献结果;4)从第二轮推荐结果中找出Y篇用户偏好文献,综合前两次找出的共3×Y篇的用户偏好文献,可以视为用户在本研究领域的代表性训练数据集。根据此训练数据集按照第(2)步骤进行用户个性化科研文献搜索,得到的推荐文献准确率达到95%以上;而且该训练数据集将随研究的逐步深入而变得越来越丰富,其准确率也将逐步上升。本专利技术所述的步骤1)~步骤4)中的Y的取值范围为:5≤Y≤15,X的取值范围为2≤X≤5。本专利技术所述的筛选方法针对的科研文献为NCBIPubmed数据库上的英文文献。根据本专利技术的步骤1)中的操作方法,将步骤1)的操作方法编制成自动化程序;根据本专利技术的步骤2)中的操作方法,将步骤2)的操作方法编制成自动化程序;根据本专利技术的步骤3)中的操作方法,将步骤3)的操作方法编制成自动化程序;本专利技术的优点在于:本专利技术采用了用户与基于内容推荐算法替互动的个性化科研文献阅读方法取代传统的基于纯人工搜索的文献阅读方法。与传统方法相比,其具有以下优点:本专利技术仅需要有限的人工阅读作为完善基于内容推荐算法并高效提供个性化科研文献,对于每一个科研人员来说能够节省大量文献阅读时间并避免重复研究和实验资源浪费。按照本专利技术3次迭代后得到的训练数据集进行个性化科研文献阅读,经计算机阅读后推荐得到的科研文献中95%以上的文献符合用户的研究领域,在阅读时间上减少90%以上,训练数据集能跟随用户深入研究变得丰富并进一步提升文献推荐的准确率。附图说明图1为本专利技术的检索方法的操作流程图;图2为本专利技术的技术方案针对三种截然不同的研究领域(每个领域文献数量均超过10000篇),经过4次循环完善用户相关研究领域的训练数据集结果图。图3为本专利技术的技术方案针对三种截然不同的研究领域(每个领域文献数量均超过30000篇),经过4次循环完善用户相关研究领域的训练数据集结果图。具体实施方式下面结合附图说明和具体实施方式对本专利技术作进一步详细的描述。实施例1:如图1所述,一种针对个性化科研文献的筛选方法,所述的筛选方法包括如下操作步骤:1)通过科研人员收集3个的特定领域的关键词,在数据库上输入这些关键词然后得到大量的科研文章,然后将题目、作者和摘要信息输出成一个汇总的文本文件,并要求科研人员提供阅读过的10篇在该特定领域内偏好文献。2)在该汇总的文本文件内将每篇文章去除标点符号,将文章分隔成单个的词,然后对所有词进行TF-IDF值的计算,并建立表示每篇文章的k维向量;以和分别表示所有文章和用户偏好参考文献的向量,w是每个单词的TF-IDF值而k为单词的个数;单词Ki在文献dj中的词频TFi定义为;单词Ki在整个文献集中出现的逆向文献频率IDFi定义为;每个单词的w等于TF-IDF并定义为,其中N为文献集包含的文献数,ni为文献集中包含关键词Ki的文献数,fij为关键字Ki在文档dj中出现的次数;每个候选文献与所有用户研究领域中偏好的参考文献按照进行余弦值计算以表示相似度;把每篇候选文献与所有用户偏好的参考文献之间的余弦值进行求和,得到每篇候选文献的综合相似度;对各篇候选文件的综合相似度进行降序排列,得出第一轮综合推荐文献结果;3)将步骤2)得出的结果返回给用户进行人工判断,再从第一轮推综合推荐文献结果中重新筛选10篇的用户偏好文献,按照步骤2)的操作方法进行迭代运算一次,得出第二轮综合推荐文献结果;4)从第二轮推荐结果中找出10篇用户偏好文献,综合前两次找出的共30篇的用户偏好文献,可以视为用户在本研究领域的代表性训练数据集。实施例2:如图1和2所示:以2016年的老药新用、胰腺癌基因靶标和脂肪肝代谢机理三个截然不同本文档来自技高网
...
一种针对个性化科研文献的筛选方法

【技术保护点】
一种针对个性化科研文献的筛选方法,其特征在于,所述的筛选方法包括如下操作步骤:1)通过科研人员收集X个的特定领域的关键词,在数据库上输入这些关键词然后得到大量的科研文章,然后将题目、作者和摘要信息输出成一个汇总的文本文件,并要求科研人员提供阅读过的Y篇在该特定领域内偏好文献;2)在该汇总的文本文件内将每篇文章去除标点符号,将文章分隔成单个的词,然后对所有词进行TF‑IDF值的计算,并建立表示每篇文章的k维向量,以

【技术特征摘要】
1.一种针对个性化科研文献的筛选方法,其特征在于,所述的筛选方法包括如下操作步骤:1)通过科研人员收集X个的特定领域的关键词,在数据库上输入这些关键词然后得到大量的科研文章,然后将题目、作者和摘要信息输出成一个汇总的文本文件,并要求科研人员提供阅读过的Y篇在该特定领域内偏好文献;2)在该汇总的文本文件内将每篇文章去除标点符号,将文章分隔成单个的词,然后对所有词进行TF-IDF值的计算,并建立表示每篇文章的k维向量,以和分别表示所有文章和用户偏好参考文献的向量,w是每个单词的TF-IDF值而k为单词的个数;单词Ki在文献dj中的词频TFi定义为,单词Ki在整个文献集中出现的逆向文献频率IDFi定义为,每个单词的w等于TF-IDF并定义为,其中N为文献集包含的文献数,ni为文献集中包含单词Ki的文献数,fij为单词Ki在文档dj中出现的次数;每个候选文献与所有用户研究领域中偏好的...

【专利技术属性】
技术研发人员:江经纬孙媛媛
申请(专利权)人:南京双运生物技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1