医学文献筛选方法及装置制造方法及图纸

技术编号:20389911 阅读:20 留言:0更新日期:2019-02-20 02:52
本发明专利技术实施例公开一种医学文献筛选方法及装置,能提高医学文献筛选的效率,并保证筛选的准确性。方法包括:S1、对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用TFIDF算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;S2、对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用TFIDF算法为每一个中间文献构建一个作者向量,根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献。

【技术实现步骤摘要】
医学文献筛选方法及装置
本专利技术实施例涉及数据处理领域,具体涉及一种医学文献筛选方法及装置。
技术介绍
医学类文献是医学基础理论与临床研究的重要参考依据。面对浩如烟海的文献数据库,如何运用计算机技术以及相关的统计方法,筛选出最符合PICO准则(P-受试者、I-干预方式、C-对照、O-结局指标)的文献,是医学文献研究的主要任务之一。而文献筛选面临的最大问题是文献库里存在大量研究内容相同或者相似的文献,需要按照一定的目的要求筛选掉这些重复文献,便于研究者从少量的数据中获得丰富的信息,从而节约时间与人力成本。传统的重复文献筛选方法一般基于动态规划的LCS(LongestCommonSubsequence,即最长公共子序列)算法,首先将文章的题目字符串进行两两比较,计算最长匹配串的长度,设置相应的阈值判断文献是否重复,并将筛选留下的任意两篇文章的作者进行逐一匹配,同样运用LCS算法筛选重复文献。但是该算法时间复杂度太高,程序效率较低。
技术实现思路
针对现有技术存在的不足和缺陷,本专利技术实施例提供一种医学文献筛选方法及装置。一方面,本专利技术实施例提出一种医学文献筛选方法,包括:S1、对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用TFIDF(termfrequencyinversedocumentfrequency,词频逆文档频率)算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;S2、对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用TFIDF算法为每一个中间文献构建一个作者向量,根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献。另一方面,本专利技术实施例提出一种医学文献筛选装置,包括:第一筛选单元,用于对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用TFIDF算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;第二筛选单元,用于对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用TFIDF算法为每一个中间文献构建一个作者向量,根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献。第三方面,本专利技术实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器,存储器通过所述总线完成相互间的通信;所述处理器执行所述计算机程序时实现上述方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。本专利技术实施例提供的医学文献筛选方法及装置,首先,对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用TFIDF算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;然后对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用TFIDF算法为每一个中间文献构建一个作者向量,根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献,整个方案使用了时间复杂度比LCS算法低的TFIDF算法,能提高医学文献筛选的效率,并保证筛选的准确性。附图说明图1为本专利技术医学文献筛选方法一实施例的流程示意图;图2为本专利技术医学文献筛选装置一实施例的结构示意图;图3为本专利技术实施例提供的一种电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术实施例保护的范围。参看图1,本实施例公开一种医学文献筛选方法,包括:S1、对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用TFIDF算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;可以理解的是,待处理的医学文献的数量为多个,每一篇待处理的医学文献的题目的分词结果中没有相同的分词。S2、对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用TFIDF算法为每一个中间文献构建一个作者向量,根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献。本专利技术实施例提供的医学文献筛选方法,首先,对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用TFIDF算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;然后对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用TFIDF算法为每一个中间文献构建一个作者向量,根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献,整个方案使用了时间复杂度比LCS算法低的TFIDF算法,能提高医学文献筛选的效率,并保证筛选的准确性。在前述方法实施例的基础上,所述对待处理的医学文献的题目进行分词,可以包括:基于分词算法与医学词库对待处理的医学文献的题目进行分词;其中,所述基于所述待处理的医学文献的题目的分词结果,采用TFIDF算法为每一个待处理的医学文献构建一个题目向量,可以包括:基于所述待处理的医学文献的题目的分词结果构建第一词典,并基于所述第一词典,采用TFIDF算法为每一个待处理的医学文献构建一个题目向量,其中,所述第一词典的键可以包括所述待处理的医学文献的题目的分词结果中的各个分词,所述第一词典的键的值是对应的分词在所述待处理的医学文献中出现的顺序,所述第一字典的大小等于所述待处理的医学文献的题目的词汇量;所述对所述中间文献的作者进行分词,可以包括:依据标点符号对所述中间文献的作者进行分词;所述基于所述中间文献的作者的分词结果,采用TFIDF算法为每一个中间文献构建一个作者向量,可以包括:基于所述中间文献的作者的分词结果构建第二词典,并基于所述第二词典,采用TFIDF算法为每一个中间文献构建一个作者向量,其中,所述第二词典的键可以包括所述中间文献的作者的分词结果中的各个分词,所述第二词典的键的值是对应的分词在所述中间文献中出现的顺序,所述第二字典的大小等于所述中间文献的作者的词汇量。本实施例中,依据标点符号对中间文献的作者进行分词,指的是以标点符号为界限对中间文献的作者进行分词。比如某一篇中间文献的作者是:张三;李四,王五;赵六,则依据标点符号对该篇中间文献的作者进行分词,可以得到如下分词结果:[张三李四王五赵六]。在前述方法实施例的基础上,所述基于分词算法与医学词库对待处理的医学文献的题目进行分词,可以包括:利用所述分词算法对所述待处理的医学文献的题目进行分词,得到中间分词结果;基于所述医学词库对所述中间分词结果中的部分分词进行合并,得到所述待处理的医学文献的题目的分词结果,其中,所述医学词本文档来自技高网...

【技术保护点】
1.一种医学文献筛选方法,其特征在于,包括:对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用词频逆文档频率TFIDF算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用所述TFIDF算法为每一个中间文献构建一个作者向量,根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献。

【技术特征摘要】
1.一种医学文献筛选方法,其特征在于,包括:对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用词频逆文档频率TFIDF算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用所述TFIDF算法为每一个中间文献构建一个作者向量,根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献。2.根据权利要求1所述的方法,其特征在于,所述对待处理的医学文献的题目进行分词,包括:基于分词算法与医学词库对待处理的医学文献的题目进行分词;其中,所述基于所述待处理的医学文献的题目的分词结果,采用词频逆文档频率TFIDF算法为每一个待处理的医学文献构建一个题目向量,包括:基于所述待处理的医学文献的题目的分词结果构建第一词典,并基于所述第一词典,采用词频逆文档频率TFIDF算法为每一个待处理的医学文献构建一个题目向量,其中,所述第一词典的键包括所述待处理的医学文献的题目的分词结果中的各个分词,所述第一词典的键的值是对应的分词在所述待处理的医学文献中出现的顺序,所述第一字典的大小等于所述待处理的医学文献的题目的词汇量;所述对所述中间文献的作者进行分词,包括:依据标点符号对所述中间文献的作者进行分词;所述基于所述中间文献的作者的分词结果,采用词频逆文档频率TFIDF算法为每一个中间文献构建一个作者向量,包括:基于所述中间文献的作者的分词结果构建第二词典,并基于所述第二词典,采用词频逆文档频率TFIDF算法为每一个中间文献构建一个作者向量,其中,所述第二词典的键包括所述中间文献的作者的分词结果中的各个分词,所述第二词典的键的值是对应的分词在所述中间文献中出现的顺序,所述第二字典的大小等于所述中间文献的作者的词汇量。3.根据权利要求2所述的方法,其特征在于,所述基于分词算法与医学词库对待处理的医学文献的题目进行分词,包括:利用所述分词算法对所述待处理的医学文献的题目进行分词,得到中间分词结果;基于所述医学词库对所述中间分词结果中的部分分词进行合并,得到所述待处理的医学文献的题目的分词结果,其中,所述医学词库包括至少一个医学名词,所述中间分词结果中进行合并的分词的合并结果为所述医学词库中的一个医学名词;对于每一个待处理的医学文献的题目向量,若判断获知所述第一词典中第j个分词未出现在该待处理的医学文献的题目中,则该题目向量的第j个位置的元素的值为0,或者若判断获知所述第一词典中第j个分词出现在该待处理的医学文献的题目中,则该题目向量的第j个位置的元素的值为TFj1与IDFj1的乘积,其中,wj1为所述第一词典中第j个分词在该待处理的医学文献的题目中出现的次数,Vocab1为该待处理的医学文献的题目的词汇量,M1为所述待处理的医学文献的数量,Zj1为所述待处理的医学文献中含有所述第一词典中第j个分词的医学文献的数量;对于每一个中间文献的作者向量,若判断获知所述第二词典中第j个分词未出现在该中间文献的作者中,则该作者向量的第j个位置的元素的值为0,或者若判断获知所述第二词典中第j个分词出现在该中间文献的作者中,则该作者向量的第j个位置的元素的值为TFj2与IDFj2的乘积,其中,wj2为所述第二词典中第j个分词在该中间文献的作者中出现的次数,Vocab2为该中间文献的作者的词汇量,M2为所述中间文献的数量,Zj2为所述中间文献中含有所述第二词典中第j个分词的中间文献的数量。4.根据权利要求1所述的方法,其特征在于,所述根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献,包括:构建第一栈,将第一篇待处理的医学文献的题目向量压入所述第一栈;每次向所述第一栈中压入一篇待处理的医学文献的题目向量,计算最新压入所述第一栈的题目向量与所述第一栈中其它题目向量的欧氏距离,若判断获知该次计算得到的所有欧氏距离均小于第一数值,则在所述第一栈中保留所述最新压入所述第一栈的题目向量,否则,则从所述第一栈中弹出所述最新压入所述第一栈的题目向量;将所述第一栈中最终存在的题目向量对应的医学文献确定为所述中间文献;其中,所述根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献,包括:构建第二栈,将第一篇中间文献的作者向量压入所述第二栈,该第一篇中间文献为所述中间文献中的一篇中间文献;每次向所述第二栈中压入一篇中间文献的作者向量,计算最新压入所述第二栈的作者向量与所述第二栈中其它作者向量的欧氏距离,若判断获知该次计算得到的所有欧氏距离均小于第二数值,则在所述第二栈中保留所述最新压入所述第二栈的作者向量,否则,则从所述第二栈中弹出所述最新压入所述第二栈的作者向量;将所述第二栈中最终存在的作者向量对应的医学文献确定为所述目的...

【专利技术属性】
技术研发人员:马悦周旻赵荣生林巧楠
申请(专利权)人:大连诺道认知医学技术有限公司北京大学第三医院
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1