【技术实现步骤摘要】
医学文献筛选方法及装置
本专利技术实施例涉及数据处理领域,具体涉及一种医学文献筛选方法及装置。
技术介绍
医学类文献是医学基础理论与临床研究的重要参考依据。面对浩如烟海的文献数据库,如何运用计算机技术以及相关的统计方法,筛选出最符合PICO准则(P-受试者、I-干预方式、C-对照、O-结局指标)的文献,是医学文献研究的主要任务之一。而文献筛选面临的最大问题是文献库里存在大量研究内容相同或者相似的文献,需要按照一定的目的要求筛选掉这些重复文献,便于研究者从少量的数据中获得丰富的信息,从而节约时间与人力成本。传统的重复文献筛选方法一般基于动态规划的LCS(LongestCommonSubsequence,即最长公共子序列)算法,首先将文章的题目字符串进行两两比较,计算最长匹配串的长度,设置相应的阈值判断文献是否重复,并将筛选留下的任意两篇文章的作者进行逐一匹配,同样运用LCS算法筛选重复文献。但是该算法时间复杂度太高,程序效率较低。
技术实现思路
针对现有技术存在的不足和缺陷,本专利技术实施例提供一种医学文献筛选方法及装置。一方面,本专利技术实施例提出一种医学文献筛选方法,包括:S1、对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用TFIDF(termfrequencyinversedocumentfrequency,词频逆文档频率)算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;S2、对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用TFI ...
【技术保护点】
1.一种医学文献筛选方法,其特征在于,包括:对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用词频逆文档频率TFIDF算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用所述TFIDF算法为每一个中间文献构建一个作者向量,根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献。
【技术特征摘要】
1.一种医学文献筛选方法,其特征在于,包括:对待处理的医学文献的题目进行分词,基于所述待处理的医学文献的题目的分词结果,采用词频逆文档频率TFIDF算法为每一个待处理的医学文献构建一个题目向量,根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献;对所述中间文献的作者进行分词,基于所述中间文献的作者的分词结果,采用所述TFIDF算法为每一个中间文献构建一个作者向量,根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献。2.根据权利要求1所述的方法,其特征在于,所述对待处理的医学文献的题目进行分词,包括:基于分词算法与医学词库对待处理的医学文献的题目进行分词;其中,所述基于所述待处理的医学文献的题目的分词结果,采用词频逆文档频率TFIDF算法为每一个待处理的医学文献构建一个题目向量,包括:基于所述待处理的医学文献的题目的分词结果构建第一词典,并基于所述第一词典,采用词频逆文档频率TFIDF算法为每一个待处理的医学文献构建一个题目向量,其中,所述第一词典的键包括所述待处理的医学文献的题目的分词结果中的各个分词,所述第一词典的键的值是对应的分词在所述待处理的医学文献中出现的顺序,所述第一字典的大小等于所述待处理的医学文献的题目的词汇量;所述对所述中间文献的作者进行分词,包括:依据标点符号对所述中间文献的作者进行分词;所述基于所述中间文献的作者的分词结果,采用词频逆文档频率TFIDF算法为每一个中间文献构建一个作者向量,包括:基于所述中间文献的作者的分词结果构建第二词典,并基于所述第二词典,采用词频逆文档频率TFIDF算法为每一个中间文献构建一个作者向量,其中,所述第二词典的键包括所述中间文献的作者的分词结果中的各个分词,所述第二词典的键的值是对应的分词在所述中间文献中出现的顺序,所述第二字典的大小等于所述中间文献的作者的词汇量。3.根据权利要求2所述的方法,其特征在于,所述基于分词算法与医学词库对待处理的医学文献的题目进行分词,包括:利用所述分词算法对所述待处理的医学文献的题目进行分词,得到中间分词结果;基于所述医学词库对所述中间分词结果中的部分分词进行合并,得到所述待处理的医学文献的题目的分词结果,其中,所述医学词库包括至少一个医学名词,所述中间分词结果中进行合并的分词的合并结果为所述医学词库中的一个医学名词;对于每一个待处理的医学文献的题目向量,若判断获知所述第一词典中第j个分词未出现在该待处理的医学文献的题目中,则该题目向量的第j个位置的元素的值为0,或者若判断获知所述第一词典中第j个分词出现在该待处理的医学文献的题目中,则该题目向量的第j个位置的元素的值为TFj1与IDFj1的乘积,其中,wj1为所述第一词典中第j个分词在该待处理的医学文献的题目中出现的次数,Vocab1为该待处理的医学文献的题目的词汇量,M1为所述待处理的医学文献的数量,Zj1为所述待处理的医学文献中含有所述第一词典中第j个分词的医学文献的数量;对于每一个中间文献的作者向量,若判断获知所述第二词典中第j个分词未出现在该中间文献的作者中,则该作者向量的第j个位置的元素的值为0,或者若判断获知所述第二词典中第j个分词出现在该中间文献的作者中,则该作者向量的第j个位置的元素的值为TFj2与IDFj2的乘积,其中,wj2为所述第二词典中第j个分词在该中间文献的作者中出现的次数,Vocab2为该中间文献的作者的词汇量,M2为所述中间文献的数量,Zj2为所述中间文献中含有所述第二词典中第j个分词的中间文献的数量。4.根据权利要求1所述的方法,其特征在于,所述根据所述题目向量从所述待处理的医学文献的题目中筛选出重复文献,得到中间文献,包括:构建第一栈,将第一篇待处理的医学文献的题目向量压入所述第一栈;每次向所述第一栈中压入一篇待处理的医学文献的题目向量,计算最新压入所述第一栈的题目向量与所述第一栈中其它题目向量的欧氏距离,若判断获知该次计算得到的所有欧氏距离均小于第一数值,则在所述第一栈中保留所述最新压入所述第一栈的题目向量,否则,则从所述第一栈中弹出所述最新压入所述第一栈的题目向量;将所述第一栈中最终存在的题目向量对应的医学文献确定为所述中间文献;其中,所述根据所述作者向量从所述中间文献中筛选出重复文献,得到目的文献,包括:构建第二栈,将第一篇中间文献的作者向量压入所述第二栈,该第一篇中间文献为所述中间文献中的一篇中间文献;每次向所述第二栈中压入一篇中间文献的作者向量,计算最新压入所述第二栈的作者向量与所述第二栈中其它作者向量的欧氏距离,若判断获知该次计算得到的所有欧氏距离均小于第二数值,则在所述第二栈中保留所述最新压入所述第二栈的作者向量,否则,则从所述第二栈中弹出所述最新压入所述第二栈的作者向量;将所述第二栈中最终存在的作者向量对应的医学文献确定为所述目的...
【专利技术属性】
技术研发人员:马悦,周旻,赵荣生,林巧楠,
申请(专利权)人:大连诺道认知医学技术有限公司,北京大学第三医院,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。