The invention discloses a fast intelligent screening method for academic papers based on pattern string matching. Firstly, the set of papers input by users is transformed into a unified file format; a state transition diagram for keyword analysis based on user input is established; a jump forward prediction table based on keywords is established; and then, a pattern matching algorithm is executed to calculate the papers and keywords. Matching degree, according to the statistical matching degree, returns the filtering results. Finally, the screened papers are checked through the screening results, and then the detailed matching of each paper with keywords is checked. The invention solves the problem that a great deal of manpower and energy are needed to arrange the collected papers in the prior art.
【技术实现步骤摘要】
一种基于模式串匹配的学术论文快速智能筛选方法
本专利技术属于论文智能检索
,具体涉及一种基于模式串匹配的学术论文快速智能筛选方法。
技术介绍
阅读大量的文献是获取学科领域的研究成果、发展现状必不可少的途径。现有的网站知网、百度学术、google学术等为用户提取了查阅、下载学术论文的平台,用户下载海量论文后,需要投入大量的人力、精力对收集到的论文进行整理获取对个人、团队研究有用的论文,此过程需要反复的浏览论文,进而筛选出最终有用的论文。随着论文信息量的增加,这样的筛选过程将耗费用户更多的时间和精力。另一方面,因为论文数据量大,难免因为人工疲劳、疏忽大意等人为因素漏掉有用的论文。为解决面对大量的论文筛选带来的难题,提高工作效率,提出依据用户给定的关键词与论文集合中的每篇论文执行模式串匹配处理,计算给定关键词与每篇论文的匹配度,从而筛选出有用论文。
技术实现思路
本专利技术的目的是提供一种基于模式串匹配的学术论文快速智能筛选方法,解决了现有技术中存在的对收集到的论文进行整理需要大量人力、精力的问题。本专利技术所采用的技术方案是,一种基于模式串匹配的学术论文快速智能筛选方法,具体按照以下步骤实施:步骤1、转换用户输入的论文集合为统一的文件格式;步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图;步骤3、建立基于关键词的跳跃前移预测表;步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。本专利技术的特点还在于,步骤1中用户输入的论文 ...
【技术保护点】
1.一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,具体按照以下步骤实施:步骤1、转换用户输入的论文集合为统一的文件格式;步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图;步骤3、建立基于关键词的跳跃前移预测表;步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。
【技术特征摘要】
1.一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,具体按照以下步骤实施:步骤1、转换用户输入的论文集合为统一的文件格式;步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图;步骤3、建立基于关键词的跳跃前移预测表;步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。2.根据权利要求1所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤1中用户输入的论文集合文件格式包括.ord、.pdf、.caj,转换后的统一的文件格式为.txt。3.根据权利要求1所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤2中用户输入的用于筛选条件的关键词有三种方式供用户选择,如下:方式一:用户手动输入关键词,最多输入8个;方式二:用户在系统中自动选取研究领域及选定领域的专业方向的关键词;方式三:将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词。4.根据权利要求3所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤2中状态转换图由圆圈和箭头构成,其中圆圈表示状态,圆圈中的数字表示第几个状态,箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态,在建立状态转换图时,开始状态用状态0表示,从关键词的最右边的字符开始从右向左依次建立,一个状态下每向左扫描一个字符时便进入下一个状态,其中状态的编号从0开始每增减一个状态,状态的编号自动增加1,当多个关键词存在公共的最右字符串时,这些关键词放在一起构造状态转换图,形成一个共有的状态转换图。5.根据权利要求4所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤2具体如下:当两个或者两个以上的关键词之间存在最右公...
【专利技术属性】
技术研发人员:赵晓,何立风,陈弘颖,魏婧雪,闫晨,杨楠,
申请(专利权)人:陕西科技大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。