一种基于模式串匹配的学术论文快速智能筛选方法技术

技术编号:21224592 阅读:35 留言:0更新日期:2019-05-29 05:20
本发明专利技术公开了一种基于模式串匹配的学术论文快速智能筛选方法,首先转换用户输入的论文集合为统一的文件格式;建立基于用户输入的用于筛选条件的关键词分析的状态转换图;建立基于关键词的跳跃前移预测表;然后执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。最后通过筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。本发明专利技术解决了现有技术中存在的对收集到的论文进行整理需要大量人力、精力的问题。

A Fast Intelligent Selection Method for Academic Papers Based on Pattern String Matching

The invention discloses a fast intelligent screening method for academic papers based on pattern string matching. Firstly, the set of papers input by users is transformed into a unified file format; a state transition diagram for keyword analysis based on user input is established; a jump forward prediction table based on keywords is established; and then, a pattern matching algorithm is executed to calculate the papers and keywords. Matching degree, according to the statistical matching degree, returns the filtering results. Finally, the screened papers are checked through the screening results, and then the detailed matching of each paper with keywords is checked. The invention solves the problem that a great deal of manpower and energy are needed to arrange the collected papers in the prior art.

【技术实现步骤摘要】
一种基于模式串匹配的学术论文快速智能筛选方法
本专利技术属于论文智能检索
,具体涉及一种基于模式串匹配的学术论文快速智能筛选方法。
技术介绍
阅读大量的文献是获取学科领域的研究成果、发展现状必不可少的途径。现有的网站知网、百度学术、google学术等为用户提取了查阅、下载学术论文的平台,用户下载海量论文后,需要投入大量的人力、精力对收集到的论文进行整理获取对个人、团队研究有用的论文,此过程需要反复的浏览论文,进而筛选出最终有用的论文。随着论文信息量的增加,这样的筛选过程将耗费用户更多的时间和精力。另一方面,因为论文数据量大,难免因为人工疲劳、疏忽大意等人为因素漏掉有用的论文。为解决面对大量的论文筛选带来的难题,提高工作效率,提出依据用户给定的关键词与论文集合中的每篇论文执行模式串匹配处理,计算给定关键词与每篇论文的匹配度,从而筛选出有用论文。
技术实现思路
本专利技术的目的是提供一种基于模式串匹配的学术论文快速智能筛选方法,解决了现有技术中存在的对收集到的论文进行整理需要大量人力、精力的问题。本专利技术所采用的技术方案是,一种基于模式串匹配的学术论文快速智能筛选方法,具体按照以下步骤实施:步骤1、转换用户输入的论文集合为统一的文件格式;步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图;步骤3、建立基于关键词的跳跃前移预测表;步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。本专利技术的特点还在于,步骤1中用户输入的论文集合文件格式包括.ord、.pdf、.caj,转换后的统一的文件格式为.txt。步骤2中用户输入的用于筛选条件的关键词有三种方式供用户选择,如下:方式一:用户手动输入关键词,最多输入8个;方式二:用户在系统中自动选取研究领域及选定领域的专业方向的关键词;方式三:将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词。步骤2中状态转换图由圆圈和箭头构成,其中圆圈表示状态,圆圈中的数字表示第几个状态,箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态,在建立状态转换图时,开始状态用状态0表示,从关键词的最右边的字符开始从右向左依次建立,一个状态下每向左扫描一个字符时便进入下一个状态,其中状态的编号从0开始每增减一个状态,状态的编号自动增加1,当多个关键词存在公共的最右字符串时,这些关键词放在一起构造状态转换图,形成一个共有的状态转换图。步骤2具体如下:当两个或者两个以上的关键词之间存在最右公共的字符串时,根据各个关键词的构词规则,建立状态与扫描字符间的转换关系图,具有公共字符串的关键词的状态转换图是同一个状态转换图,从而简化关键词匹配操作执行的过程。步骤3中跳跃前移预测表用于匹配不成功时,对关键词向前跳跃距离进行预测,根据关键词中字符在关键词中出现的位置计算向前跳跃的距离,出现文本字符和关键词的字符不匹配时,关键词前移距离分两种情况计算:如果当前扫描到的文本字符不属于关键词中的字符,则前移的距离为关键词长度的最小值;如果当前扫描到的文本字符属于关键词中的字符,依据状态转换图中当前字符的弧头距离开始状态的长度计算得到。步骤4具体如下:对论文集合中的每一篇论文执行如下的操作:步骤4.1、从左向右扫描论文Ti,当扫描到除空格、逗号、分号、句号这些标点符号外的有效字符Ct时,根据状态图的引导实现与关键词中字符Ck的匹配。当有关键词Kj被匹配成功时,将所有关键词向前跳跃Kj长度lj的距离;当所有关键词匹配均不成功时,查找跳跃前移预测表中字符Ct对应的移动距离l,将关键词向前移动l个字符的距离;步骤4.2、从新的位置开始重新进行关键词的匹配处理,直到扫描到论文的末尾;步骤4.3、在匹配的过程中记录各个关键词匹配成功的次数tj,对每一篇论文重复步骤4.1~步骤4.3,直到用户上传的所有论文均被匹配后结束;步骤4.4、按照公式(1)计算给定关键词在一篇论文中的匹配度di:di=(∑vj×tj)/wi其中,vj代表第j个关键词的权值,tj表示第j个关键词在论文文本中匹配成功的次数,wi表示论文的字符长度;步骤4.5、根据统计的匹配度,返回筛选结果:依据步骤4.4统计的匹配度di值的大小,对论文进行排序,返回筛选结果。本专利技术的有益效果是,一种基于模式串匹配的学术论文快速智能筛选方法,利用文本转换技术、状态转换图、模式串匹配处理技术,建立模式串跳跃前移预测分析表,实现基于科学研究领域的关键词的匹配处理,借助各关键词权值及匹配成功的次数计算匹配度的方法,实现以用户专业背景或者研究方向量身定制的智能快速学术论文筛选平台。为计算机模式串匹配处理在其他工程中的应用提供理论和技术参考。附图说明图1是本专利技术一种基于模式串匹配的学术论文快速智能筛选方法各功能模块协同工作流图;图2是本专利技术一种基于模式串匹配的学术论文快速智能筛选方法工作流示意图;图3是本专利技术一种基于模式串匹配的学术论文快速智能筛选方法中实施例的状态转换图;图4(a)是本专利技术一种基于模式串匹配的学术论文快速智能筛选方法中实施例中与字符串“本专利介绍”匹配的状态转换图;图4(b)是本专利技术一种基于模式串匹配的学术论文快速智能筛选方法中实施例中字符串“是一种模式”匹配状态转换图;图4(c)是本专利技术一种基于模式串匹配的学术论文快速智能筛选方法中实施例中字符串“模式串匹配”匹配成功状态转换图。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术一种基于模式串匹配的学术论文快速智能筛选方法,具体按照以下步骤实施:步骤1、转换用户输入的论文集合为统一的文件格式,其中,用户输入的论文集合文件格式包括.ord、.pdf、.caj,转换后的统一的文件格式为.txt;步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图,其中,用户输入的用于筛选条件的关键词有三种方式供用户选择,如下:方式一:用户手动输入关键词,最多输入8个;方式二:用户在系统中自动选取研究领域及选定领域的专业方向的关键词;方式三:将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词;步骤2中状态转换图由圆圈和箭头构成,其中圆圈表示状态,圆圈中的数字表示第几个状态,箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态,在建立状态转换图时,开始状态用状态0表示,从关键词的最右边的字符开始从右向左依次建立,一个状态下每向左扫描一个字符时便进入下一个状态,其中状态的编号从0开始每增减一个状态,状态的编号自动增加1,当多个关键词存在公共的最右字符串时,这些关键词放在一起构造状态转换图,形成一个共有的状态转换图。步骤2具体如下:当两个或者两个以上的关键词之间存在最右公共的字符串时,根据各个关键词的构词规则,建立状态与扫描字符间的转换关系图,具有公共字符串的关键词的状态转换图是同一个状态转换图,从而简化关键词匹配操作执行的过程。步骤3、建立基于关键词的跳跃前移预测表,其中,跳跃前移预测表用于匹配不成功时,对关键词向前跳跃距离进行预测,根据关键词中字符在关键词中出现的位置计算向前跳跃的距离,出现文本字符和关键本文档来自技高网...

【技术保护点】
1.一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,具体按照以下步骤实施:步骤1、转换用户输入的论文集合为统一的文件格式;步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图;步骤3、建立基于关键词的跳跃前移预测表;步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。

【技术特征摘要】
1.一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,具体按照以下步骤实施:步骤1、转换用户输入的论文集合为统一的文件格式;步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图;步骤3、建立基于关键词的跳跃前移预测表;步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。2.根据权利要求1所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤1中用户输入的论文集合文件格式包括.ord、.pdf、.caj,转换后的统一的文件格式为.txt。3.根据权利要求1所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤2中用户输入的用于筛选条件的关键词有三种方式供用户选择,如下:方式一:用户手动输入关键词,最多输入8个;方式二:用户在系统中自动选取研究领域及选定领域的专业方向的关键词;方式三:将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词。4.根据权利要求3所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤2中状态转换图由圆圈和箭头构成,其中圆圈表示状态,圆圈中的数字表示第几个状态,箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态,在建立状态转换图时,开始状态用状态0表示,从关键词的最右边的字符开始从右向左依次建立,一个状态下每向左扫描一个字符时便进入下一个状态,其中状态的编号从0开始每增减一个状态,状态的编号自动增加1,当多个关键词存在公共的最右字符串时,这些关键词放在一起构造状态转换图,形成一个共有的状态转换图。5.根据权利要求4所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤2具体如下:当两个或者两个以上的关键词之间存在最右公...

【专利技术属性】
技术研发人员:赵晓何立风陈弘颖魏婧雪闫晨杨楠
申请(专利权)人:陕西科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1