当前位置: 首页 > 专利查询>吉林大学专利>正文

一种文献投递对象选择系统技术方案

技术编号:20680950 阅读:52 留言:0更新日期:2019-03-27 18:53
本发明专利技术涉及一种文献投递对象选择系统,包括信息提取模块、信息管理模块、信息分析模块和信息整理反馈模块;能帮助用户选择合适的投稿的期刊,避免投递一个错误的期刊引起的拒稿、延期或者出版后读者很少的情况。

【技术实现步骤摘要】
一种文献投递对象选择系统
本专利技术涉及信息推荐领域,更具体地,涉及一种文献投递对象选择系统。
技术介绍
由于网络信息的巨大增长和复杂度的日益增加,用户很难从海量数据中准确地查找到他们想要的信息,尤其是对于研究者们来说,想要及时了解所研究领域的动态,有时并非易事。如今,世界上许多新知识主要以数字形式表现并存储在数字图书馆(DigitalLibraries)系统中,所以数字图书馆正在进入一个黄金时代。这样的数据图书馆,在科技领域中,有如ACMLibrary、IEEELibrary等。然而随着科技的发展和信息的不断增长,这些趋势的产生导致了一个不可避免的问题——信息过载。例如,研究者们想要选择合适的出版物发表论文时,发现大量的出版物与他们的查询查询匹配,但是在很大程度上与它们的实际需求无关,这种情况让他们在选择上无所适从。故研究者们急需一个论文推荐系统,帮助他们选择合适的出版物。
技术实现思路
有鉴于此,本专利技术提供了一种文献投递对象选择系统,其特征在于,包括信息提取模块、信息管理模块、信息分析模块和信息整理反馈模块;信息提取模块包括信息交换路径下载单元、查询方案单元、页面信息提取单元、分析储存单元四个单元,各个单元独立,顺序执行;信息交换路径下载单元包括提取装置、筛选装置、标准化装置和去重装置;提取装置用ELFhash函数对HTML页面的代码进行信息交换路径提取;筛选装置将不需要的信息交换路径直接删除,将需要的信息交换路径进行保存;标准化装置将所有信息交换路径转化为绝对地址;去重装置通过创建Hash表和Hash函数进行网址去重;信息交换路径下载单元负责对HTML页面中的所有信息交换路径进行提取、整理,作为查询方案单元的输入;查询方案单元对信息交换路径提取单元提取的网址进行下载,获得网址的页面上的信息交换路径;对网址进行下载时,使用宽度优先方案;页面信息提取单元负责提取网址的页面上的关键信息,包括文章的题目、摘要和作者;信息分类单元负责将网址的页面上的关键信息按出版物的类别分类存储,并对摘要进行预处理后,形成倒排索引表;信息提取模块将提取的信息存入信息管理模块;信息管理模块负责定义信息管理标准,选定适合的信息存储方式,并根据信息管理标准和信息存储方式定义信息访问通道;用户通过信息访问通道访问信息管理模块,通过图形界面进行处理流程定义,产生的处理流程定义通过信息访问通道保存在信息管理模块中;信息管理模块根据处理流程定义,产生信息处理执行计划;信息分析模块,按照信息处理执行计划,对信息管理模块中的信息进行预处理,预处理包含了大小写转换、分词、停用词过滤和词干提取四个步骤;对信息进行大小写转换处理,将信息中的所有的字母转换为小写字母;对信息进行分词处理,以空格、标点符号、段落为分割符,将信息分隔成独立的单词;对信息进行提取词干过滤处理,过滤掉拥有相同词根但是时态不同的单词的过去式形态;对信息进行停用词过滤处理,过滤掉信息中的助动词、介词、连接词和感叹词;信息整理模块,将信息向量化,每一个网址的页面上的关键信息的信息对应一个特征向量;信息反馈模块,比较用户给出的文章摘要的信息信息和倒排索引表中的摘要的信息信息,通过公式一计算两者的相似度:公式一:其中,β代表用户给出的文章摘要的信息信息和倒排索引表中的摘要的信息信息之间的相似度,W1j、W2j分别表示用户给出的文章摘要的信息信息对应的特征向量和倒排索引表中的摘要的信息信息对应的特征向量中,第j个维度项的数值,j和n均为正整数,j≤n;根据相似度,由高到低来排列倒排索引表中的摘要,获取对应摘要所在的网址的页面上的关键信息。本专利技术的有益成果为:本专利技术提供了一种文献投递对象选择系统,能帮助用户选择合适的投稿的期刊,避免投递一个错误的期刊引起的拒稿、延期或者出版后读者很少的情况,具有广阔的市场前景和应用价值。附图说明图1在MI特征选择模型下,推荐三类选取不同数量的特征后,在训练集和测试集上的准确率的变化情况图;图2在IG特征选择模型下,推荐三类选取不同数量的特征后,在训练集和测试集上的准确率的变化情况图;图3在CHI特征选择模型下,推荐三类选取不同数量的特征后,在训练集和测试集上的准确率的变化情况图;图4在分别MI、IG和CHI特征选择模型下,推荐一类的macro-averagedROC曲线图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本专利技术进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术,能实现同样功能的产品属于等同替换和改进,均包含在本专利技术的保护范围之内。具体方法如下:实施例1:利用本专利技术进行实验,训练集和测试集的摘要数量分布情况如表1所示,本专利技术的数据爬虫一共收集到了14012个包含题目、摘要、作者的文章信息。其中三分之二的摘要被用于作为训练集,三分之一的摘要用于测试集。在实验中,数据选取的是在CCF上已发布的A类的期刊和会议的文章,这些文章发表于2013年和2014年。但对于那些在2014年和2013年出版文章过少的期刊和会议,本专利技术也收集了它们其他年份的出版文章。为了验证数据集的正确性,本专利技术手动验证了每个期刊和会议中的百分之二十的摘要。表1训练集和测试集摘要数量分布情况本专利技术的推荐系统提供了两种推荐结果:推荐一类和推荐三类。推荐一类(Top1)的版本只推荐一个期刊或会议,并且在评估结果时也非常严格。推荐三类(Top3)的版本会给出三个候选的期刊或者会议。推荐三类的版本就是选出了分类得分最高的前三个类别作为推荐结果。换句话说,如果给出的推荐结果中有一个命中了正确的期刊或者会议,就可以认为这次推荐是成功的。推荐三类的版本也给用户提供了更多的选择,因为有的时候某一领域发表的文章其实也对于其他相关领域有一定的影,也可以说一篇文章不单单对某一特定领域有价值而已,可以对多个领域有很大的影响。另外,不同的会议或者期刊也经常会出版相似的领域的论文,例如:ICCV、CVPR、TIP等,并且也有很多期刊的文章是会议文章的延伸。为了生成一个较好的特征空间,本专利技术在为每个类别选取特征数量上做了很多的实验。本专利技术用MI、IG和CHI三种方法在特征选择上做了比较,用得分最高的前M个单词作为第i个类别的特征向量FVi。本专利技术使用准确率(公式1)、F-measure(公式2)和ROC曲线来评估系统的效果。因为本专利技术的系统使用了多分类模型,所以本专利技术用macro-averagedROC(公式3和4)曲线。其中,Pi指的是被预测为第i个类别的测试样本集合,Gi指的是真实类别为i的测试样本集合。TPi,FNi,FPi,和TNi,分别是第i个类别的真阳率、假阴率、假阳率和真阴率的数量。图1、2、3分别给出了在MI、IG、CHI三种特征选择模型下,每个类别选取不同数量(即M)的特征后,在训练集和测试集上的准确率的变化情况。其中,图1、2、3中的结果是使用推荐三类(Top3)的版本结果而得,换句话说,如果系统给出的三个推荐结果中有一个是正确的,则认为这次推荐是成功的。图4和表1给出了三种特征选择模型的比较结果。从图1、2、3中可以看出:(1)当使用IG和CHI特征选择模型时,在每个类别的特征数量达到30时,准本文档来自技高网...

【技术保护点】
1.一种文献投递对象选择系统,其特征在于,包括信息提取模块、信息管理模块、信息分析模块和信息整理反馈模块;所述信息提取模块包括信息交换路径下载单元、查询方案单元、页面信息提取单元、分析储存单元四个单元,各个所述单元独立,顺序执行;所述信息交换路径下载单元包括提取装置、筛选装置、标准化装置和去重装置;所述提取装置用ELFhash函数对HTML页面的代码进行所述信息交换路径提取;所述筛选装置将不需要的所述信息交换路径直接删除,将需要的所述信息交换路径进行保存;所述标准化装置将所有所述信息交换路径转化为绝对地址;所述去重装置通过创建Hash表和Hash函数进行网址去重;所述信息交换路径下载单元负责对所述HTML页面中的所有所述信息交换路径进行提取、整理,作为所述查询方案单元的输入;所述查询方案单元对所述信息交换路径提取单元提取的所述网址进行下载,获得所述网址的所述页面上的所述信息交换路径;对所述网址进行所述下载时,使用宽度优先方案;所述页面信息提取单元负责提取所述网址的所述页面上的关键信息,包括文章的题目、摘要和作者;所述信息分类单元负责将所述网址的所述页面上的关键信息按出版物的类别分类存储,并对所述摘要进行预处理后,形成倒排索引表;所述信息提取模块将提取的所述信息存入所述信息管理模块;所述信息管理模块负责定义信息管理标准,选定适合的信息存储方式,并根据所述信息管理标准和所述信息存储方式定义信息访问通道;用户通过所述信息访问通道访问所述信息管理模块,通过图形界面进行处理流程定义,产生的处理流程定义通过所述信息访问通道保存在所述信息管理模块中;所述信息管理模块根据所述处理流程定义,产生信息处理执行计划;所述信息分析模块,按照所述信息处理执行计划,对所述信息管理模块中的所述信息进行预处理,所述预处理包含了大小写转换、分词、停用词过滤和词干提取四个步骤;对所述信息进行所述大小写转换处理,将所述信息中的所有的字母转换为小写字母;对所述信息进行所述分词处理,以空格、标点符号、段落为分割符,将所述信息分隔成独立的单词;对所述信息进行所述提取词干过滤处理,过滤掉拥有相同词根但是时态不同的所述单词的过去式形态;对所述信息进行所述停用词过滤处理,过滤掉所述信息中的助动词、介词、连接词和感叹词;所述信息整理模块,将所述信息向量化,每一个所述网址的所述页面上的关键信息的信息对应一个特征向量;所述信息反馈模块,比较所述用户给出的文章摘要的信息信息和所述倒排索引表中的所述摘要的信息信息,通过公式一计算两者的相似度:公式一:...

【技术特征摘要】
1.一种文献投递对象选择系统,其特征在于,包括信息提取模块、信息管理模块、信息分析模块和信息整理反馈模块;所述信息提取模块包括信息交换路径下载单元、查询方案单元、页面信息提取单元、分析储存单元四个单元,各个所述单元独立,顺序执行;所述信息交换路径下载单元包括提取装置、筛选装置、标准化装置和去重装置;所述提取装置用ELFhash函数对HTML页面的代码进行所述信息交换路径提取;所述筛选装置将不需要的所述信息交换路径直接删除,将需要的所述信息交换路径进行保存;所述标准化装置将所有所述信息交换路径转化为绝对地址;所述去重装置通过创建Hash表和Hash函数进行网址去重;所述信息交换路径下载单元负责对所述HTML页面中的所有所述信息交换路径进行提取、整理,作为所述查询方案单元的输入;所述查询方案单元对所述信息交换路径提取单元提取的所述网址进行下载,获得所述网址的所述页面上的所述信息交换路径;对所述网址进行所述下载时,使用宽度优先方案;所述页面信息提取单元负责提取所述网址的所述页面上的关键信息,包括文章的题目、摘要和作者;所述信息分类单元负责将所述网址的所述页面上的关键信息按出版物的类别分类存储,并对所述摘要进行预处理后,形成倒排索引表;所述信息提取模块将提取的所述信息存入所述信息管理模块;所述信息管理模块负责定义信息管理标准,选定适合的信息存储方式,并根据所述信息管理标准和所述信息存储方式定义信息访问通道;用户通过所述信息访问通道访问所述信息管...

【专利技术属性】
技术研发人员:丰小月梁艳春王冬晖许东
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1