【技术实现步骤摘要】
基于国家基金课题挖掘的科技前沿研究热点分析方法及装置
[0001]本专利技术属于科技前沿研究热点分析领域,特别涉及一种基于国家基金课题挖掘的科技前沿研究热点分析方法及装置。
技术介绍
[0002]关键词来源英文keywords,从应用上看,是指单个媒体在制作使用索引时,所用到的词汇。从学术上看,是指为了文献标引工作从报告、论文中选取出来的用以表示全文主题内容信息款目的单词或术语。其中单词是指能包含一个词素(语言中最小的有意义的单位)的词或语言里最小的可以自由运用的单位,术语则是指某个学科中的专业用语。综上所述,关键词是表达文本主题内容的词,包括单词,术语和短语,在含义上是独立非复合的。包含一定的信息量,对文本内容的理解有作用。根据包含文本信息量的大小,分为核心关键词,拓展关键词,无价值词,非关键词。
[0003]文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判 ...
【技术保护点】
【技术特征摘要】
1.一种基于国家基金课题挖掘的科技前沿研究热点分析方法,其特征在于,包括以下步骤:(1)收集国家基金网站网址数据,使用网络爬虫采集国家基金数据,并对数据进行整合处理,得到国家基金数据集Raw_Data;(2)对国家基金数据集Raw_Data进行预处理,分别使用TextRank、TF
‑
IDF、LDA主题模型对国家基金数据进行关键词抽取,利用图模型对抽取后的关键词进行处理,得到新的国家基金数据集New_Data;(3)将New_Data中的句子输入训练好的ERNIE模型,实现与空间句嵌入矩阵的映射,将ERNIE模型输出作为改进的自适应卷积神经网络模型输入,训练得到自适应寻优调参文本分类模型Model;(4)利用结构化基金数据集New_Data建立知识三元组,构建国家基金知识图谱;(5)开放科技前沿研究热点分析使用接口,基于国家基金课题挖掘的科技前沿研究热点分析系统根据用户输入的国家基项目信息挖掘领域内的研究热点并通过Web返回给用户。2.根据权利要求1所述的基于国家基金课题挖掘的科技前沿研究热点分析方法,其特征在于,所述步骤(1)包括以下步骤:(1.1)选取要爬取的国家基金网站网址NSFC_URL,NSFC_URL={url1,url2,
…
,url
NSFC_URL_Num
},url
n
为NSFC_URL中第n个网站的链接,NSFC_URL_Num为国家基金网站网址NSFC_URL中链接总个数,n∈[1,NSFC_URL_Num];(1.2)查找并收集代理IP构建IP代理池IP_POOL,IP_POOL={ip1,ip2,
…
,ip
ip_num
},ip
n
为IP_POOL中第n个ip地址,ip_num为IP代理池IP_POOL中IP总个数,n∈[1,ip_num];(1.3)定义计数器count1,令count1=1;(1.4)若count1≤NSFC_URL_Num,执行步骤(1.5),否则执行步骤(1.16);(1.5)定义计数器count2,令count2=1;(1.6)设置Header来模拟浏览器,选择一个代理池IP_POOL中的IP访问国家基金网站网址;(1.7)定义status为网站响应状态码,定义错误访问最大限度Max_Visit,且令Max_Visit=10;(1.8)获取url
count1
的HTML页面数据;(1.9)若count2≤Max_Visit,执行步骤(1.10),否则执行步骤(1.15);(1.10)若status≠200,表示服务器发生错误,则执行步骤(1.11),否则表示响应正常,执行步骤(1.14);(1.11)令count2=count2+1,执行步骤(1.12);(1.12)检测到网站是否对当前IP封锁,若被封锁,执行步骤(1.13),否则执行步骤(1.8);(1.13)将该IP从IP代理池IP_POOL中删除,执行步骤(1.6);(1.14)获取url
count1
的HTML页面数据,用xpath定位爬取数据位置,获取国家基金项目名称Title、项目编号ProjectNum、项目分类Cate、项目摘要Abstract、项目负责人ProjectAdmin、项目批准时间ProjectTime;构成数据项Nitem={Title,ProjectNum,Cate,
Abstract,ProjectAdmin,ProjectTime};(1.15)令count1=count1+1,执行步骤(1.4);(1.16)将数据项Nitem整合成数据集:Raw_Data={Nitem1,Nitem2,
…
,NitemRaw_Data_Num}其中,Raw_Data_Num为数据集Raw_Data中数据的个数。3.根据权利要求1所述的基于国家基金课题挖掘的科技前沿研究热点分析方法,其特征在于,所述步骤(2)包括以下步骤:(2.1)遍历国家基金数据集Raw_Data,定义变量count3,且令count3=1;(2.2)若count3≤Raw_Data_Num,执行步骤(2.3),否则执行步骤(2.16);(2.3)收集整合停用词库StopWord;(2.4)收集国家基金领域专业词汇建立国家基金词典Prof_Vocab;(2.5)使用TF
‑
IDF算法对数据Nitem
count3
中项目摘要字段进行关键词抽取,得到关键词结果集Key1;(2.6)使用TextRank算法对数据Nitemcount3中项目摘要字段进行关键词抽取,得到关键词结果集Key2;(2.7)使用LDA主题模型对数据Nitemcount3中项目摘要字段进行关键词抽取,得到关键词结果集Key3;(2.8)将得到的关键词结果集Key1,Key2,Key3去重整合得到预选关键词集合Keywords;(2.9)利用Word2vec模型对预选关键词集合Keywords建立词向量;(2.10)利用K
‑
means算法结合余弦距离公式计算预选关键词集合Keywords中各个关键词的相似度进行聚类,生成关键词主题;(2.11)构建主题图模型,其中节点集由主题组成,任两点之间的边由共现关系构造,设置一个大小为L的窗口,当任意两个节点对应的主题在窗口中共现时就构建一条边,共现决定主题间的权值;(2.12)根据TextRank的迭代计算公式,迭代并更新各个主题节点的权重,直至函数收敛;(2.13)根据节点的权重进行逆排序,从而选取最重要的i个主题;(2.14)i个主题之中包含的候选关键词就作为文本关键词数据项Kitem={word...
【专利技术属性】
技术研发人员:朱全银,胥心心,朱良生,陈伯伦,魏梦中,张柏萱,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。