当前位置: 首页 > 专利查询>叶宇铭专利>正文

一种科技文献中链接资源的分类方法、系统、设备技术方案

技术编号:21629657 阅读:32 留言:0更新日期:2019-07-17 11:19
本发明专利技术公开了一种科技文献中链接资源的分类方法、系统、设备和存储介质,所述方法包括:提取待分类资源的描述文本;将描述文本输入预先训练得到的分类模型,得到基于知识表示框架的分类结果,实现对待分类资源的分类。本发明专利技术的方法针对科技文献中链接资源的语义特点,基于上下文信息,通过神经网络的方法构建识别模型,能够有效提高对资源的识别,有助于对科技链接资源的管理、分析与推荐。

A Classification Method, System and Equipment of Linked Resources in Scientific and Technological Documents

【技术实现步骤摘要】
一种科技文献中链接资源的分类方法、系统、设备
本专利技术涉及信息检索
,尤其涉及科技文献中链接资源检索、管理与评估领域,具体涉及一种科技文献中链接资源的分类方法、系统、设备。
技术介绍
随着科技飞速发展,大量科技文献发表,同时伴随着海量在线资源被发布或使用。因此,面向例如软件工具和数据库这样的科技资源,进行跟踪和建模就变得尤为重要和具有挑战性。谷歌在2017年发布了一款搜索引擎来帮助科学家们搜索需要的数据集。然而这一搜索引擎,只有凭借准确的名字才能搜索到对应的数据库。针对科技文献中的资源发现的方法研究,此前通过正则表达式和启发式规则来从摘要和正文中提取URL信息;依靠人工编写正则表达式来实现资源命名、功能检测、资源分类,从而生成资源清单;或者是通过从文献中抽取规则构建命名实体识别系统来实现对数据库或者软件的名称识别。此前对于资源分类的研究偏向于生物医学和药学领域,并没有适用于通用领域的细粒度科技文献中链接资源模型框架。
技术实现思路
本专利技术的目的在于,克服当前对于科技文献中链接资源的类型和作用缺少有效的表示和识别方法这一不足,建立了一种适用于科技文献中链接资源引用的分类模型,从而提供一种科技文献中链接资源分类方法。为了实现上述目的,本专利技术提出了一种科技文献中链接资源的分类方法,所述方法包括:提取待分类资源的描述文本;将描述文本输入预先训练得到的分类模型,得到基于知识表示框架的分类结果,实现对待分类资源的分类。作为上述方法的一种改进,所述提取待分类资源的描述文本,具体为:从待分类资源的文献的正文和脚注中抽取资源的超链接,抽取超链接的前后五句话作为资源的描述文本。作为上述方法的一种改进,在所述提取待分类资源的描述文本中后还包括:在描述文本中加入引用位置标示符,即在文中出现引用的位置插入<CITE>标记,作为一个独立的词加入文本中,用于指明当前位置出现资源引用。作为上述方法的一种改进,所述知识表示框架包括:资源类型和资源作用类型;所述资源类型包括:工具、代码、数据、网页、算法、文档、媒体、许可和论文;所述资源作用类型包括:使用、提出、介绍、对比和延伸。作为上述方法的一种改进,所述分类模型包括依次连接的输入层、词LSTM层、注意力层和输出层;所述输入层的输入为:描述文本;利用分词器和词性标注器对描述文本进行预处理;然后基于词嵌入的特征提取方法,对预处理后的描述文本的每个词,利用词嵌入向量词典提取三个特征向量:基于字符的嵌入向量、词嵌入向量和基于单词大小写及词性特征的嵌入向量;输出为:整合后字母-词综合嵌入向量;所述词嵌入向量词典是利用Word2Vec的词嵌入方法,对已有文献数据集进行预先训练得到的;所述词LSTM层的输入为:整合后字母-词综合嵌入向量;输出为:通过前向和后向LSTM隐藏层状态堆叠获得的词表征;所述注意力层的输入为:词表征状态;输出为:每个词表征状态与各自的加权因子的乘积得到的词表征状态的加权结果;所述输出层的输入为:词表征状态的加权结果;输出为:经过softmax函数处理后得到分类结果,包括:资源类型和资源作用类型。作为上述方法的一种改进,所述注意力层的输出表示为:其中,ei是注意力层的输出;i为上下文信息的序号,j为第i段上下文信息中单词的序号,li为单词的数量;hi,j为词LSTM层输出的词表征状态,αi,j为hi,j的加权因子,也是每个词的注意力得分的统计值;为每个词的注意力得分的预测值;f(wi,j,θw)为利用双层的前向反馈神经网络进行注意力得分的预测函数,wi,j为对应词的词嵌入表示,θw表示预测词注意力的参数。作为上述方法的一种改进,所述分类模型的训练步骤包括:步骤S1)基于已有文献数据集构建资源引用训练数据集;所述训练数据集包括资源超链接及其相关资源描述文本;步骤S2)基于知识表示框架标注训练数据集作为训练样本,然后将训练样本划分成训练集、测试集和验证集;通过人工标注的方式,获得资源分类和资源作用分类描述的对应的标注文本;步骤S3)利用训练样本和Adam优化器对构建的分类模型的参数进行训练,直至模型在验证集中得到最优效果。一种科技文献中链接资源的分类系统,所述系统包括:描述文本提取模块,用于提取待分类资源的描述文本;和分类模块,用于将描述文本输入预先训练得到的分类模型,得到基于知识表示框架的分类结果,实现对待分类资源的分类。一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述的方法。本专利技术的优势在于:1、本专利技术提供了一种科技文献中链接资源的分类方法,该方法针对科技文献中链接资源的语义特点,基于上下文信息,通过神经网络的方法构建识别模型,能够有效提高对资源的识别,有助于对科技链接资源的管理、分析与推荐。2、本专利技术的方法使得用户能够识别并提取文献集合中的资源,用以反映科技资源的演化和成熟度,有助于对科技链接资源的管理、分析与推荐。附图说明图1为本专利技术的实施例1提供的适用于科技文献中资源引用的分类模型的建立方法的流程图。具体实施方式下面结合附图和具体实施例对本专利技术做进一步详细的说明。实施例1如图1所示,本专利技术的实施例1提供了一种适用于科技文献中链接资源引用的分类模型的建立方法,所述方法包括:步骤S1)利用已有文献数据集构建资源引用数据集;所述数据集包括资源超链接及其相关资源描述文本;资源引用:作者在文中提及的超链接,直接指向特定的在线资源;资源描述文本:作者在资源引用附近出现的连续文本,特别是在超链接及其前后出现的文本。从文献的正文和脚注中抽取资源的超链接,抽取超链接的前后五句话作为资源的描述文本;步骤S2)基于知识表示框架标注训练数据集;通过人工标注的方式,获得资源分类和作用描述的对应的标注文本,作为训练样本;其中科技文献中链接资源引用知识表示框架包括两部分:资源类型和资源作用。资源类型分为9类:工具:包括工具包、软件、系统以及项目;代码:包括代码库、依赖库或者实现;数据:包括数据集、数据库或语料;网页:包括主页、服务、在线平台或者接口;算法:包括方法、模型或者解决方案;文档:包括补充、教程、说明书或者使用指南;媒体:包括游戏、音乐以及视频;许可:提供所用的许可的授权和详细描述;论文:从网站上选取的(短/长)会议论文资源作用分为6类:使用:表示当前论文中使用了此资源;提出,表示这一资源在当前论文中首次被形成或者被发布;介绍:表示这一资源的背景、特点以及应用在论文中被介绍;对比:表示这一资源与其他资源进行对比;延伸:表示这一资源是当前论文工作的基础或是基于此提出一些改进;其他:不属于上述5类的资源作用归类到其他分类中;步骤S3)利用分词器和词性标注器对描述文本进行预处理;利用每个标注文本及其前后的信息,提取相关特征;相关特征包括:基于字符的嵌入向量、词嵌入向量和基于单词大小写及词性特征的嵌入向量;嵌入向量指:将文本空间中的某个单词,通过一定的方法,映射或者嵌到另一个数值向量空间。将一个单词转换成固定长度的向量来表示。通过对一个数据集内所有词的频次以及在句子中出现的,本文档来自技高网...

【技术保护点】
1.一种科技文献中链接资源的分类方法,所述方法包括:提取待分类资源的描述文本;将描述文本输入预先训练得到的分类模型,得到基于知识表示框架的分类结果,实现对待分类资源的分类。

【技术特征摘要】
2019.03.15 CN 20191019805311.一种科技文献中链接资源的分类方法,所述方法包括:提取待分类资源的描述文本;将描述文本输入预先训练得到的分类模型,得到基于知识表示框架的分类结果,实现对待分类资源的分类。2.根据权利要求1所述的科技文献中链接资源的分类方法,其特征在于,所述提取待分类资源的描述文本,具体为:从待分类资源的文献的正文和脚注中抽取资源的超链接,抽取超链接的前后五句话作为资源的描述文本。3.根据权利要求1或2所述的科技文献中链接资源的分类方法,其特征在于,在所述提取待分类资源的描述文本中后还包括:在描述文本中加入引用位置标示符,即在文中出现引用的位置插入<CITE>标记,作为一个独立的词加入文本中,用于指明当前位置出现资源引用。4.根据权利要求1所述的科技文献中链接资源的分类方法,其特征在于,所述知识表示框架包括:资源类型和资源作用类型;所述资源类型包括:工具、代码、数据、网页、算法、文档、媒体、许可和论文;所述资源作用类型包括:使用、提出、介绍、对比和延伸。5.根据权利要求4所述的科技文献中链接资源的分类方法,其特征在于,所述分类模型包括依次连接的输入层、词LSTM层、注意力层和输出层;所述输入层的输入为:描述文本;利用分词器和词性标注器对描述文本进行预处理;然后基于词嵌入的特征提取方法,对预处理后的描述文本的每个词,利用词嵌入向量词典提取三个特征向量:基于字符的嵌入向量、词嵌入向量和基于单词大小写及词性特征的嵌入向量;输出为:整合后字母-词综合嵌入向量;所述词嵌入向量词典是利用Word2Vec的词嵌入方法,对已有文献数据集进行预先训练得到的;所述词LSTM层的输入为:整合后字母-词综合嵌入向量;输出为:通过前向和后向LSTM隐藏层状态堆叠获得的词表征;所述注意力层的输入为:词表征状态;输出为:每个词表征状态与各自的...

【专利技术属性】
技术研发人员:叶宇铭罗准辰赵赫刘晓鹏罗威谭玉珊田昌海毛彬宋宇
申请(专利权)人:叶宇铭中国人民解放军军事科学院军事科学信息研究中心
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1