一种科技文献中链接资源的分类方法、系统、设备技术方案

技术编号：21629657 阅读：32 留言：0更新日期：2019-07-17 11:19

本发明专利技术公开了一种科技文献中链接资源的分类方法、系统、设备和存储介质，所述方法包括：提取待分类资源的描述文本；将描述文本输入预先训练得到的分类模型，得到基于知识表示框架的分类结果，实现对待分类资源的分类。本发明专利技术的方法针对科技文献中链接资源的语义特点，基于上下文信息，通过神经网络的方法构建识别模型，能够有效提高对资源的识别，有助于对科技链接资源的管理、分析与推荐。

A Classification Method, System and Equipment of Linked Resources in Scientific and Technological Documents

全部详细技术资料下载

【技术实现步骤摘要】
一种科技文献中链接资源的分类方法、系统、设备
本专利技术涉及信息检索
，尤其涉及科技文献中链接资源检索、管理与评估领域，具体涉及一种科技文献中链接资源的分类方法、系统、设备。
技术介绍
随着科技飞速发展，大量科技文献发表，同时伴随着海量在线资源被发布或使用。因此，面向例如软件工具和数据库这样的科技资源，进行跟踪和建模就变得尤为重要和具有挑战性。谷歌在2017年发布了一款搜索引擎来帮助科学家们搜索需要的数据集。然而这一搜索引擎，只有凭借准确的名字才能搜索到对应的数据库。针对科技文献中的资源发现的方法研究，此前通过正则表达式和启发式规则来从摘要和正文中提取URL信息；依靠人工编写正则表达式来实现资源命名、功能检测、资源分类，从而生成资源清单；或者是通过从文献中抽取规则构建命名实体识别系统来实现对数据库或者软件的名称识别。此前对于资源分类的研究偏向于生物医学和药学领域，并没有适用于通用领域的细粒度科技文献中链接资源模型框架。
技术实现思路
本专利技术的目的在于，克服当前对于科技文献中链接资源的类型和作用缺少有效的表示和识别方法这一不足，建立了一种适用于科技文献中链接资源引用的分类模型，从而提供一种科技文献中链接资源分类方法。为了实现上述目的，本专利技术提出了一种科技文献中链接资源的分类方法，所述方法包括：提取待分类资源的描述文本；将描述文本输入预先训练得到的分类模型，得到基于知识表示框架的分类结果，实现对待分类资源的分类。作为上述方法的一种改进，所述提取待分类资源的描述文本，具体为：从待分类资源的文献的正文和脚注中抽取资源的超链接，抽取超链接的前后五句话作为资...

【技术保护点】
1.一种科技文献中链接资源的分类方法，所述方法包括：提取待分类资源的描述文本；将描述文本输入预先训练得到的分类模型，得到基于知识表示框架的分类结果，实现对待分类资源的分类。

【技术特征摘要】
2019.03.15 CN 20191019805311.一种科技文献中链接资源的分类方法，所述方法包括：提取待分类资源的描述文本；将描述文本输入预先训练得到的分类模型，得到基于知识表示框架的分类结果，实现对待分类资源的分类。2.根据权利要求1所述的科技文献中链接资源的分类方法，其特征在于，所述提取待分类资源的描述文本，具体为：从待分类资源的文献的正文和脚注中抽取资源的超链接，抽取超链接的前后五句话作为资源的描述文本。3.根据权利要求1或2所述的科技文献中链接资源的分类方法，其特征在于，在所述提取待分类资源的描述文本中后还包括：在描述文本中加入引用位置标示符，即在文中出现引用的位置插入<CITE>标记，作为一个独立的词加入文本中，用于指明当前位置出现资源引用。4.根据权利要求1所述的科技文献中链接资源的分类方法，其特征在于，所述知识表示框架包括：资源类型和资源作用类型；所述资源类型包括：工具、代码、数据、网页、算法、文档、媒体、许可和论文；所述资源作用类型包括：使用、提出、介绍、对比和延伸。5.根据权利要求4所述的科技文献中链接资源的分类方法，其特征在于，所述分类模型包括依次连接的输入层、词LSTM层、注意力层和输出层；所述输入层的输入为：描述文本；利用分词器和词性标注器对描述文本进行预处理；然后基于词嵌入的特征提取方法，对预处理后的描述文本的每个词，利用词嵌入向量词典提取三个特征向量：基于字符的嵌入向量、词嵌入向量和基于单词大小写及词性特征的嵌入向量；输出为：整合后字母-词综合嵌入向量；所述词嵌入向量词典是利用Word2Vec的词嵌入方法，对已有文献数据集进行预先训练得到的；所述词LSTM层的输入为：整合后字母-词综合嵌入向量；输出为：通过前向和后向LSTM隐藏层状态堆叠获得的词表征；所述注意力层的输入为：词表征状态；输出为：每个词表征状态与各自的...

【专利技术属性】
技术研发人员：叶宇铭，罗准辰，赵赫，刘晓鹏，罗威，谭玉珊，田昌海，毛彬，宋宇，
申请(专利权)人：叶宇铭，中国人民解放军军事科学院军事科学信息研究中心，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人