一种基于内容地图的科技文献内容深度揭示方法技术

技术编号:25598973 阅读:34 留言:0更新日期:2020-09-11 23:56
本发明专利技术公开了一种基于内容地图的科技文献内容深度揭示方法,包括:对文本数据进行知识对象及其语义关系提取;多篇科技文献内容地图的构建;科技文献内容知识深度聚合。本发明专利技术的方法,能够将科技文献内容知识的组织方式由文献外部特征深入到内部特征,能够进行文献间隐性知识发现和知识间的推理,同时,能够在在平面空间和立体空间中,生成跨文献的知识簇和知识链,将文献间“游离态”的知识串联组织起来,实现知识间的有效协作和深度聚合,有助于解决科技文献查阅时的“信息迷航”以及科技文献间存在的“知识游离”问题。

【技术实现步骤摘要】
一种基于内容地图的科技文献内容深度揭示方法
本专利技术涉及语义分析,具体涉及一种基于内容地图的科技文献内容深度揭示方法。
技术介绍
目前,随着科技文献数量的爆炸式增长,为了揭示其中蕴含的知识,相关学者依据不同的理论从不同的角度进行了大量研究,提出了科技文本知识元模型、科学论文内容结构模型、科学论文内容本体模型等,虽然都取得了一定的成果,但主要是从篇名、主题、作者、关键字、参考文献等外部特征进行研究,或者对单篇文献中的知识对象和语义关系进行文本揭示,缺乏对相同主题文献间内容的深度挖掘与组织,导致科技文献内容知识大多仍以“游离态”存在,知识间缺乏协作,难以生成跨文献的知识簇和知识链,本研究将上述现象称之为“知识游离”。无论是基于知识元还是基于本体的科技文献内容知识组织方式都存在文献知识描述粒度不够细、知识间缺乏语义关联或者语义关联程度交叉不足等问题。而且这两种方法只针对单篇科技文献进行内容揭示,切断了与同一主题下的其它文献的联系,文献间的知识仍然以“游离态”的形式存在,知识间缺乏协作,无法有效生成跨文献的知识簇和知识链,不利于文献知识的深度本文档来自技高网...

【技术保护点】
1.一种基于内容地图的科技文献内容深度揭示方法,其特征在于,包/n括:/n对文本数据进行知识对象及其语义关系提取;/n多篇科技文献内容地图的构建;/n科技文献内容知识深度聚合。/n

【技术特征摘要】
1.一种基于内容地图的科技文献内容深度揭示方法,其特征在于,包
括:
对文本数据进行知识对象及其语义关系提取;
多篇科技文献内容地图的构建;
科技文献内容知识深度聚合。


2.根据权利要求1所述的基于内容地图的科技文献内容深度揭示方法,
其特征在于,所述对文本数据进行知识对象及其语义关系提取包括:
步骤1:输入准备好的文本数据集;
步骤2:对文本数据中非结构化的实验数据进行人工标注,将其转化为结构化的数据;包括对每篇文本标注文本标号、标题、摘要,标识每个句子的位置及编号,同时将摘要内容细化为目的、方法、结果及结论;
步骤3:对文本数据进行预处理,主要是利用停用词表删除无用知识对象;
步骤4:利用工具ClausIE对处理好的文本数据进行知识对象句法三元组提取,并存储;
步骤5:对提取得到的句法三元组进行处理;
步骤6:借助领域语义词典,将步骤5中处理好的不完整句法三元组与领域语义词典进行匹配,寻找头实体与尾实体的语义关系将其补充完整,将补充完整的三元组作为语义三元组,并将其存储;
步骤7:将每一条处理好的带有位置信息的语义三元组和句法三元组存储在一起,由此构成所需要的数据集—语义集SS,作为构建多篇科技文献内容地图的数据;科技文献内容知识对象及其关系提取完毕,语义集合构建完成。


3.根据权利要求1所述的基于内容地图的科技文献内容深度揭示方法,
其特征在于,所述多篇科技文献内容地图的构建包括:
多篇科技文献内容地图构建流程和多篇科技文献内容地图构建算法。


4.根据权利要求3所述的基于内容地图的科技文献内容深度揭示方法,
其特征在于,所述多篇科技文献内容地图构建流程包括:
步骤1:收集同一主题的科技文献若干篇,建立文献集,依次作为原始
数据;
步骤2:借助领域词典将文献集中的核心术语及其之间的语义关系及语义元素进行提取;
步骤3:将提出的原始语义元素在语义结构进行拆解操作,得到基础语
义元素,并将这些基础的语义元素进行搅拌;
步骤4:将这些被打散的基础语义元素依据其内部存在的语义逻辑关系
进行重组,形成语义集合;
步骤5:构建新的语义结构和语义特征,形成内容地图,科技文献的主<...

【专利技术属性】
技术研发人员:王敬东宋建磊孟凡奇李佳
申请(专利权)人:东北电力大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1