模块化成果库的构建方法技术

技术编号:16644631 阅读:119 留言:0更新日期:2017-11-26 17:02
本发明专利技术涉及一种模块化成果库的构建方法,其主要技术特点是:采用基于信息抽取方法进行科研报告篇章结构拆解;对于同一领域的科研报告,利用标题及关键词相似度进行自上而下的整合,最终形成领域图谱。本发明专利技术针对科研报告的模块化过程,构建一个基于信息抽取技术的科研报告篇章结构拆解方法以及基于文本相似度分析的领域图谱构建方法,对模块化成果的元数据建立倒排索引,解决了业务人员快速形成科研报告,减少科研中的重复性工作,提高工作效率,实现科研资源价值显性化的需求,为业务人员直接引用有价值的模块化成果撰写报告提供便利,促进科研成果的共享与传播。

Construction method of modular fruit Library

The invention relates to a construction method module into fruit base, its main technical features are: the structure of Scientific Research Report of dismantling information extraction method based on; for the same field of research reports, the integration of top-down by title and keyword similarity, finally forming a field map. The invention of modular process for scientific research, construct an information extraction technique based on the Research Report of discourse structure and construction method of field dismantling method of text similarity analysis based on metadata, modular results establish inverted index to solve the business people quickly formed a research report, reduce repetitive work in scientific research. To improve work efficiency and realize the value of the dominant research resources demand for business personnel directly refer to the modularization effort valuable reports to facilitate the sharing and dissemination of scientific research achievements.

【技术实现步骤摘要】
模块化成果库的构建方法
本专利技术属于数据挖掘
,尤其是一种模块化成果库的构建方法。
技术介绍
在现实世界中,知识不仅以传统数据库中的结构化数据的形式出现,还以诸如书籍、研究论文、新闻文章、WEB页面及电子邮件等各种各样的形式出现。面对以这些形式出现的、浩如烟海的信息源,人类的阅读能力、时间精力等等往往不够,需要借助计算机的智能处理技术来帮助人类及时、方便的获取这些数据源中隐藏的有用信息。因此,文本挖掘技术就在这种背景下产生和发展起来的。文本挖掘的根本价值在于能把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本,使计算机能够通过对这种模型的计算和操作来实现对文本的识别。现有技术的存在以下问题:(1)传统的篇章结构拆分,只能识别标题,无法形成层级关系;或根据目录生成受限的层级关系;(2)传统的编辑距离,没有考虑语义关系,可能造成编辑距离很小(相似度很高),但描述的是不同事物或表达不同的情感倾向。
技术实现思路
本专利技术的目地在于克服现有技术的不足,提出一种设本文档来自技高网...
模块化成果库的构建方法

【技术保护点】
一种模块化成果库的构建方法,其特征在于包括以下步骤:步骤1、采用基于信息抽取方法进行科研报告篇章结构拆解;步骤2、对于同一领域的科研报告,利用标题及关键词相似度进行自上而下的整合,最终形成领域图谱。

【技术特征摘要】
1.一种模块化成果库的构建方法,其特征在于包括以下步骤:步骤1、采用基于信息抽取方法进行科研报告篇章结构拆解;步骤2、对于同一领域的科研报告,利用标题及关键词相似度进行自上而下的整合,最终形成领域图谱。2.根据权利要求1所述的模块化成果库的构建方法,其特征在于:所述步骤1包括:将word文档的报告转换为Html格式,提取其中的指定标签内容;根据动态规则模板对报告标题进行识别,篇章层级关系以标题所满足的规则模板之间相互关系为依据进行判别。3.根据权利要求2所述的模块化成果库的构建方法,其特征在于:所述根据动态规则模板对报告标题进行识别的具体方法包括以下步骤:⑴对整篇报告设立一个根节点,其余所有篇章标题均作为其子节点;⑵循环遍历每段内容与动态规则模板进行匹配,若满足动态规则模板中的条件,认为是标题;不满足条件,认为是正文内容;⑶正文内容对应的标题根据就近原则进行匹配;⑷判断当前标题的规则与上一个标题的规则是否一致,若一致,认为两者是兄弟节点;若不一致,延续上一个标...

【专利技术属性】
技术研发人员:田蕾吴霞贺博宋翠松刘睿
申请(专利权)人:中国信息通信研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1