【技术实现步骤摘要】
本专利技术属于自然语言处理领域和知识图谱领域,具体涉及一种面向科研项目的知识图谱构建和局部知识图谱生成方法及系统。
技术介绍
1、知识图谱是采用图结构来建模和记录世界万物之间关联关系和知识的技术,它能够将实体、概念、实体间关系转换为基于图的关联性知识集合,对于分析和发现知识具有较高的价值。科研项目知识图谱构建作为科研信息管理和分析的新兴领域,旨在将分散的、零散的科研项目数据整合到一个统一的知识图谱中,以便更好地展现科研活动的关联发展信息。随着科研领域不断拓展,科研项目涵盖的领域、人员、机构,涉及的理论、方法、模型等实体关系变得愈加复杂,构建科研项目知识图谱面临着一系列的挑战。
2、首先,科研项目数据的异构性和分散性是构建知识图谱的难点之一。科研项目信息可以分为结构化的项目数据表和非结构化的项目摘要等,数据格式和标准差异明显,需要将这些异构数据进行有效整合和转化。
3、其次,在现有方法中缺乏从整合项目摘要信息的角度出发,也没有考虑到项目所涵盖的理论方法、模型、度量指标以及涉及的软件系统。这意味着项目不同维度的信息,
...【技术保护点】
1.一种面向科研项目的局部知识图谱生成方法,其步骤包括:
2.根据权利要求1所述的方法,其特征在于,从非结构化的科研项目摘要数据中识别出与科研项目相关的实体的方法为:将科研项目摘要数据输入至Bert嵌入层,得到字符向量序列表示;将所述字符向量序列表示输入至IDCNN层中进一步感知上下文的语境,得到上下文语义感知增强的特征表示;将所述上下文语义感知增强的特征表示输入至CRF层进行序列标注,识别出与科研项目相关的实体。
3.根据权利要求2所述的方法,其特征在于,按照项目-关联实体类别1-对应类别1实体-关联实体实体类别2-对应类别2实体....的形
...【技术特征摘要】
1.一种面向科研项目的局部知识图谱生成方法,其步骤包括:
2.根据权利要求1所述的方法,其特征在于,从非结构化的科研项目摘要数据中识别出与科研项目相关的实体的方法为:将科研项目摘要数据输入至bert嵌入层,得到字符向量序列表示;将所述字符向量序列表示输入至idcnn层中进一步感知上下文的语境,得到上下文语义感知增强的特征表示;将所述上下文语义感知增强的特征表示输入至crf层进行序列标注,识别出与科研项目相关的实体。
3.根据权利要求2所述的方法,其特征在于,按照项目-关联实体类别1-对应类别1实体-关联实体实体类别2-对应类别2实体....的形式对识别出与科研项目相关的实体和关系进行存储。
4.根据权利要求1或2或3所述的方法,其特征在于,从所述科研项目关联数据中抽取出科研项目的三元组知识的方法为:对于结构化的科研项目信息表,根据从所述结构化的科研项目信息表中抽取项目属性名称、属性值以及项目关联实体的属性名称、属性值构建知识三元组知识;对于非结构化的科研项目摘要,根据步骤1...
【专利技术属性】
技术研发人员:胡玉杰,王月,于建军,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。