基于新型研发机构科技创新服务知识图谱系统的构建方法技术方案

技术编号:39312666 阅读:10 留言:0更新日期:2023-11-12 15:57
本发明专利技术公开了基于新型研发机构科技创新服务知识图谱系统的构建方法,包括以下操作步骤:S1:数据收集与数据清洗;S2:实体识别;S3:关系抽取;S4:实体消歧;S5:知识存储及可视化。本发明专利技术所述的基于新型研发机构科技创新服务知识图谱系统的构建方法,基于新型研发机构的科技创新服务理论实践知识,构建了垂直领域知识图谱的实体、关系,以及属性内容,采用Neo4J实现知识存储与可视化,针对实体识别、关系提取和实体消歧任务,本发明专利技术实现了新型研发机构的科技创新服务知识图谱构建,实现了信息抽取模型探讨,进行了实体识别、关系抽取、实体消歧、知识存储以及知识图谱可视化。知识存储以及知识图谱可视化。知识存储以及知识图谱可视化。

【技术实现步骤摘要】
基于新型研发机构科技创新服务知识图谱系统的构建方法


[0001]本专利技术涉及智能化决策领域,特别涉及基于新型研发机构科技创新服务知识图谱系统的构建方法。

技术介绍

[0002]知识图谱又称科学知识图谱,是图书情报学领域的概念,用于绘制、分析和显示学科或学术研究主体之间的相互联系,是揭示显示科学知识发展进程与结构关系的可视化工具,在多数情况下,知识图谱采用图结构进行可视化表示,使用结点代表作者、学术机构、科学文献或关键词,使用连线代表结点间关系,绘制知识图谱的常用工具包括CiteSpace、Ucinet、Gephi、Bibexcel等。
[0003]知识图谱运用在对新型研发机构的创新服务内容上时,却可以可以为其提供智能化决策服务的功能,不能完全发挥知识图谱在查询与检索的优势,同时不能很好的针对实体识别、关系提取、实体消歧任务、知识存储以及知识图谱可视化进行解决和性能指标的提升。
[0004]因此,提出基于新型研发机构科技创新服务知识图谱系统的构建方法来解决上述问题很有必要。

技术实现思路

[0005]本专利技术的主要目的在于提供基于新型研发机构科技创新服务知识图谱系统的构建方法,可以有效解决
技术介绍
中的问题。
[0006]为实现上述目的,本专利技术采取的技术方案为:
[0007]基于新型研发机构科技创新服务知识图谱系统的构建方法,包括以下构建步骤:
[0008]S1:数据收集与数据清洗:其中数据收集可以通过访谈、问卷方法,对相应研究院的部门、在职人员、
论文成果、专利、医疗器械证书、纵向项目、纵向合作、横向合作12个维度进行真实世界数据搜集工作,其中数据清洗工作包括:重复值处理,缺失值处理,一致化处理,其进一步体现于重复值处理:对于重复值,仅保留重复数据中的第一条数据和缺失值处理:对于空缺的属性值采用英文输入下
“‑”
进行填充补全,一致化处理:对于收集信息由于记录方式的不同,导致同一类型数据,所述对于一致化处理主要包括论文期刊分区一致化、论文数据和期刊部分一致化:论文期刊分区,采用以下的一致化规则,文期刊存在多个分区类型时,采用数字递增的方式编写,分区之间使用英文状态下的“,”进行分割,例如:“JCR1区”,“JCR2区,1区”,“JCR1区,2区”,但其有效的数据是:“JCR1区”,“JCR1区,2区”,并在一致化工作中,将异常数据“JCR2区,1区”进行替换为“JCR1区,2区”,在论文数据与人才数据,一致化中,如果存在多个
关键词,领域关键词之间采用英文状态的下“,”进行分割;
[0009]S2:开放信息抽取模型构建:包括开放信息抽取模型:开放信息提取旨在从文本中提取结构化的三元组,其为主题

关系

对象,而不依赖于预定义的模式或本体,开放信息提
取往往采用信息提取关键技术,包含从非结构化或半结构化数据源中识别和提取结构化信息,其包括以下操作步骤:
[0010]A:输入编码:输入句子被标记化,并且使用单词嵌入或子单词嵌入,对标记进行编码,这些嵌入捕获了关于句子中单词的语义和上下文信息;
[0011]B:句子编码:编码的tokens通过神经网络,如RNN或基于转换器的模型,生成固定大小的句子表示,神经网络考虑到tokens的上下文依赖性,顺序或并行地处理tokens;
[0012]C:关系提取:句子表征用于预测句子中实体之间的关系,这可以使用各种技术来完成,例如二进制分类或序列标记,该模型识别句子中表示实体的跨度,并预测它们之间的关系;
[0013]D:三重生成:基于已识别的实体跨度和预测的关系,该模型生成形式为三元组的OpenIE三重,这些三元组表示从输入句子中提取的结构化信息;
[0014]E:后处理:生成的三元组可能会经过后处理步骤,以细化和规范提取的信息,包括处理共指解析、实体消歧或合并类似关系以减少冗余,但是,由于深度学习开放信息提取本身模型的复杂性,针对不同文本的只是抽取,所需要的深度学习框架空间和时间复杂度不同,减少知识过程中的预测误差,并降低资源需求;
[0015]S3:基于公开数据集的Bert

GCN+Qlearning

Transformer开放信息抽取模型先进性验证:为选择深度学习模型实现信息抽取,对于CRF、BILSTM、BILSTM+CRF、BERT+GCN+CRF、BERT+LSTM+CRF、Bert+LSTM+Transformer、Bert+GCN+Transformer和Bert

GCN+Qlearning

Transformer进行对比实验,采用较大中文数据标记语料库开源数据集ResumeNER进行训练,其中ResumeNER包括人名、国籍、籍贯、种族、专业、学位、机构、职称8个类别,基于此对比进行模型训练,以此确定整体的基础模型结构;
[0016]S4:新型研发机构的科技创新服务知识图谱构建:基于Bert

GCN+Qlearning

Transformer开放信息抽取模型,实现实体识别、关系抽取和实体消歧,建立新型研发机构的科技创新服务知识图谱,其包括:
[0017](1):基于Bert

GCN+Qlearning

Transformer的实体识别深度学习模型:采用BERT

GCN+Qlearning

transformer模型,实现对非结构化数据的实体识别,其中NER专注于识别和分类文本中的命名实体,如人名、地点、组织等,目标是从文本中提取具体的实体提及,三者的结合可以利用将单个模型优势合并来提高关系提取任务的性能,BERT模型在大量未标记的文本数据上进行预训练,然后在特定的下游任务上进行微调,其中GCN是一种对图结构数据进行操作的神经网络架构,在NER的上下文中,句子中的单词或标记可以被视为图中的节点,GCN可以用于捕获这些节点之间的依赖关系和关系,通过将GCN纳入模型架构,模型可以利用句子的结构信息来提高实体识别,Transformer是一种基于自注意的神经网络架构,已被证明在各种NLP任务中是有效的,架构是Bert等模型的关键组成部分,它允许模型捕获上下文信息和句子中单词之间的依赖关系,通过将BERT

GCN+Qlearning

transformerr相结合,基于此创建一个模型;
[0018](2):基于Bert

GCN+Qlearning

Transformer的关系抽取深度学习模型:BERT

GCN+Qlearning

transformer模型的组合应用于关系提取,还可以利用单个模型的优势来提高关系提取任务的性能,BERT预先训练的语言模型,用于捕获上下文化的单词表示,使用BER本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于新型研发机构科技创新服务知识图谱系统的构建方法,其特征在于:包括以下构建步骤:S1:数据收集与数据清洗:其中数据收集可以通过访谈、问卷方法,对相应研究院的部门、在职人员、技术领域、论文成果、专利、医疗器械证书、纵向项目、纵向合作、横向合作12个维度进行真实世界数据搜集工作,其中数据清洗工作包括:重复值处理,缺失值处理,一致化处理,其进一步体现于重复值处理:对于重复值,仅保留重复数据中的第一条数据和缺失值处理:对于空缺的属性值采用英文输入下
“‑”
进行填充补全,一致化处理:对于收集信息由于记录方式的不同,导致同一类型数据;S2:开放信息抽取模型构建:包括开放信息抽取模型:开放信息提取旨在从文本中提取结构化的三元组,其为主题

关系

对象,而不依赖于预定义的模式或本体,开放信息提取往往采用信息提取关键技术,包含从非结构化或半结构化数据源中识别和提取结构化信息,其包括以下操作步骤:A:输入编码:输入句子被标记化,并且使用单词嵌入或子单词嵌入,对标记进行编码,这些嵌入捕获了关于句子中单词的语义和上下文信息;B:句子编码:编码的tokens通过神经网络,如RNN或基于转换器的模型,生成固定大小的句子表示,神经网络考虑到tokens的上下文依赖性,顺序或并行地处理tokens;C:关系提取:句子表征用于预测句子中实体之间的关系,这可以使用各种技术来完成,例如二进制分类或序列标记,该模型识别句子中表示实体的跨度,并预测它们之间的关系;D:三重生成:基于已识别的实体跨度和预测的关系,该模型生成形式为三元组的OpenIE三重,这些三元组表示从输入句子中提取的结构化信息;E:后处理:生成的三元组可能会经过后处理步骤,以细化和规范提取的信息,包括处理共指解析、实体消歧或合并类似关系以减少冗余,但是,由于深度学习开放信息提取本身模型的复杂性,针对不同文本的只是抽取,所需要的深度学习框架空间和时间复杂度不同,减少知识过程中的预测误差,并降低资源需求;S3:基于公开数据集的Bert

GCN+Qlearning

Transformer开放信息抽取模型先进性验证:为选择深度学习模型实现信息抽取,对于CRF、BILSTM、BILSTM+CRF、BERT+GCN+CRF、BERT+LSTM+CRF、Bert+LSTM+Transformer、Bert+GCN+Transformer和Bert

GCN+Qlearning

Transformer进行对比实验,采用较大中文数据标记语料库开源数据集ResumeNER进行训练,其中ResumeNER包括人名、国籍、籍贯、种族、专业、学位、机构、职称8个类别,基于此对比进行模型训练,以此确定整体的基础模型结构;S4:新型研发机构的科技创新服务知识图谱构建:基于Bert

GCN+Qlearning

Transformer开放信息抽取模型,实现实体识别、关系抽取和实体消歧,建立新型研发机构的科技创新服务知识图谱,其包括:(1):基于Bert

GCN+Qlearning

Transformer的实体识别深度学习模型:采用BERT

GCN+Qlearning

transformer模型,实现对非结构化数据的实体识别,其中NER专注于识别和分类文本中的命名实体,如人名、地点、组织等,目标是从文本中提取具体的实体提及,三者的结合可以利用将单个模型优势合并来提高关系提取任务的性能,BERT模型在大量未标记的文本数据上进行预训练,然后在特定的下游任务上进行微调,其中GCN是一种对图结构数据进行操作的神经网络架构,在NER的上下文中,句子中的单词或标记可以被视为图中的节
点,GCN可以用于捕获这些节点之间的依赖关系和关系,通过将GCN纳入模型架构,模型可以利用句子的结构信息来提高实体识别,Transformer是一种基于自注意的神经网络架构,已被证明在各种NLP任务中是有效的,架构是Bert等模型的关键组成部分,它允许模型捕获上下文信息和句子中单词之间的依赖关系,通过将BERT

GCN+Qlearning

transformerr相结合,基于此创建一个模型;(2):基于Bert

GCN+Qlearning

Transformer的关系抽取深度学习模型:BERT

GCN+Qlearning

transformer模型的组合应用于关系提取,还可以利用单个模型的优势来提高关系提取任务的性能,BERT预先训练的语言模型,用于捕获上下文化的单词表示,使用BER...

【专利技术属性】
技术研发人员:陈一立王涵
申请(专利权)人:珠海中科先进技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1