【技术实现步骤摘要】
基于深度学习模型的科技人物知识图谱构建方法、装置及终端
本专利技术涉及信息
,尤其涉及基于深度学习模型的科技人物知识图谱构建方法、装置及终端。
技术介绍
随着“大数据”时代的到来,可以用作研究和分析的数据量呈现出爆炸式增长。但是这些海量数据大部分是由自然语言构成的无结构文本数据,因此,如何从无结构的文本信息中抽取出有效信息,形成容易被理解和存储的结构化信息,成为了近年来的研究热点。处理具有复杂实体关系的文本数据,一般可以有以下两个步骤,先对文本数据进行信息抽取,再对抽取到的知识进行结构化存储以便于进一步加工利用。在信息抽取方面,有基于人工设置规则的抽取方式和基于统计机器学习模型的抽取方式。在结构化存储方面,比较流行的方式是构建知识图谱。知识图谱是利用结构化可视化的图谱方式展示自然语言中的实体信息的自然语言处理技术,常常用于处理包含繁多复杂的关系,并且需要进行逻辑推理的NLP任务,形成形象的知识宏观联系。在科技画像领域,需要根据大量文本数据提取科技实体和关系,并形成科技知识图谱以便于进一步查找和推 ...
【技术保护点】
1.基于深度学习模型的科技人物知识图谱构建方法,其特征在于,包括以下步骤:/nS1:样本语料库构建:抽取带有科技信息的文本数据,并进行实体识别和标注,得到带标签的样本语料库;/nS2:信息抽取模型训练:搭建深度学习模型对带标签的样本语料库进行训练,得到信息抽取模型;/nS3:基于信息抽取模型对开放域文本数据进行科技信息抽取,得到开放域文本的科技知识三元组;/nS4:知识融合与更新;/nS5:基于融合与更新后的开放域文本的科技知识三元组构建科技知识图谱。/n
【技术特征摘要】
1.基于深度学习模型的科技人物知识图谱构建方法,其特征在于,包括以下步骤:
S1:样本语料库构建:抽取带有科技信息的文本数据,并进行实体识别和标注,得到带标签的样本语料库;
S2:信息抽取模型训练:搭建深度学习模型对带标签的样本语料库进行训练,得到信息抽取模型;
S3:基于信息抽取模型对开放域文本数据进行科技信息抽取,得到开放域文本的科技知识三元组;
S4:知识融合与更新;
S5:基于融合与更新后的开放域文本的科技知识三元组构建科技知识图谱。
2.根据权利要求1所述基于深度学习模型的科技人物知识图谱构建方法,其特征在于,所述科技信息包括带有科研单位实体名称、科研人员人物名称、科研成果名称的文本信息。
3.根据权利要求1所述基于深度学习模型的科技人物知识图谱构建方法,其特征在于,所述步骤S1具体实现方法为:
S11:随机抽取开放域文本信息,开放域文本信息包括自由新闻文本、半结构化百科数据;
S12:基于命名实体识别方法筛选含有科技信息的文本数据;
基于Jieba分词工具对于中文文本数据进行预处理,过滤异常数据和不可用数据,统计词频数据;
基于StanfordNER工具识别文本信息中的实体名称和实体类别,对于含有人物、机构、组织、文章、地理位置、技术产品的文本段进行筛选,得到含有科技信息包括科研单位实体名称、科研人员人物名称、科研成果名称的文本数据集;
S13:按照7:3划分训练集和测试集,并对训练集和测试集进行标注,语料库中句子标注为如下格式:实体对-实体关系-句子文本,得到带标签的样本语料库,其中实体关系是分类数据,预测任务为对含有科技实体信息的样本语句预测实体关系的多分类问题;实体对包括科研人员-科研单位、科研人员-科研成果、科研人员-科研人员。
4.根据权利要求1所述基于深度学习模型的科技人物知识图谱构建方法,其特征在于,所述步骤S2具体实现方法为:
S21:基于BERT中文预训练模型提取句子特征,BERT模型使用双向Transformer作为编码器预训练深度双向表示,并对Masked语言模型和下一句预测任务的结果进行结合,Masked语言模型用来获取词级别的表示,下一句预测用来获取句子级别的表示,模型结构如下:
BERT的输入表示为每个词对应的词向量、segment向量、位置向量相加,并采...
【专利技术属性】
技术研发人员:冯靖芸,邓蔚,穆磊,曾刚,翁智蓉,
申请(专利权)人:成都工物科云科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。