【技术实现步骤摘要】
基于预训练模型T5的学术知识图谱补全方法
[0001]本专利技术属于知识图谱
,涉及一种基于预训练模型T5的学术知识图谱补全方法。
技术介绍
[0002]知识图谱本质上是一个图结构化的知识库,将真实世界的知识以结构化的三元组形式来进行表示和存储,其特有的表征能力和巨大的知识储量,能够提供高质量的结构化知识而被广泛应用于诸如机器阅读、智能问答、推荐等下游任务。然而相关数据表明大型知识图谱中一些常见的基本关系缺失严重,知识图谱的不完备性引发了学术界对知识图谱补全任务的研究。
[0003]知识图谱补全任务本质上是基于知识图谱的已有知识对缺失的知识进行推理。知识图谱从应用领域的角度可分为通用领域的知识图谱和(垂直)领域知识图谱两大类,针对通用领域知识图谱补全方法的研究趋于成熟,但直接应用于金融、医疗、学术、工业等产业领域知识图谱,性能却不尽人意。
[0004]根据是否利用附加信息可将知识图谱补全方法分为两大类:依赖结构信息的方法和依赖附加信息的方法。依赖结构信息的方法是指利用知识图谱内部事实的结构信息,这类方法 ...
【技术保护点】
【技术特征摘要】
1.基于预训练模型T5的学术知识图谱补全方法,其特征在于,该方法按照以下步骤实施,步骤1:对学术领域知识图谱数据集中的三元组进行数据清洗,将三元组转换为连贯句子作为模型输入;所述三元组包括头实体、关系、尾实体;步骤2:修改T5模型预训练词汇表,在词汇表中加入在科学文本语料上训练得到的sciBERT分词器中的高频令牌;步骤3:将步骤1处理后的连贯句子经步骤2修改词汇表后的T5模型进行编码;步骤4:采用集束搜索算法缩小T5模型解码器的搜索空间,解码后得到待预测的实体/关系的文本并对模型输出进行打分排序。2.根据权利要求1所述的基于预训练模型T5的学术知识图谱补全方法,其特征在于,步骤1具体如下:步骤1.1:对知识图谱数据集进行数据清洗,删除数据集中三元组存在实体或关系缺失的数据项;步骤1.2:学术知识图谱只包含少量关系类型,对每一种关系设计一个固定的句子模板,该模板用于将三元组转换为连贯句子,在句子模板中加入软提示符对三元组的头实体、关系和尾实体的字符进行区分,最后将三元组转换为连贯句子;步骤1.3:对学术知识图谱中的关系进行分析,将头实体和尾实体的类型补充到原始数据项,学术知识图谱中主要包括的实体类型有论文、作者、机构;步骤1.4:知识图谱补全任务可分为链接预测任务和关系预测任务,针对两个子任务,将步骤1.2处理完的连贯句子进行输入和输出的拆分;对链接预测任务将头/尾实体和关系作为输入,输出为待预测实体;对关系预测任务则将头实体和尾实体一起作为输入,输出为实体间的关系;步骤1.5:将步骤1.3中得到的实体类型作为前缀提示的一部分添加到步骤1.2中设计的句子模板前,对输入进行增强。3.根据权利要求2所述的基于预训练模型T5的学术知识图谱补全方法,其特征在于,步骤2修改T5模型词汇表的方法具体如下:步骤2.1:利用sciBERT模型分词器对步骤1处理得到的句子进行分词,统计分词结果中各令牌出现频率;步骤2.2:利用T5模型分词器对步骤1处理得到的句子进行分词,统计分词结果中各令牌...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。