【技术实现步骤摘要】
一种基于多模态的跨媒体知识抽取方法
[0001]本专利技术涉及知识图谱的知识获取方向,具体涉及一种基于多模态的跨媒体知识抽取方法。
技术介绍
[0002]知识获取是构建知识图谱的第一步,知识按照来源可分为结构化数据、半结构化数据和非结构化数据。通过知识抽取技术,从不同结构和类型的数据中抽取出计算机可以理解的结构化数据,以供进一步的分析和利用是知识抽取的工作目的。当前知识获取主要针对文本化数据进行,对文本通过自然语言处理的相关技术,可进行实体抽取、关系抽取、属性抽取和事件抽取。而网络中的数据源,除了文本数据还存在大量其他媒体类型数据,如图片数据、视频数据、音频数据及图片+文字等跨媒体数据。如何提取这些数据中的信息作为知识图谱的数据源,成为数据提取的一个重要研究方向。
技术实现思路
[0003]本专利技术公开了一种基于多模态的知识抽取的方法,基于该问题本专利技术利用多模态技术,将其他媒体类型数据转化为文本数据进行处理,极大丰富了数据知识图谱构建的数据源。
[0004]具体包括以下主要步骤:步骤1: 将含有多种文本类型的数据输入到数据类型识别模块,通过数据类型识别模块,分别识别该部分数据的具体类型并进行标记处理;步骤2:将步骤1识别后数据及标记输入到数据转化模块,数据转化模块使用多模态技术,包含不同媒体转化模型,模块首先根据步骤1标识进行模型选择,然后数据输入到指定模型中进行数据转化,转化为纯文本数据;步骤3:将生成的文本信息通过命名实体识别、关系抽取等自然语言处理技术进行数据的抽取工作,将抽取后的 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态的跨媒体知识抽取方法,其特征在于,包括以下步骤:步骤1: 将含有多种文本类型的数据输入到数据类型识别模块,通过数据类型识别模块,分别识别该部分数据的具体类型并进行标记处理;步骤2:将步骤1识别后数据及标记输入到数据转化模块,数据转化模块使用多模态技术,包含不同媒体转化模型,模块首先根据步骤1标识进行模型选择,然后数据输入到指定模型中进行数据转化,转化为纯文本...
【专利技术属性】
技术研发人员:冯卫森,李锐,王建华,
申请(专利权)人:济南浪潮高新科技投资发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。