一种基于多模态的跨媒体知识抽取方法技术

技术编号：27209417 阅读：21 留言：0更新日期：2021-01-31 12:41

本发明专利技术是基于多模态的跨媒体数据抽取方法。包括数据类型识别模块、数据转化模块、实体和关系抽取模块等几部分。数据类型识别用于识别不同类型媒体数据；数据转化模块用于将不同媒体类型数据转化为同一的文本表达方式；实体和关系抽取模块用于抽取文本数据中的实体和关系。本发明专利技术可以采用不同类型的数据进行知识图谱建设，丰富了知识图谱的数据来源。丰富了知识图谱的数据来源。丰富了知识图谱的数据来源。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态的跨媒体知识抽取方法

[0001]本专利技术涉及知识图谱的知识获取方向，具体涉及一种基于多模态的跨媒体知识抽取方法。

技术介绍

[0002]知识获取是构建知识图谱的第一步，知识按照来源可分为结构化数据、半结构化数据和非结构化数据。通过知识抽取技术，从不同结构和类型的数据中抽取出计算机可以理解的结构化数据，以供进一步的分析和利用是知识抽取的工作目的。当前知识获取主要针对文本化数据进行，对文本通过自然语言处理的相关技术，可进行实体抽取、关系抽取、属性抽取和事件抽取。而网络中的数据源，除了文本数据还存在大量其他媒体类型数据，如图片数据、视频数据、音频数据及图片+文字等跨媒体数据。如何提取这些数据中的信息作为知识图谱的数据源，成为数据提取的一个重要研究方向。

技术实现思路

[0003]本专利技术公开了一种基于多模态的知识抽取的方法，基于该问题本专利技术利用多模态技术，将其他媒体类型数据转化为文本数据进行处理，极大丰富了数据知识图谱构建的数据源。
[0004]具体包括以下主要步骤：步骤1：将含有多种文本类型的数据输入到数据类型识别模块，通过数据类型识别模块，分别识别该部分数据的具体类型并进行标记处理；步骤2：将步骤1识别后数据及标记输入到数据转化模块，数据转化模块使用多模态技术，包含不同媒体转化模型，模块首先根据步骤1标识进行模型选择，然后数据输入到指定模型中进行数据转化，转化为纯文本数据；步骤3：将生成的文本信息通过命名实体识别、关系抽取等自然语言处理技术进行数据的抽取工作，将抽取后的...

【技术保护点】

【技术特征摘要】
1.一种基于多模态的跨媒体知识抽取方法，其特征在于，包括以下步骤：步骤1：将含有多种文本类型的数据输入到数据类型识别模块，通过数据类型识别模块，分别识别该部分数据的具体类型并进行标记处理；步骤2：将步骤1识别后数据及标记输入到数据转化模块，数据转化模块使用多模态技术，包含不同媒体转化模型，模块首先根据步骤1标识进行模型选择，然后数据输入到指定模型中进行数据转化，转化为纯文本...

【专利技术属性】
技术研发人员：冯卫森，李锐，王建华，
申请(专利权)人：济南浪潮高新科技投资发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人