多模态内容处理方法、装置、设备及存储介质制造方法及图纸

技术编号：24353642 阅读：43 留言：0更新日期：2020-06-03 02:06

本申请公开了一种多模态内容处理方法、装置、设备及存储介质，涉及人工智能技术领域。具体实现方案为：接收用户的内容处理请求，该内容处理请求用于请求对待处理的多模态内容进行语义理解，对多模态内容进行解析，得到多模态内容对应的多模知识点，根据多模知识点、预先建立的多模知识图谱和多模态内容，确定多模态内容的语义理解结果，该多模知识图谱包括：多模知识点和多模知识点之间的关联关系。该技术方案可以得到精确的语义理解结果，实现了多模态内容的精确应用，解决了现有技术中存在的多模态内容理解不准确的问题。

Multimodal content processing methods, devices, equipment and storage media

全部详细技术资料下载

【技术实现步骤摘要】
多模态内容处理方法、装置、设备及存储介质
本申请涉及数据处理
，尤其涉及一种人工智能技术中的多模态内容处理方法、装置、设备及存储介质。
技术介绍
图文、视频内容资源目前已是互联网的主流资源形态，精准理解图文、视频内容等具有多种模态的多模态内容是智能产品的重要基础及核心需求。现有技术中，为了准确的理解图文、视频内容资源等多模态内容的真正含义，通常分别利用文本、视觉、语音等技术对多模态内容进行语义分析，得到单模态理解结果，然后再将多个单模态理解结果进行融合得到最终的多模态理解结果。然而，上述方法只能确定多模态内容对应的物体、人物和文字等知识点，无法明确知识点之间的关系以及真正发生的事件，存在语义理解结果不准确的问题。
技术实现思路
本申请实施例提供的多模态内容处理方法、装置、设备及存储介质，用于解决现有多模态内容的处理方法中存在的语义理解结果不准确的问题。第一方面，本申请提供一种多模态内容处理方法，包括：接收用户的内容处理请求，所述内容处理请求用于请求对待处理的多...

【技术保护点】
1.一种多模态内容处理方法，其特征在于，包括：/n接收用户的内容处理请求，所述内容处理请求用于请求对待处理的多模态内容进行语义理解；/n对所述多模态内容进行解析，得到所述多模态内容对应的多模知识点；/n根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，所述多模知识图谱包括：所述多模知识点和所述多模知识点之间的关联关系。/n

【技术特征摘要】
1.一种多模态内容处理方法，其特征在于，包括：
接收用户的内容处理请求，所述内容处理请求用于请求对待处理的多模态内容进行语义理解；
对所述多模态内容进行解析，得到所述多模态内容对应的多模知识点；
根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，所述多模知识图谱包括：所述多模知识点和所述多模知识点之间的关联关系。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解结果，包括：
根据所述多模知识点和所述多模知识图谱，确定所述多模知识点之间的关联关系；
根据所述多模知识点和预设的语义理解方法，确定所述多模态内容的基础语义理解结果；
根据所述多模知识点之间的关联关系、所述基础语义理解结果和所述多模知识图谱，确定所述多模态内容的语义理解结果。

3.根据权利要求2所述的方法，其特征在于，所述基础语义理解结果包括：第一语义理解结果和/或第二语义理解结果；
所述第一语义理解结果是根据所述多模知识点和预设的深度学习方法对所述多模态内容进行语义理解得到的；
所述第二语义理解结果是根据预设的融合方法对所述多模知识点对应的多个单模态语义理解结果进行融合得到的。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：
获取多模数据集合，所述多模数据集合包括多条多模态内容样本；
对所述多模数据集合进行处理，确定所述多模知识图谱的本体；
挖掘所述多模数据集合中每条多模态内容样本的多模知识点样本；
通过知识图谱表示学习，建立所述多模知识点样本之间的关联关系；
基于所述多模知识点样本之间的关联关系和所述多模知识图谱的本体，建立所述多模知识图谱。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：
基于知识图谱的语义表示方法，输出所述多模态内容的语义理解结果。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：
根据所述语义理解结果的向量表示，获取类型与所述多模态内容一致的推荐资源；
向所述用户推送所述推荐资源；
或者
根据所述语义理解结果的向量表示，确定所述多模态内容的文本理解结果；
根据所述文本理解结果，执行检索过程，获取针对所述多模态内容的检索结果。

7.一种多模态内容处理装置，其特征在于，包括：接收模块、处理模块和确定模块；
所述接收模块，用于接收用户的内容处理请求，所述内容处理请求用于请求对待处理的多模态内容进行语义理解；
所述处理模块，用于对所述多模态内容进行解析，得到所述多模态内容对应的多模知识点；
所述确定模块，用于根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容，确定所述多模态内容的语义理解...

【专利技术属性】
技术研发人员：冯知凡，王海峰，任可欣，朱勇，吕雅娟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人