多模态内容处理方法、装置、设备及存储介质制造方法及图纸

技术编号:24353642 阅读:36 留言:0更新日期:2020-06-03 02:06
本申请公开了一种多模态内容处理方法、装置、设备及存储介质,涉及人工智能技术领域。具体实现方案为:接收用户的内容处理请求,该内容处理请求用于请求对待处理的多模态内容进行语义理解,对多模态内容进行解析,得到多模态内容对应的多模知识点,根据多模知识点、预先建立的多模知识图谱和多模态内容,确定多模态内容的语义理解结果,该多模知识图谱包括:多模知识点和多模知识点之间的关联关系。该技术方案可以得到精确的语义理解结果,实现了多模态内容的精确应用,解决了现有技术中存在的多模态内容理解不准确的问题。

Multimodal content processing methods, devices, equipment and storage media

【技术实现步骤摘要】
多模态内容处理方法、装置、设备及存储介质
本申请涉及数据处理
,尤其涉及一种人工智能技术中的多模态内容处理方法、装置、设备及存储介质。
技术介绍
图文、视频内容资源目前已是互联网的主流资源形态,精准理解图文、视频内容等具有多种模态的多模态内容是智能产品的重要基础及核心需求。现有技术中,为了准确的理解图文、视频内容资源等多模态内容的真正含义,通常分别利用文本、视觉、语音等技术对多模态内容进行语义分析,得到单模态理解结果,然后再将多个单模态理解结果进行融合得到最终的多模态理解结果。然而,上述方法只能确定多模态内容对应的物体、人物和文字等知识点,无法明确知识点之间的关系以及真正发生的事件,存在语义理解结果不准确的问题。
技术实现思路
本申请实施例提供的多模态内容处理方法、装置、设备及存储介质,用于解决现有多模态内容的处理方法中存在的语义理解结果不准确的问题。第一方面,本申请提供一种多模态内容处理方法,包括:接收用户的内容处理请求,所述内容处理请求用于请求对待处理的多模态内容进行语义理解;对所述多模态内容进行解析,得到所述多模态内容对应的多模知识点;根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容,确定所述多模态内容的语义理解结果,所述多模知识图谱包括:所述多模知识点和所述多模知识点之间的关联关系。在本实施例中,由于采用了多模态内容的多模知识点和多模知识图谱对多模态内容进行理解,得到了精确的语义理解结果,实现了多模态内容的精确应用,解决了现有技术中存在的多模态内容理解不准确的问题。在第一方面的一种可能设计中,所述根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容,确定所述多模态内容的语义理解结果,包括:根据所述多模知识点和所述多模知识图谱,确定所述多模知识点之间的关联关系;根据所述多模知识点和预设的语义理解方法,确定所述多模态内容的基础语义理解结果;根据所述多模知识点之间的关联关系、所述基础语义理解结果和所述多模知识图谱,确定所述多模态内容的语义理解结果。其中,所述基础语义理解结果包括:第一语义理解结果和/或第二语义理解结果;所述第一语义理解结果是根据所述多模知识点和预设的深度学习方法对所述多模态内容进行语义理解得到的;所述第二语义理解结果是根据预设的融合方法对所述多模知识点对应的多个单模态语义理解结果进行融合得到的。在本实施例中,基于知识图谱的关联结果、基于深度神经网络的融合建模结果以及基于单模态理解结果的融合方案共同实现了对多模态内容的语义理解,进一步提高了多模态内容的理解精度。在第一方面的另一种可能设计中,所述方法还包括:获取多模数据集合,所述多模数据集合包括多条多模态内容样本;对所述多模数据集合进行处理,确定所述多模知识图谱的本体;挖掘所述多模数据集合中每条多模态内容样本的多模知识点样本;通过知识图谱表示学习,建立所述多模知识点样本之间的关联关系;基于所述多模知识点样本之间的关联关系和所述多模知识图谱的本体,建立所述多模知识图谱。本申请的技术方案,通过建立多模知识图谱,为知识点赋予了语义解释,为实现多模态内容的正确语义理解奠定了基础。在第一方面的再一种可能设计中,所述方法还包括:基于知识图谱的语义表示方法,输出所述多模态内容的语义理解结果。在第一方面的又一种可能设计中,所述方法还包括:根据所述语义理解结果的向量表示,获取类型与所述多模态内容一致的推荐资源;向所述用户推送所述推荐资源;或者根据所述语义理解结果的向量表示,确定所述多模态内容的文本理解结果;根据所述文本理解结果,执行检索过程,获取针对所述多模态内容的检索结果。本实施例的技术方案实现了资源的精准推荐和智能搜索的准确度。第二方面,本申请提供一种多模态内容处理装置,包括:接收模块、处理模块和确定模块;所述接收模块,用于接收用户的内容处理请求,所述内容处理请求用于请求对待处理的多模态内容进行语义理解;所述处理模块,用于对所述多模态内容进行解析,得到所述多模态内容对应的多模知识点;所述确定模块,用于根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容,确定所述多模态内容的语义理解结果,所述多模知识图谱包括:所述多模知识点和所述多模知识点之间的关联关系。在第二方面的一种可能设计中,所述确定模块,具体用于根据所述多模知识点和所述多模知识图谱,确定所述多模知识点之间的关联关系,根据所述多模知识点和预设的语义理解方法,确定所述多模态内容的基础语义理解结果,根据所述多模知识点之间的关联关系、所述基础语义理解结果和所述多模知识图谱,确定所述多模态内容的语义理解结果。其中,所述基础语义理解结果包括:第一语义理解结果和/或第二语义理解结果;所述第一语义理解结果是根据所述多模知识点和预设的深度学习方法对所述多模态内容进行语义理解得到的;所述第二语义理解结果是根据预设的融合方法对所述多模知识点对应的多个单模态语义理解结果进行融合得到的。在第二方面的另一种可能设计中,所述处理模块,还用于获取多模数据集合,所述多模数据集合包括多条多模态内容样本,对所述多模数据集合进行处理,确定所述多模知识图谱的本体,挖掘所述多模数据集合中每条多模态内容样本的多模知识点样本,通过知识图谱表示学习,建立所述多模知识点样本之间的关系关系,以及基于所述多模知识点样本之间的关联关系和所述多模知识图谱的本体,建立所述多模知识图谱。在第二方面的再一种可能设计中,所述装置还包括:输出模块;所述输出模块,用于基于知识图谱的语义表示方法,输出所述多模态内容的语义理解结果。在第二方面的再一种可能设计中,所述装置还包括:输出模块;所述处理模块,还用于根据所述语义理解结果的向量表示,获取类型与所述多模态内容一致的推荐资源;所述输出模块,用于向所述用户推送所述推荐资源;或者所述确定模块,还用于根据所述语义理解结果的向量表示,确定所述多模态内容的文本理解结果;所述处理模块,还用于根据所述文本理解结果,执行检索过程,获取针对所述多模态内容的检索结果;所述输出模块,用于输出针对所述多模态内容的检索结果。本申请第二方面提供的装置,可用于执行第一方面提供的方法,其实现原理和技术效果类似,在此不再赘述。第三方面,本申请提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面以及第一方面各可能设计所述的方法。第四方面,本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面以及第一方面各可能设计本文档来自技高网...

【技术保护点】
1.一种多模态内容处理方法,其特征在于,包括:/n接收用户的内容处理请求,所述内容处理请求用于请求对待处理的多模态内容进行语义理解;/n对所述多模态内容进行解析,得到所述多模态内容对应的多模知识点;/n根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容,确定所述多模态内容的语义理解结果,所述多模知识图谱包括:所述多模知识点和所述多模知识点之间的关联关系。/n

【技术特征摘要】
1.一种多模态内容处理方法,其特征在于,包括:
接收用户的内容处理请求,所述内容处理请求用于请求对待处理的多模态内容进行语义理解;
对所述多模态内容进行解析,得到所述多模态内容对应的多模知识点;
根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容,确定所述多模态内容的语义理解结果,所述多模知识图谱包括:所述多模知识点和所述多模知识点之间的关联关系。


2.根据权利要求1所述的方法,其特征在于,所述根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容,确定所述多模态内容的语义理解结果,包括:
根据所述多模知识点和所述多模知识图谱,确定所述多模知识点之间的关联关系;
根据所述多模知识点和预设的语义理解方法,确定所述多模态内容的基础语义理解结果;
根据所述多模知识点之间的关联关系、所述基础语义理解结果和所述多模知识图谱,确定所述多模态内容的语义理解结果。


3.根据权利要求2所述的方法,其特征在于,所述基础语义理解结果包括:第一语义理解结果和/或第二语义理解结果;
所述第一语义理解结果是根据所述多模知识点和预设的深度学习方法对所述多模态内容进行语义理解得到的;
所述第二语义理解结果是根据预设的融合方法对所述多模知识点对应的多个单模态语义理解结果进行融合得到的。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
获取多模数据集合,所述多模数据集合包括多条多模态内容样本;
对所述多模数据集合进行处理,确定所述多模知识图谱的本体;
挖掘所述多模数据集合中每条多模态内容样本的多模知识点样本;
通过知识图谱表示学习,建立所述多模知识点样本之间的关联关系;
基于所述多模知识点样本之间的关联关系和所述多模知识图谱的本体,建立所述多模知识图谱。


5.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
基于知识图谱的语义表示方法,输出所述多模态内容的语义理解结果。


6.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
根据所述语义理解结果的向量表示,获取类型与所述多模态内容一致的推荐资源;
向所述用户推送所述推荐资源;
或者
根据所述语义理解结果的向量表示,确定所述多模态内容的文本理解结果;
根据所述文本理解结果,执行检索过程,获取针对所述多模态内容的检索结果。


7.一种多模态内容处理装置,其特征在于,包括:接收模块、处理模块和确定模块;
所述接收模块,用于接收用户的内容处理请求,所述内容处理请求用于请求对待处理的多模态内容进行语义理解;
所述处理模块,用于对所述多模态内容进行解析,得到所述多模态内容对应的多模知识点;
所述确定模块,用于根据所述多模知识点、预先建立的多模知识图谱和所述多模态内容,确定所述多模态内容的语义理解...

【专利技术属性】
技术研发人员:冯知凡王海峰任可欣朱勇吕雅娟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1