一种网络对象处理方法及装置制造方法及图纸

技术编号:19342093 阅读:28 留言:0更新日期:2018-11-07 13:52
本发明专利技术提供了一种网络对象处理方法及装置,属于计算机技术领域。本发明专利技术实施例中,可以先从目标对象中提取至少两种模态信息,然后计算每种模态信息对应的特征向量,并将每种模态信息对应的特征向量融合,得到融合特征向量,最后基于融合特征向量,对目标对象进行分类。由于融合特征向量能够代表每种模态信息对应的特征,因此,本发明专利技术实施例中,终端可以在基于目标对象的所有信息特征对目标对象进行分类的同时,简化了分类过程,降低了分类成本。

A network object processing method and device

The invention provides a network object processing method and device, which belongs to the field of computer technology. In the embodiment of the present invention, at least two kinds of modal information can be extracted from the target object, then the eigenvectors corresponding to each modal information can be calculated, and the eigenvectors corresponding to each modal information can be fused to obtain the fused eigenvectors. Finally, the target object can be classified based on the fused eigenvectors. Since the fusion feature vector can represent the corresponding features of each modal information, in the embodiment of the present invention, the terminal can simplify the classification process and reduce the classification cost while classifying the target object based on all the information features of the target object.

【技术实现步骤摘要】
一种网络对象处理方法及装置
本专利技术属于计算机
,特别是涉及一种网络对象处理方法及装置。
技术介绍
随着计算机技术的不断发展,网络系统中的对象越来越多。每个网络对象都会包含信息,例如,一个图片会包括图像信息,一个文本会包括文本信息,等等。由于网络对象所包含的信息能够体现网络对象的特性,因此,在对网络对象进行分类时,往往会基于网络对象所包含的信息来确定该网络对象所属的类别。实际场景中,存在大量的包括多种模态信息的网络对象,例如,视频会同时包括图像信息、文本信息以及语音信息等等,在对这些网络对象进行处理时,往往需要综合每种模态信息。现有技术中,通常是基于每种模态信息分别确定网络对象所属的类别,然后再基于每种模态信息的重要性以及确定出来的多个类别,确定出一个最终的类别。例如,在对视频进行分类时,需要分别基于视频中的图像信息确定一个该视频所属的类别、基于视频中的文本信息确定一个该视频所属的类别、基于视频中的语音信息确定一个该视频所属的类别,最后再基于视频中的图像信息、语音信息、文本信息以及确定出来的多个类别,确定该视频所属的最终类别,整个分类过程较为繁琐,成本较高。
技术实现思路
本专利技术提供了一种网络对象处理方法及装置,以便解决分类过程较为繁琐,成本较高的问题。依据本专利技术的第一方面,提供了一种网络对象处理方法,该方法包括:从目标对象中提取至少两种模态信息;所述目标对象为具有多模态信息的对象;计算每种模态信息对应的特征向量,并将每种模态信息对应的特征向量融合,得到融合特征向量;基于所述融合特征向量,对所述目标对象进行分类;其中,所述模态信息为文本、语音或图像。可选的,所述目标对象为目标视频;所述从目标对象中提取至少两种模态信息的步骤,包括:提取所述目标视频中的语音信息对应的语谱图,得到第一图像;从所述目标视频包括的至少一帧图像中选择至少一帧图像,得到至少一个第二图像;获取所述目标视频的描述文本,得到第一文本;将所述目标视频中的语音信息转换为文本,得到第二文本。可选的,所述计算每种模态信息对应的特征向量的步骤,包括:对所述第一文本信息进行分词处理,得到多个第一分词,以及对所述第二文本信息进行分词处理,得到多个第二分词;计算每个第一分词的词向量,得到多个第一词向量,计算每个第二分词的词向量,得到多个第二词向量;对所述多个第一词向量进行拟合,得到所述第一文本信息对应的X维的第一文本特征向量,对所述多个第二词向量进行拟合,得到所述第二文本信息对应的Y维的第二文本特征向量;利用预设的神经网络模型提取所述第一图像信息对应的特征向量,得到Z维的第一图像特征向量,利用预设的神经网络模型提取每个第二图像信息对应的特征向量,得到至少一个W维的第二图像特征向量。可选的,所述将每种模态信息对应的特征向量融合,得到融合特征向量的步骤,包括:将所述第一文本特征向量的维数、所述第二文本特征向量的维数、所述第一图像特征向量的维数以及每个第二图像特征向量的维数转换为相同维数;将所述第一文本特征向量与所述第二文本特征向量相加,得到融合文本特征向量,以及,将所述第一图像特征向量与每个第二图像特征向量相加,得到融合图像特征向量;计算所述融合文本特征向量与所述融合图像特征向量之间的距离特征向量以及内积特征向量;将所述距离特征向量以及所述内积特征向量拼接,得到所述目标视频的融合特征向量。可选的,所述基于所述融合特征向量,对所述目标对象进行分类的步骤,包括:将所述融合特征向量作为分类依据,输入至预设的分类模型中;利用所述预设的分类模型,基于所述融合特征向量对所述目标对象进行分类。依据本专利技术的第二方面,提供了一种网络对象处理装置,该装置包括:提取模块,用于从目标对象中提取至少两种模态信息;所述目标对象为具有多模态信息的对象;计算模块,用于计算每种模态信息对应的特征向量,并将每种模态信息对应的特征向量融合,得到融合特征向量;分类模块,用于基于所述融合特征向量,对所述目标对象进行分类;其中,所述模态信息为文本、语音或图像。可选的,所述目标对象为目标视频;所述提取模块,用于:提取所述目标视频中的语音信息对应的语谱图,得到第一图像;从所述目标视频包括的至少一帧图像中选择至少一帧图像,得到至少一个第二图像;获取所述目标视频的描述文本,得到第一文本;将所述目标视频中的语音信息转换为文本,得到第二文本。可选的,所述计算模块,用于:对所述第一文本信息进行分词处理,得到多个第一分词,以及对所述第二文本信息进行分词处理,得到多个第二分词;计算每个第一分词的词向量,得到多个第一词向量,计算每个第二分词的词向量,得到多个第二词向量;对所述多个第一词向量进行拟合,得到所述第一文本信息对应的X维的第一文本特征向量,对所述多个第二词向量进行拟合,得到所述第二文本信息对应的Y维的第二文本特征向量;利用预设的神经网络模型提取所述第一图像信息对应的特征向量,得到Z维的第一图像特征向量,利用预设的神经网络模型提取每个第二图像信息对应的特征向量,得到至少一个W维的第二图像特征向量。可选的,所述计算模块,用于:将所述第一文本特征向量的维数、所述第二文本特征向量的维数、所述第一图像特征向量的维数以及每个第二图像特征向量的维数转换为相同维数;将所述第一文本特征向量与所述第二文本特征向量相加,得到融合文本特征向量,以及,将所述第一图像特征向量与每个第二图像特征向量相加,得到融合图像特征向量;计算所述融合文本特征向量与所述融合图像特征向量之间的距离特征向量以及内积特征向量;将所述距离特征向量以及所述内积特征向量拼接,得到所述目标视频的融合特征向量。可选的,所述分类模块,包括:输入子模块,用于将所述融合特征向量作为分类依据,输入至预设的分类模型中;分类子模块,用于利用所述预设的分类模型,基于所述融合特征向量对所述目标对象进行分类。依据本专利技术的第三方面,提供了一种移动终端,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的网络对象处理程序,所述网络对象处理程序被所述处理器执行时实现如上述第一方面所述的网络对象处理方法中的步骤。依据本专利技术的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有网络对象处理程序,所述网络对象处理程序被处理器执行时实现如上述第一方面所述的网络对象处理方法中的步骤。针对在先技术,本专利技术具备如下优点:可以先从目标对象中提取至少两种模态信息,然后计算每种模态信息对应的特征向量,并将每种模态信息对应的特征向量融合,得到融合特征向量,最后基于融合特征向量,对目标对象进行分类。由于融合特征向量能够代表每种模态信息对应的特征,因此,本专利技术实施例中,终端可以在基于目标对象的所有信息特征对目标对象进行分类的同时,简化了分类过程,降低了分类成本。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本本文档来自技高网...

【技术保护点】
1.一种网络对象处理方法,其特征在于,所述方法包括:从目标对象中提取至少两种模态信息;所述目标对象为具有多模态信息的对象;计算每种模态信息对应的特征向量,并将每种模态信息对应的特征向量融合,得到融合特征向量;基于所述融合特征向量,对所述目标对象进行分类;其中,所述模态信息为文本、语音或图像。

【技术特征摘要】
1.一种网络对象处理方法,其特征在于,所述方法包括:从目标对象中提取至少两种模态信息;所述目标对象为具有多模态信息的对象;计算每种模态信息对应的特征向量,并将每种模态信息对应的特征向量融合,得到融合特征向量;基于所述融合特征向量,对所述目标对象进行分类;其中,所述模态信息为文本、语音或图像。2.根据权利要求1所述的方法,其特征在于,所述目标对象为目标视频;所述从目标对象中提取至少两种模态信息的步骤,包括:提取所述目标视频中的语音信息对应的语谱图,得到第一图像;从所述目标视频包括的至少一帧图像中选择至少一帧图像,得到至少一个第二图像;获取所述目标视频的描述文本,得到第一文本;将所述目标视频中的语音信息转换为文本,得到第二文本。3.根据权利要求2所述的方法,其特征在于,所述计算每种模态信息对应的特征向量的步骤,包括:对所述第一文本信息进行分词处理,得到多个第一分词,以及对所述第二文本信息进行分词处理,得到多个第二分词;计算每个第一分词的词向量,得到多个第一词向量,计算每个第二分词的词向量,得到多个第二词向量;对所述多个第一词向量进行拟合,得到所述第一文本信息对应的X维的第一文本特征向量,对所述多个第二词向量进行拟合,得到所述第二文本信息对应的Y维的第二文本特征向量;利用预设的神经网络模型提取所述第一图像信息对应的特征向量,得到Z维的第一图像特征向量,利用预设的神经网络模型提取每个第二图像信息对应的特征向量,得到至少一个W维的第二图像特征向量。4.根据权利要求3所述的方法,其特征在于,所述将每种模态信息对应的特征向量融合,得到融合特征向量的步骤,包括:将所述第一文本特征向量的维数、所述第二文本特征向量的维数、所述第一图像特征向量的维数以及每个第二图像特征向量的维数转换为相同维数;将所述第一文本特征向量与所述第二文本特征向量相加,得到融合文本特征向量,以及,将所述第一图像特征向量与每个第二图像特征向量相加,得到融合图像特征向量;计算所述融合文本特征向量与所述融合图像特征向量之间的距离特征向量以及内积特征向量;将所述距离特征向量以及所述内积特征向量拼接,得到所述目标视频的融合特征向量。5.根据权利要求1所述的方法,其特征在于,所述基于所述融合特征向量,对所述目标对象进行分类的步骤,包括:将所述融合特征向量作为分类依据,输入至预设的分类模型中;利用所述预设的分类模型,基于所述融合特征向量对所述目标对象进行分类。6.一种网络对象处理装置,其特征在于,所述装置包括:提取模块,用于从目标对象中提取至少两种模态信息;所述目标对象为具有多模态信息的对象;计算模块,用于计算每种模态...

【专利技术属性】
技术研发人员:张志伟
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1