媒体信息分类方法及装置制造方法及图纸

技术编号:24997397 阅读:42 留言:0更新日期:2020-07-24 17:59
本申请公开了一种媒体信息分类方法,包括获取待分类媒体信息,确定所述文本信息所携带的信息量;若所述信息量小于阈值,将该待分类媒体信息输入图片分类模型,获取图片分类模型输出的待分类媒体信息的类别标签,作为第一类别标签,根据该第一类别标签确定待分类媒体信息的类别。图片分类模型主要是通过神经网络学习待分类媒体信息中的图片信息生成图片特征向量,根据图片特征向量对媒体信息进行分类,因此,针对多图少文的待分类媒体信息能够提高分类准确率。本申请还公开了一种媒体信息分类装置、媒体信息分类设备以及计算机存储介质。

【技术实现步骤摘要】
媒体信息分类方法及装置本申请对申请号为201811076275.8,申请日为2018年09月14日,专利技术名称为“媒体信息分类方法、训练图片分类模型的方法及装置”的中国专利申请提出分案申请。
本申请涉及内容识别
,尤其涉及一种媒体信息分类方法、装置、设备以及计算机存储介质。
技术介绍
随着信息行业和互联网的发展,媒体信息的表现形式也从传统的以文字信息为主,逐渐地转变成以图文并茂,甚至以图为主的形式。并且,随着媒体信息发文和流量的增加,给媒体运营方带来红利的同时,对媒体信息分类的质量也提出了更高的要求。然而,传统的媒体信息分类方法是将媒体信息分类问题归结为自然语言处理领域中的文本分类问题,以媒体信息为新闻为例,通过识别新闻中的字、词、句子等文本信息,实现对新闻分类的目的,其针对传统的以文字信息为主的新闻具有良好的分类效果;然而,在当前的新闻媒体时代,存在大量的图多字少的新闻,这类新闻在文本层面上通常仅包含标题或者少量正文信息,由于这类新闻的文本信息量非常少,因此,传统的新闻分类方法针对这类新闻无法无法发挥出好的分类效果,其分类准确率大打折扣。因此,基于当前的新媒体时代的发展需求,急需研发适用于新型媒体信息的分类方案。
技术实现思路
本申请实施例提供了一种媒体信息分类方法,使得能够基于图片分类模型对图多字少的媒体信息进行分类,并且具有较高的准确率。本申请还提供了训练图片分类模型的方法以及上述方法对应的装置、设备、计算机存储介质。有鉴于此,本申请一方面提供了一种媒体信息分类方法,所述方法包括:获取待分类媒体信息,所述媒体信息包括文本信息和图片信息;将所述待分类媒体信息输入图片分类模型,获取所述图片分类模型输出的所述待分类媒体信息的的类别标签,作为第一类别标签;所述图片分类模型是根据媒体信息样本数据训练得到的神经网络模型,用于根据媒体信息中的图片信息生成图片特征向量,并根据所述图片特征向量分类得到所述媒体信息的类别标签;根据所述第一类别标签确定所述待分类媒体信息所属的类别。本申请一方面提供一种媒体信息分类装置,所述装置包括:获取单元,用于获取待分类媒体信息,所述媒体信息包括文本信息和图片信息;输入单元,用于将所述待分类媒体信息输入图片分类模型,获取所述图片分类模型输出的所述待分类媒体信息的的类别标签,作为第一类别标签;所述图片分类模型是根据媒体信息样本数据训练得到的神经网络模型,用于根据媒体信息中的图片信息生成图片特征向量,并根据所述图片特征向量分类得到所述媒体信息的类别标签;确定单元,用于根据所述第一类别标签确定所述待分类媒体信息所属的类别。本申请一方面提供一种媒体信息分类设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令,执行如上述媒体信息分类方法的步骤。本申请一方面提供了一种训练图片分类模型的方法,所述方法包括:获取媒体信息样本数据,所述媒体信息样本数据包括媒体信息以及被标记的媒体信息类别;所述媒体信息包括文本信息和图片信息;构建图片分类模型,所述图片分类模型包括以媒体信息作为输入,以媒体信息对应的类别标签作为输出的神经网络模型;根据所述媒体信息样本数据训练所述图片分类模型,以训练得到使得所述图片分类模型的目标函数最小的模型参数,所述目标函数包括损失函数和惩罚项,所述惩罚项是用于惩罚基于图片信息分错媒体信息类别的函数项。本申请一方面提供了一种训练图片分类模型的装置,所述装置包括:获取单元,用于获取媒体信息样本数据,所述媒体信息样本数据包括媒体信息以及被标记的媒体信息类别;所述媒体信息包括文本信息和图片信息;构建单元,用于构建图片分类模型,所述图片分类模型包括以媒体信息作为输入,以媒体信息对应的类别标签作为输出的神经网络模型;训练单元,用于根据所述媒体信息样本数据训练所述图片分类模型,以训练得到使得所述图片分类模型的目标函数最小的模型参数,所述目标函数包括损失函数和惩罚项,所述惩罚项是用于惩罚基于图片信息分错媒体信息类别的函数项。本申请一方面提供一种训练图片分类模型的设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令,执行如上述训练图片分类模型方法的步骤。本申请一方面提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述媒体信息分类方法或者训练图片分类模型的方法。从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例提供了一种媒体信息分类方法,在该方法中提供了图片分类模型,该图片分类模型是通过机器学习方法训练得到的神经网络模型,基于该图片分类模型对待分类媒体信息进行分类,主要是通过神经网络学习待分类媒体信息中的图片信息生成图片特征向量,根据图片特征向量对待分类媒体信息进行分类,因此,其针对多图少文的待分类媒体信息,能够提高分类准确率;相比传统的文本分类方法,本申请实施例提供的媒体信息分类方法通过该图片分类模型能够提高分类准确率。附图说明图1为本申请实施例中一种媒体信息分类方法的场景示例图;图2为本申请实施例中一种媒体信息分类方法的流程图;图3为本申请实施例中一种媒体信息分类方法的流程图;图4为本申请实施例中一种媒体信息分类方法的流程图;图5为本申请实施例中一种媒体信息分类方法的流程图;图6为本申请实施例中一种媒体信息分类方法的流程图;图7为本申请实施例中一种训练图片分类模型的方法的流程图;图8为本申请实施例中采用迁移学习方式进行特征迁移的原理示意图;图9为本申请实施例中一种训练图片分类模型的方法以及媒体信息分类方法的应用场景示意图;图10为本申请实施例中一种媒体信息分类装置的结构示意图;图11为本申请实施例中一种媒体信息分类装置的结构示意图;图12为本申请实施例中一种媒体信息分类装置的结构示意图;图13为本申请实施例中一种训练图片分类模型的装置的结构示意图;图14为本申请实施例中一种训练图片分类模型的装置的结构示意图;图15为本申请实施例中一种媒体信息分类设备的结构示意图;图16为本申请实施例中一种训练图片分类模型的设备的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果本文档来自技高网
...

【技术保护点】
1.一种媒体信息分类方法,其特征在于,包括:/n获取待分类媒体信息,所述媒体信息包括文本信息和图片信息;/n确定所述文本信息所携带的信息量;/n若所述信息量小于阈值,将所述待分类媒体信息输入图片分类模型,获取所述图片分类模型输出的所述待分类媒体信息的类别标签,作为第一类别标签;所述图片分类模型用于根据媒体信息中的图片信息生成图片特征向量,并根据所述图片特征向量分类得到所述媒体信息的类别标签;/n根据所述第一类别标签确定所述待分类媒体信息所属的类别。/n

【技术特征摘要】
1.一种媒体信息分类方法,其特征在于,包括:
获取待分类媒体信息,所述媒体信息包括文本信息和图片信息;
确定所述文本信息所携带的信息量;
若所述信息量小于阈值,将所述待分类媒体信息输入图片分类模型,获取所述图片分类模型输出的所述待分类媒体信息的类别标签,作为第一类别标签;所述图片分类模型用于根据媒体信息中的图片信息生成图片特征向量,并根据所述图片特征向量分类得到所述媒体信息的类别标签;
根据所述第一类别标签确定所述待分类媒体信息所属的类别。


2.根据权利要求1所述的方法,其特征在于,通过所述待分类媒体信息的文图比表示所述信息量,所述确定所述文本信息所携带的信息量,包括:
计算所述待分类媒体信息的文图比;
若所述文图比小于文图比阈值,则执行所述将所述待分类媒体信息输入图片分类模型的步骤。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述文图比大于或者等于文图比阈值,则将所述待分类媒体信息输入文本分类模型,获取所述文本分类模型输出的所述待分类媒体信息的类别标签,作为第二类别标签;
根据所述第二类别标签确定所述待分类媒体信息所属的类别。


4.根据权利要求2或3所述的方法,其特征在于,所述计算所述待分类媒体信息的文图比。包括:
通过所述待分类媒体信息中文本的数量和所述待分类媒体信息中图片的数量确定所述文图比;或者,
通过所述待分类媒体信息中文本的占用面积和所述待分类媒体信息中图片的占用面积确定所述文图比。


5.根据权利要求1所述的方法,其特征在于,通过所述待分类媒体信息中文本的数量表示所述信息量,所述确定所述文本信息所携带的信息量,包括:
统计所述待分类媒体信息中文本的数量;
若所述待分类媒体信息中文本的数量小于文本数量阈值时,则执行所述将所述待分类媒体信息输入图片分类模型步骤。


6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述待分类媒体信息中文本的数量大于或者等于文本数量阈值时,则将所述待分类媒体信息输入文本分类模型,获取所述文本分类模型输出的所述待分类媒体信息的类别标签,作为第二类别标签;所述文本分类模型用于根据媒体信息中的文本信息...

【专利技术属性】
技术研发人员:柴子峰王煦祥陈涛
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1