媒体信息分类方法及装置制造方法及图纸

技术编号：24997397 阅读：42 留言：0更新日期：2020-07-24 17:59

本申请公开了一种媒体信息分类方法，包括获取待分类媒体信息，确定所述文本信息所携带的信息量；若所述信息量小于阈值，将该待分类媒体信息输入图片分类模型，获取图片分类模型输出的待分类媒体信息的类别标签，作为第一类别标签，根据该第一类别标签确定待分类媒体信息的类别。图片分类模型主要是通过神经网络学习待分类媒体信息中的图片信息生成图片特征向量，根据图片特征向量对媒体信息进行分类，因此，针对多图少文的待分类媒体信息能够提高分类准确率。本申请还公开了一种媒体信息分类装置、媒体信息分类设备以及计算机存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
媒体信息分类方法及装置本申请对申请号为201811076275.8，申请日为2018年09月14日，专利技术名称为“媒体信息分类方法、训练图片分类模型的方法及装置”的中国专利申请提出分案申请。
本申请涉及内容识别
，尤其涉及一种媒体信息分类方法、装置、设备以及计算机存储介质。
技术介绍
随着信息行业和互联网的发展，媒体信息的表现形式也从传统的以文字信息为主，逐渐地转变成以图文并茂，甚至以图为主的形式。并且，随着媒体信息发文和流量的增加，给媒体运营方带来红利的同时，对媒体信息分类的质量也提出了更高的要求。然而，传统的媒体信息分类方法是将媒体信息分类问题归结为自然语言处理领域中的文本分类问题，以媒体信息为新闻为例，通过识别新闻中的字、词、句子等文本信息，实现对新闻分类的目的，其针对传统的以文字信息为主的新闻具有良好的分类效果；然而，在当前的新闻媒体时代，存在大量的图多字少的新闻，这类新闻在文本层面上通常仅包含标题或者少量正文信息，由于这类新闻的文本信息量非常少，因此，传统的新闻分类方法针对这类新闻无法无法发挥出好的分类效果，其分类准确率大打折扣。因此，基于当前的新媒体时代的发展需求，急需研发适用于新型媒体信息的分类方案。
技术实现思路
本申请实施例提供了一种媒体信息分类方法，使得能够基于图片分类模型对图多字少的媒体信息进行分类，并且具有较高的准确率。本申请还提供了训练图片分类模型的方法以及上述方法对应的装置、设备、计算机存储介质。有鉴于此，本申请一方面提供了一种媒...

【技术保护点】
1.一种媒体信息分类方法，其特征在于，包括：/n获取待分类媒体信息，所述媒体信息包括文本信息和图片信息；/n确定所述文本信息所携带的信息量；/n若所述信息量小于阈值，将所述待分类媒体信息输入图片分类模型，获取所述图片分类模型输出的所述待分类媒体信息的类别标签，作为第一类别标签；所述图片分类模型用于根据媒体信息中的图片信息生成图片特征向量，并根据所述图片特征向量分类得到所述媒体信息的类别标签；/n根据所述第一类别标签确定所述待分类媒体信息所属的类别。/n

【技术特征摘要】
1.一种媒体信息分类方法，其特征在于，包括：
获取待分类媒体信息，所述媒体信息包括文本信息和图片信息；
确定所述文本信息所携带的信息量；
若所述信息量小于阈值，将所述待分类媒体信息输入图片分类模型，获取所述图片分类模型输出的所述待分类媒体信息的类别标签，作为第一类别标签；所述图片分类模型用于根据媒体信息中的图片信息生成图片特征向量，并根据所述图片特征向量分类得到所述媒体信息的类别标签；
根据所述第一类别标签确定所述待分类媒体信息所属的类别。

2.根据权利要求1所述的方法，其特征在于，通过所述待分类媒体信息的文图比表示所述信息量，所述确定所述文本信息所携带的信息量，包括：
计算所述待分类媒体信息的文图比；
若所述文图比小于文图比阈值，则执行所述将所述待分类媒体信息输入图片分类模型的步骤。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
若所述文图比大于或者等于文图比阈值，则将所述待分类媒体信息输入文本分类模型，获取所述文本分类模型输出的所述待分类媒体信息的类别标签，作为第二类别标签；
根据所述第二类别标签确定所述待分类媒体信息所属的类别。

4.根据权利要求2或3所述的方法，其特征在于，所述计算所述待分类媒体信息的文图比。包括：
通过所述待分类媒体信息中文本的数量和所述待分类媒体信息中图片的数量确定所述文图比；或者，
通过所述待分类媒体信息中文本的占用面积和所述待分类媒体信息中图片的占用面积确定所述文图比。

5.根据权利要求1所述的方法，其特征在于，通过所述待分类媒体信息中文本的数量表示所述信息量，所述确定所述文本信息所携带的信息量，包括：
统计所述待分类媒体信息中文本的数量；
若所述待分类媒体信息中文本的数量小于文本数量阈值时，则执行所述将所述待分类媒体信息输入图片分类模型步骤。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：
若所述待分类媒体信息中文本的数量大于或者等于文本数量阈值时，则将所述待分类媒体信息输入文本分类模型，获取所述文本分类模型输出的所述待分类媒体信息的类别标签，作为第二类别标签；所述文本分类模型用于根据媒体信息中的文本信息...

【专利技术属性】
技术研发人员：柴子峰，王煦祥，陈涛，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人