一种图像过滤方法技术

技术编号：20485126 阅读：22 留言：0更新日期：2019-03-02 19:04

本申请提供一种图像过滤方法，所述方法包括根据待过滤新闻的标题关键词和主题提取待过滤新闻对应的标签；识别所述待过滤新闻的图像对应的实体；根据所述实体与所述标签的相关性，去除所述待过滤新闻中相关性低于预设阈值的图像。采用本申请提供的技术方案，可以自动滤除新闻中与文字内容无关的图像，以提升新闻的可靠性和有效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种图像过滤方法
本申请涉及网络
，尤其涉及一种图像过滤方法。
技术介绍
随着新闻事业和互联网的快速发展，新闻信息的表现形式和发布渠道日趋多样化，新闻的抓取和推送功能得到了广泛引用。但是，新闻信息来源来自于不同领域，如何保证信息来源的可靠性和有效性是当前信息研究和报送业务面临的主要问题之一。其中，主要涉及图文一致性，例如，如果抓取的新闻中，文字内容和图像内容不相关，这会大大影响新闻的有效性，并使用户怀疑该条新闻的可靠性。
技术实现思路
本申请的多个方面提供一种图像过滤方法，用以减少新闻中图文不一致的问题。本申请的一方面，提供一种图像过滤方法，包括：根据待过滤新闻的标题关键词和主题提取待过滤新闻对应的标签；识别所述待过滤新闻的图像对应的实体；根据所述实体与所述标签的相关性，去除所述待过滤新闻中相关性低于预设阈值的图像。本申请的另一方面，提供一种设备，其特征在于，所述设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一上述的方法。本申请的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现任一上述的方法。由所述技术方案可知，采用本实施例提供的技术方案，可以自动滤除新闻中与文字内容无关的图像，以提升新闻的可靠性和有效性。【附图说明】为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付...

【技术保护点】
1.一种图像过滤方法，其特征在于，包括：根据待过滤新闻的标题关键词和主题提取待过滤新闻对应的标签；识别所述待过滤新闻的图像对应的实体；根据所述实体与所述标签的相关性，去除所述待过滤新闻中相关性低于预设阈值的图像。

【技术特征摘要】
1.一种图像过滤方法，其特征在于，包括：根据待过滤新闻的标题关键词和主题提取待过滤新闻对应的标签；识别所述待过滤新闻的图像对应的实体；根据所述实体与所述标签的相关性，去除所述待过滤新闻中相关性低于预设阈值的图像。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述待过滤新闻进行预处理，去除不包括图像的待过滤新闻。3.根据权利要求1所述的方法，其特征在于，根据待过滤新闻的标题关键词和主题提取待过滤新闻对应的标签包括：对所述待过滤新闻进行分割，得到所述待过滤新闻的标题及正文；对所述标题进行关键词提取，对所述正文进行主题生成；根据所述关键词和所述主题获取所述待过滤新闻对应的标签。4.根据权利要求3所述的方法，其特征在于，对所述标题进行关键词提取包括：对所述标题进行分词，根据分词结果进行关键词提取及权重计算。5.根据权利要求3所述的方法，其特征在于，对所述正文进行主题生成包括：基于预先训练的LDA主题模型，计算所述正文的主题。6.根据权利要求3所述的方法，其特征在于，根据所述关键词...

【专利技术属性】
技术研发人员：陈盛福，陈晓磊，
申请(专利权)人：上海掌门科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人