一种基于深度学习的网络新闻配图匹配性检测方法技术

技术编号：21361598 阅读：29 留言：0更新日期：2019-06-15 09:22

本发明专利技术提供一种基于深度学习的网络新闻配图匹配性检测方法，该方法包括基于深度学习的新闻配图多描述生成；以及生成新闻配图描述的文字内容与新闻文字内容进行对比评分；对于生成新闻配图描述部分，采用卷积神经网络对新闻配图特征的提取，然后利用自然语言模型生成新闻配图的相关描述；对于评分体系部分，由于生成的图片描述和新闻文字内容长度和表达方式上的差异性，本发明专利技术提出解决方案，与改进的BLEU算法形成评分体系。评分体系对生成的图片描述和新闻文字内容进行对比评分，通过评分来判断图片与新闻内容是否相符。因此，可以更快速、更准确地发现图文不符的虚假信息，减少人工审核的时间，节省人力物力，净化网络环境。

A Matching Detection Method for Web News Mapping Based on Deep Learning

The invention provides a matching detection method for network news matching based on in-depth learning, which includes multi-description generation of news matching based on in-depth learning, comparison and scoring between text content of news matching description and news text content, extraction of features of news matching using convolutional neural network for generating news matching description, and then self-evaluation. However, the language model generates relevant descriptions of news maps; for the scoring system part, due to the differences in the length and expression of the generated pictures and news text content, the present invention proposes a solution and forms a scoring system with the improved BLEU algorithm. The scoring system compares the generated picture description with the news text content, and judges whether the picture matches the news content by scoring. Therefore, we can find out the false information which is not consistent with the image and text more quickly and accurately, reduce the time of manual audit, save manpower and material resources, and purify the network environment.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的网络新闻配图匹配性检测方法
本专利技术属于信息检测
，涉及虚假信息检测，特别涉及一种基于深度学习的网络新闻配图匹配性检测方法。
技术介绍
以互联网为代表的数字技术与当今社会各领域深度融合、以智能手机为代表的移动设备大规模普及为手机新闻客户端的诞生和发展奠定了坚实基础。而大量新闻网站以及手机客户端为了吸引阅读量编辑了大量垃圾新闻，如标题党，图文不匹配等，从而导致虚假信息泛滥，误导群众思想。图文不匹配属于虚假信息范畴，目前采用人工举报审核制度来降低网站图文不匹配文章的占有率。各大网站比如百度云的图像审核，网易的易盾图像检测，检测方向也仅仅基于违法图片检测，并不涉及图文是否相关方向。就检测图文不匹配而言，目前已有的专利技术主要利用各大网站识图技术生成关键词，然后在文章里搜索生成的关键词，其没有对图片进行完整描述，导致准确率极低。
技术实现思路
为了克服上述现有技术的缺点，本专利技术的目的在于提供一种基于深度学习的网络新闻配图匹配性检测方法，通过深度学习技术对新闻配图生成描述，然后与新闻文字内容进行比对，来判断插图与新闻文字内容是否相符，从而解决虚假信息中图文不匹配的情况，去除虚假信息，有效净化网络环境。为了实现上述目的，本专利技术采用的技术方案是：一种基于深度学习的网络新闻配图匹配性检测方法，包括如下步骤：步骤1，提取新闻网页上的配图与文字内容，将提取的文字内容形成规范文档；步骤2，将提取的图片输入到神经网络模型中，对图片进行物体识别和场景识别，然后利用自然语言模型对图片中所有物体和场景生成若干相应的描述；步骤3，利用BLEU算法将生成的图片...

【技术保护点】
1.一种基于深度学习的网络新闻配图匹配性检测方法，其特征在于，包括如下步骤：步骤1，提取新闻网页上的配图与文字内容，将提取的文字内容形成规范文档；步骤2，将提取的图片输入到神经网络模型中，对图片进行物体识别和场景识别，然后利用自然语言模型对图片中所有物体和场景生成若干相应的描述；步骤3，利用BLEU算法将生成的图片的多描述与新闻的文字内容进行比对，从而判断是否图片与新闻内容匹配。

【技术特征摘要】
1.一种基于深度学习的网络新闻配图匹配性检测方法，其特征在于，包括如下步骤：步骤1，提取新闻网页上的配图与文字内容，将提取的文字内容形成规范文档；步骤2，将提取的图片输入到神经网络模型中，对图片进行物体识别和场景识别，然后利用自然语言模型对图片中所有物体和场景生成若干相应的描述；步骤3，利用BLEU算法将生成的图片的多描述与新闻的文字内容进行比对，从而判断是否图片与新闻内容匹配。2.根据权利要求1所述基于深度学习的网络新闻配图匹配性检测方法，其特征在于，步骤1中的规范文档指的是符合语言规范的单句。3.根据权利要求1所述基于深度学习的网络新闻配图匹配性检测方法，其特征在于，所述神经网络模型包括一个卷积神经网络，一个密集定位层，一个识别网络层以及一个自然语言模型，其物体识别和场景识别过程如下：步骤2.1，将提取的图片输入到卷积神经网络进行特征提取并生成特征矩阵；步骤2.2，将卷积神经网络提取的特征矩阵再输入到密集定位层基于多目标识别技术对图片中的区域进行识别预测，生成初步的识别区域称为候选区域，数量为B；步骤2.3，将候选区域传输到识别网络层，将来自密集定位层的每个候选区域的特征变换为一个向量，并将其传送至识别网络的两个全连接层，对每一个候选区域生成一个长度统一的一维向量，将所有一维向量存储起来，组合成一个矩阵；步骤2.4，将得到的矩阵输入到基于LSTM的语言模型中，最终生成关于图片每一部分的具体描述。4.根据权利要求3所述基于深度学习的网络新闻配图匹配性检测方法，其特征在于，所述步骤2.2中，密集定位层收到所述特征矩阵，识别候选区域并且从每一个区域平滑地提取一个固定尺寸的表示，然后采用边界回归方法，利用FastR-CNN的参数得到锚点到候选区域的回归，即利用锚点的中心坐标和候选区域的长宽，以及预测出的四个标量来计算候选区域的中心和长宽，接着对候选区域进行二次抽样以减小代价，得到具有不同大小和宽高比的矩形框形式的候选区域，最后采用双线性插值法，从不同大小尺寸的候选区域中提取出固定尺寸的特征表示。5.根据权利要求4所述基于深度学习的网络新闻配图匹配性检测方法，其特征在于，所述步骤2.2中，借助一系列具有平移不变性的锚点(anchors)来识别候选区域的位置和大小，具体方法是：对于大小为W'×H'的特征向量来说，将图谱中的每一个像素点都做为一个锚点(anchor)，锚点数量为W'×H'个，将该点反向映射回原始图像W*H中，然后基于该锚点，画出不同宽高比和大小的若干个“锚框”(anchorbox)，该“锚框”即候选区域，其具有固定尺寸的表示。6.根据权利...

【专利技术属性】
技术研发人员：云静，尚俊峰，刘利民，许志伟，
申请(专利权)人：内蒙古工业大学，
类型：发明
国别省市：内蒙古,15

全部详细技术资料下载我是这个专利的主人