基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法技术方案

技术编号:21952513 阅读:41 留言:0更新日期:2019-08-24 17:44
本发明专利技术揭示了一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法。系统包括新闻报道采集模块、文本事件树构建模块、图片实体抽取模块、关联关系库构建模块、待测信息读取模块、图文关系判断模块以及最大似然判断模块。方法包括新闻报道采集步骤、文本事件树构建步骤、图片实体抽取步骤、关联关系库构建步骤、待测信息读取步骤、图文关系判断步骤以及最大似然判断步骤。本发明专利技术能够让用户迅速地判断出新闻内容中图文的一致性,帮助用户筛选掉一批不实的新闻报道和一群不负责任的新闻媒体。本发明专利技术不仅有效地提高了鉴别操作的效率,同时也充分地保证了鉴别结果的准确性。

News Content Image-Text Discrepancy Identification System and Method Based on Semantic Content Summary

【技术实现步骤摘要】
基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法
本专利技术涉及一种鉴别系统及鉴别方法,具体涉及一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法,属于新闻媒体智能领域。
技术介绍
随着互联网的日益普及、媒体行业的不断发展,现如今,各类媒体平台的数量与日俱增,诸多自媒体也不断涌现。与这样的行业发展现状相对应的是,为了吸引更多的关注度与点击量,很多媒体人一味地追求新闻报道地时效性、而忽视了新闻报道中最根本的准确性。很多媒体人在进行新闻报道时,不是去现场采集第一手的新闻资料,而是直接对网络上已有的报道进行统合,直接盗用他人的图片,插入的图片和报道事件毫无关联,甚至在很多新闻中,图片中人物的都不是报道内容主题人物。在传统方式中,对于新闻内容图文不符的鉴别需要以人工的方式来完成,即人为地对所报道新闻的文本内容与图片内容搜集大量相关资料,进行全面分析、匹配鉴别,毫无疑问,这样的操作需要耗费大量的时间和人力,并且无法保证鉴别结果的有效性。语义内容摘要指的是对文本、图片以及其他语言载体中的内容所进行的简明而核心的梗概,它可以帮助用户迅速了解内容中的关键部分,是当前信息爆炸时代的重要工具之一。可以预见,如果将语义内容摘要技术应用于新闻报道中,那么就能够迅速地判断出新闻本文内容与图片内容的主题,进而对其的图文一致性进行判断。综上所述,如何在现有技术的基础上提出基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法,以解决目前人工鉴别导致效率低下、正确率不高的问题,也就成为了本领域内技术人员共同的研究目标。
技术实现思路
鉴于现有技术存在上述缺陷,本专利技术的目的是提出一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法。一种基于语义内容摘要的新闻内容图文不符鉴别系统,包括:新闻报道采集模块,用于采集原创性历史新闻事件,筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中;文本事件树构建模块,用于构建新闻报道文本内容语义的事件树;图片实体抽取模块,用于识别出与新闻报道图片内容相关度最高的实体;关联关系库构建模块,用于在历史新闻报道数据库中查找是否有图片中实体存在的标签,若存在则直接将实体关联到对应的文本事件树中的实体;待测信息读取模块,用于读取待检测的含有图片的新闻报道;图文关系判断模块,用于计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内,若是则输出图文相符,若否则启动最大似然判断模块;最大似然判断模块,用于求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然,若最大似然高于阈值,则输出图文相符,若最大似然小于阈值,则输出图文不符。优选地,所述文本事件树构建模块包括:文本实体抽取子模块、文本关系抽取子模块以及文本事件树生成子模块;所述文本实体抽取子模块具体包括,文本实体抽取第一单元,从历史新闻报道数据库中读取文本信息,文本实体抽取第二单元,对于读取的文本信息,使用符号将其划分成若干短句,来表示这些句子的开始和结束,文本实体抽取第三单元,对于划分好的文本信息,使用命名实体识别模型进行实体的抽取,文本实体抽取第四单元,对抽取出来的实体进行权重的判断,若抽取出的实体权重值大于等于预设值,则保留抽取出的实体,若抽取出的实体的权重值小于预设值,则不保留抽取出的实体;所述文本关系抽取子模块具体包括,文本关系抽取第一单元,判断一句话中是否包含两个以上的实体,若是则执行文本关系抽取第二单元,若否则跳过后续单元,直接执行文本关系抽取第五单元,文本关系抽取第二单元,对于每一个划分出来的句子,对句子中的每个单词进行词性的标注,文本关系抽取第三单元,通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取,划分出句子的依存关系,文本关系抽取第四单元,对于生成的依存树,通过对其进行剪枝,抽取出每一个句子的主谓宾三元组关系,文本关系抽取第五单元,忽略该句子,不做关系抽取处理;所述文本事件树生成子模块具体包括,文本事件树生成第一单元,读取数组形式的三元组文本信息,文本事件树生成第二单元,通过树库形成树形结构,文本事件树生成第三单元,将生成的事件树通过递归的方式将树的节点内容存入到数据库中,需要使用时直接读取树形结构数据。优选地,所述图片实体抽取模块具体包括:图片实体抽取第一单元,从历史新闻报道数据库中读取图片信息,图片实体抽取第二单元,使用图像目标检测模型识别图片中的多个实体,图片实体抽取第三单元,筛选对系统有用的实体,将图片实体的出现频率和置信概率作为其权重,若抽取出的实体的权重值大于等于预设值,则保留抽取出的实体,若抽取出的实体的权重值小于预设值,则不保留抽取出的实体。一种基于语义内容摘要的新闻内容图文不符鉴别方法,包括如下步骤:S1、新闻报道采集步骤,采集原创性历史新闻事件,筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中;S2、文本事件树构建步骤,构建新闻报道文本内容语义的事件树;S3、图片实体抽取步骤,识别出与新闻报道图片内容相关度最高的实体;S4、关联关系库构建步骤,在历史新闻报道数据库中查找是否有图片中实体存在的标签,若存在则直接将实体关联到对应的文本事件树中的实体;S5、待测信息读取步骤,读取待检测的含有图片的新闻报道;S6、图文关系判断步骤,计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内,若是则输出图文相符,若否则进入最大似然判断步骤;S7、最大似然判断步骤,求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然,若最大似然高于阈值,则输出图文相符,若最大似然小于阈值,则输出图文不符。优选地,S2所述文本事件树构建步骤包括:S21、文本实体抽取子步骤,具体包括,S211、文本实体抽取第一步骤,从历史新闻报道数据库中读取文本信息,S212、文本实体抽取第二步骤,对于读取的文本信息,使用符号将其划分成若干短句,来表示这些句子的开始和结束,S213、文本实体抽取第三步骤,对于划分好的文本信息,使用命名实体识别模型进行实体的抽取,S214、文本实体抽取第四步骤,对抽取出来的实体进行权重的判断,若抽取出的实体权重值大于等于预设值,则保留抽取出的实体,若抽取出的实体的权重值小于预设值,则不保留抽取出的实体;S22、所述文本关系抽取子步骤,具体包括,S221、文本关系抽取第一步骤,判断一句话中是否包含两个以上的实体,若是则执行文本关系抽取第二步骤,若否则跳过后续步骤,直接执行文本关系抽取第五步骤,S222、文本关系抽取第二步骤,对于每一个划分出来的句子,对句子中的每个单词进行词性的标注,S223、文本关系抽取第三步骤,通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取,划分出句子的依存关系,S224、文本关系抽取第四步骤,对于生成的依存树,通过对其进行剪枝,抽取出每一个句子的主谓宾三元组关系,S225、文本关系抽取第五步骤,忽略该句子,不做关系抽取处理;S23、文本事件树生成子步骤,具体包括,S231、文本事件树生成第一步骤,读取数组形式的三元组文本信息,S232、文本事件树生成第二步骤,通过树库形成树形结构,S233、文本事件树生成第三步骤,将生成的事件树通过递归的方式将树的节点内容存入到数据库中,需要使用时直接本文档来自技高网...

【技术保护点】
1.一种基于语义内容摘要的新闻内容图文不符鉴别系统,其特征在于,包括:新闻报道采集模块,用于采集原创性历史新闻事件,筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中;文本事件树构建模块,用于构建新闻报道文本内容语义的事件树;图片实体抽取模块,用于识别出与新闻报道图片内容相关度最高的实体;关联关系库构建模块,用于在历史新闻报道数据库中查找是否有图片中实体存在的标签,若存在则直接将实体关联到对应的文本事件树中的实体;待测信息读取模块,用于读取待检测的含有图片的新闻报道;图文关系判断模块,用于计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内,若是则输出图文相符,若否则启动最大似然判断模块;最大似然判断模块,用于求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然,若最大似然高于阈值,则输出图文相符,若最大似然小于阈值,则输出图文不符。

【技术特征摘要】
1.一种基于语义内容摘要的新闻内容图文不符鉴别系统,其特征在于,包括:新闻报道采集模块,用于采集原创性历史新闻事件,筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中;文本事件树构建模块,用于构建新闻报道文本内容语义的事件树;图片实体抽取模块,用于识别出与新闻报道图片内容相关度最高的实体;关联关系库构建模块,用于在历史新闻报道数据库中查找是否有图片中实体存在的标签,若存在则直接将实体关联到对应的文本事件树中的实体;待测信息读取模块,用于读取待检测的含有图片的新闻报道;图文关系判断模块,用于计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内,若是则输出图文相符,若否则启动最大似然判断模块;最大似然判断模块,用于求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然,若最大似然高于阈值,则输出图文相符,若最大似然小于阈值,则输出图文不符。2.根据权利要求1所述的基于语义内容摘要的新闻内容图文不符鉴别系统,其特征在于,所述文本事件树构建模块包括:文本实体抽取子模块、文本关系抽取子模块以及文本事件树生成子模块;所述文本实体抽取子模块具体包括,文本实体抽取第一单元,从历史新闻报道数据库中读取文本信息,文本实体抽取第二单元,对于读取的文本信息,使用符号将其划分成若干短句,来表示这些句子的开始和结束,文本实体抽取第三单元,对于划分好的文本信息,使用命名实体识别模型进行实体的抽取,文本实体抽取第四单元,对抽取出来的实体进行权重的判断,若抽取出的实体权重值大于等于预设值,则保留抽取出的实体,若抽取出的实体的权重值小于预设值,则不保留抽取出的实体;所述文本关系抽取子模块具体包括,文本关系抽取第一单元,判断一句话中是否包含两个以上的实体,若是则执行文本关系抽取第二单元,若否则跳过后续单元,直接执行文本关系抽取第五单元,文本关系抽取第二单元,对于每一个划分出来的句子,对句子中的每个单词进行词性的标注,文本关系抽取第三单元,通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取,划分出句子的依存关系,文本关系抽取第四单元,对于生成的依存树,通过对其进行剪枝,抽取出每一个句子的主谓宾三元组关系,文本关系抽取第五单元,忽略该句子,不做关系抽取处理;所述文本事件树生成子模块具体包括,文本事件树生成第一单元,读取数组形式的三元组文本信息,文本事件树生成第二单元,通过树库形成树形结构,文本事件树生成第三单元,将生成的事件树通过递归的方式将树的节点内容存入到数据库中,需要使用时直接读取树形结构数据。3.根据权利要求1所述的基于语义内容摘要的新闻内容图文不符鉴别系统,其特征在于,所述图片实体抽取模块具体包括:图片实体抽取第一单元,从历史新闻报道数据库中读取图片信息,图片实体抽取第二单元,使用图像目标检测模型识别图片中的多个实体,图片实体抽取第三单元,筛选对系统有用的实体,将图片实体的出现频率和置信概率作为其权重,若抽取出的实体的权重值大于等于预设值,则保留抽取出的实体,若抽取出的实体的权重值小于预设值,则不保留抽取出的实体。4.一种基于语义内容摘要的新闻内容图文不符鉴别方法,其特征在于,包...

【专利技术属性】
技术研发人员:李华康孙晓雨朱明李群孔令军孙国梓
申请(专利权)人:南京邮电大学南京邮电大学盐城大数据研究院有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1