一种资讯的言据自证评分方法、设备和存储介质技术

技术编号:20745602 阅读:37 留言:0更新日期:2019-04-03 10:28
本发明专利技术公开了一种资讯的言据自证评分方法、设备和存储介质。该方法包括:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据语义相似度矩阵,构建语义网络;在语义网络的中心节点对应的资讯中,提取关键词和主题,作为资讯库的关键词和主题;对资讯库的关键词和主题进行深度语义向量编码;分别计算资讯库中每个资讯的深度语义向量和资讯库的深度语义向量之间的相似度,作为资讯库中每个资讯的言据自证评分。本发明专利技术依靠待评价资讯自身提供的证据来评价资讯的可靠性,可以有效降低资讯可靠性识别的人力成本,提高资讯可靠性识别的准确性。

【技术实现步骤摘要】
一种资讯的言据自证评分方法、设备和存储介质
本专利技术涉及数据挖掘和推荐系统
,尤其涉及一种资讯的言据自证评分方法、设备和存储介质。
技术介绍
传统的信息获取方式往往是主动的,比如用户主动浏览门户网站获取最新的新闻资讯,或者通过搜索引擎主动搜索自己感兴趣的资讯。近年来,随着计算机网络和人工智能技术的发展,人们获取信息的方式发生了较大的转变,各种瀑布流信息、智能推送的资讯直接展示在用户眼前,用户在很多时候是被动地接受这些资讯的。在信息获取方式从主动转变到被动的过程中,除了技术的良性发展之外,也伴随着信息爆炸和资讯泛滥,一些虚假资讯甚至谣言快速传播,使得正面资讯(如健康类资讯)受到负面资讯的负面影响。在谣言识别项目中,重点关注对资讯内容的分析,通过专业人员的检验或网络众包学习,识别资讯中夸大的、不合理的内容,从而推断资讯是否是为谣言。但是无论是依赖专业人员的检验还是网络众包学习都具有较大的局限性,都需要消耗大量的人力成本。由于目前没有高效的谣言识别方法,所以实际上网络众包学习已经成为各个辟谣平台的唯一选择。网络众包学习依赖互联网社交参与度,发挥群策群力的优势,共同标记识别谣言内容,通过统计标记来判断资讯的可靠性,但是网络众包学习对于网络人员的素质和互联网社交参与度要求较高,不适合在网络环境下对大量资讯进行识别。随着深度学习技术的广泛应用,研究者开始考虑使用深度学习模型来识别谣言,其基本思路仍然是从资讯本身的内容入手,通过对谣言和非谣言的样本进行大量的标注,通过深度学习网络构建出能够区分二者的分类器,从而直接对资讯内容的可靠性进行判断。但是深度学习模型存在以下问题:一、深度学习模型虽然在图像视频领域取得了很好的效果,但在自然语言领域,尤其是在一般人无法做出辨别的资讯评价领域上,难以找到合适的深度学习模型来满足实际要求;二、深度学习模型的可解释性有待进一步深入研究,在实际应用中深度学习模型输出结果是通过大量复杂计算得到的,最终的结果往往不易控制,也无法通过证据直接验证输出结果的好坏。
技术实现思路
本专利技术的主要目的在于提供一种资讯的言据自证评分方法、设备和存储介质,以解决现有的资讯的可靠性识别方法人力成本高且准确性低。针对上述技术问题,本专利技术是通过以下技术方案来解决的:本专利技术提供了一种资讯的言据自证评分方法,包括:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;在所述语义网络的中心节点对应的资讯中,提取关键词和主题,作为所述资讯库的关键词和主题;对所述资讯库的关键词和主题进行深度语义向量编码;分别计算所述资讯库中每个资讯的深度语义向量和所述资讯库的深度语义向量之间的相似度,作为所述资讯库中每个资讯的言据自证评分。其中,所述对资讯库中的所有资讯分别进行深度语义向量编码,包括:在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。其中,所述根据所述语义相似度矩阵,构建语义网络,包括:对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。其中,根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图,包括:根据所述稀疏语义相似度矩阵,构建带权无向简单图;确定所述带权无向简单图中包含的多个不连通子图;在所述语义相似度矩阵中查询各个不连通子图之间的节点对的相似度;在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图。其中,所述方法还包括:根据所述资讯库中每个资讯的言据自证评分,得到所述资讯库的可靠性评分。本专利技术还提供了一种资讯的言据自证评分设备,所述资讯的言据自证评分设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;在所述语义网络的中心节点对应的资讯中,提取关键词和主题,作为所述资讯库的关键词和主题;对所述资讯库的关键词和主题进行深度语义向量编码;分别计算所述资讯库中每个资讯的深度语义向量和所述资讯库的深度语义向量之间的相似度,作为所述资讯库中每个资讯的言据自证评分。其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。其中,所述处理器还用于执行存储器中存储的计算机程序,以实现以下步骤:根据所述资讯库中每个资讯的言据自证评分,得到所述资讯库的可靠性评分。本专利技术又提供了一种存储介质,所述存储介质上存储有资讯的言据自证评分程序,所述资讯的言据自证评分程序被处理器执行时实现上述的资讯的言据自证评分方法的步骤。本专利技术有益效果如下:本专利技术的立足点在于评价资讯中观点的可靠性,在评价过程中,依靠待评价资讯自身提供的证据来评价资讯的可靠性,对资讯进行深度语言向量编码,通过计算资讯两两之间的相似度,构建语义网络,进而可以计算出每个资讯的言据自证评分,可以有效降低资讯可靠性识别的人力成本,提高资讯可靠性识别的准确性。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例一的资讯的言据自证评分方法的流程图;图2是根据本专利技术实施例二的深度语义向量编码的步骤流程图;图3是根据本专利技术实施例三的语义网络构建的步骤流程图;图4是根据本专利技术实施例四的资讯的言据自证评分设备的结构图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本专利技术作进一步地详细说明。实施例一根据本专利技术的实施例一,提供了一种资讯的言据自证评分方法。如图1所示,为根据本专利技术实施例一的资讯的言据自证评分方法的流程图。步骤S110,对资讯库中的所有资讯分别进行深度语义向量编码。深度语义向量编码是指通过深度学习技术提取资讯在语义上下文空间的向量表示。通过深度学习技术,描述词在词所在本文档来自技高网
...

【技术保护点】
1.一种资讯的言据自证评分方法,其特征在于,包括:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;在所述语义网络的中心节点对应的资讯中,提取关键词和主题,作为所述资讯库的关键词和主题;对所述资讯库的关键词和主题进行深度语义向量编码;分别计算所述资讯库中每个资讯的深度语义向量和所述资讯库的深度语义向量之间的相似度,作为所述资讯库中每个资讯的言据自证评分。

【技术特征摘要】
1.一种资讯的言据自证评分方法,其特征在于,包括:对资讯库中的所有资讯分别进行深度语义向量编码;根据每个所述资讯的深度语义向量,计算所有资讯两两之间的相似度,得到语义相似度矩阵;根据所述语义相似度矩阵,构建语义网络;在所述语义网络的中心节点对应的资讯中,提取关键词和主题,作为所述资讯库的关键词和主题;对所述资讯库的关键词和主题进行深度语义向量编码;分别计算所述资讯库中每个资讯的深度语义向量和所述资讯库的深度语义向量之间的相似度,作为所述资讯库中每个资讯的言据自证评分。2.根据权利要求1所述的方法,其特征在于,所述对资讯库中的所有资讯分别进行深度语义向量编码,包括:在预设网站中抓取常用词,并将所述常用词添加到预设的分词工具中;利用所述分词工具,对所述资讯库中的所有资讯分别进行分词处理,得到多个分词;根据预设的分布式词向量表示方法,使用所述多个分词训练预设的分布式词向量模型,得到每个所述分词对应的分布式词向量;根据每个所述分词对应的分布式词向量,对所述资讯库中的每个资讯进行深度语义向量编码。3.根据权利要求1所述的方法,其特征在于,所述根据所述语义相似度矩阵,构建语义网络,包括:对所述语义相似度矩阵进行主成分分析,构建稀疏语义相似度矩阵;根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图作为语义网络。4.根据权利要求3所述的方法,其特征在于,根据所述语义相似度矩阵和所述稀疏语义相似度矩阵,构建单连通的带权无向简单图,包括:根据所述稀疏语义相似度矩阵,构建带权无向简单图;确定所述带权无向简单图中包含的多个不连通子图;在所述语义相似度矩阵中查询各个不连通子图之间的节点对的相似度;在所述带权无向简单图中,连接相似度最大的节点对,使用最大的所述相似度作为所述连接的权重,构成单连通的带权无向简单图。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述资讯库中每个资讯的言据自证评分,得到所述资讯库的可靠性评...

【专利技术属性】
技术研发人员:罗冠游强胡卫明
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1