一种可用于网络信息检测的语义相似度学习方法技术

技术编号:21914681 阅读:26 留言:0更新日期:2019-08-21 12:38
本发明专利技术涉及一种可用于网络信息检测的语义相似度学习方法,对于文本数据,包括:步骤1、基于潜在狄利克雷分布模型对文本数据建模;步骤2、导出编码数据语义信息的特征映射来表征网络文本信息;步骤3、导出概率相似度函数,用于网络文本数据检测。对于图像数据,包括:步骤1、基于高斯混合模型对图像数据建模;步骤2、导出编码数据语义信息的特征映射来表征网络图像信息;步骤3、导出概率相似度函数,用于网络图像信息检测。本发明专利技术方法采用概率相似度函数区别于传统相似度函数之处在于,是网络信息数据、隐变量和产生式模型参数的函数,可以更好地适应数据分布。

A Semantic Similarity Learning Method for Network Information Detection

【技术实现步骤摘要】
一种可用于网络信息检测的语义相似度学习方法
本专利技术涉及一种可用于网络信息检测的语义相似度学习方法,可广泛应用于网络信息检测、识别、监测等领域。属于机器学习和网络信息处理领域。
技术介绍
随着互联网技术的快速发展,海量的数据在互联网上产生,如何快速准确地检测出感兴趣的网络信息成为近来的研究热点。相似度度量是网络信息检测中的重要关键技术之一,传统的方法常采用预先定义的相似度度量,如欧式距离、马氏距离和高斯核函数等来衡量网络信息之间的相似度。这类度量方式,没有考虑网络信息的数据分布,因此对数据的分布缺乏适应能力。为了更好地从网络数据中学习中高层语义信息,采用机器学习的方法学习相似度度量。概率相似度是其中一类基于机器学习获取相似度度量的方法,该类方法最近受到越来越多研究者的青睐。概率相似度的学习方法充分考虑了数据的概率分布,使用产生式概率模型对数据分布进行建模,并从该模型中导出显式的特征映射,基于特征映射定义概率相似度函数用于检测。导出的概率相似度函数是隐变量和模型参数的函数,而隐变量编码了数据内容相关的隐信息,这些信息在网络信息检测和识别中非常有效。基于此,本专利技术提出一种可用于网络信息检测的语义相似度的学习方法。
技术实现思路
本专利技术的目的在于针对现有方法的不足,提出一种可用于网络信息检测的语义相似度的学习方法,该方法从数据的概率分布出发,从网络数据中学习出编码了数据分布的概率相似度。本专利技术可应用于两种网络数据,文本和图像。对于文本数据,本专利技术一种可用于网络信息检测的语义相似度学习方法通过下述技术方案来实现。步骤1-1、基于潜在狄利克雷分布模型对文本数据建模。假设网络文本信息用词袋模型表示,令w={w1,…,wM}是文件,M是文件中单词的数目,是指示向量,表示所有V项的第j项被选做文件的第i个单词。令是主题的指示向量,表示所有K个主题的第k个主题被第i个单词选择。潜在狄利克雷分配模型按照下述过程生成每个文档:S11根据狄利克雷分布选择一个文件d=(d1,…dl),该分布的参数为η,可表示为如下形式:其中,η=(η1,…,ηl)是狄利克雷分布的参数,Γ是Gamma函数。S12对于M个单词中的每个单词wi,选择一个主题zi,该主题服从多项式分布,参数为d,可表示成如下形式:S13从条件多项式分布P(wi|zi,μ)中选择一个单词wi,该条件多项式分布参数为μ,可表示成如下形式:潜在狄利克雷分布的联合概率密度函数可以表示为如下形式:步骤1-2、导出编码数据语义信息的特征映射来表征网络文本信息。P(w,z,d|η,μ)的似然函数变分下界可以由下式给出:根据公式(5)的下界,可得FESS分数函数,即为变分下界的成分:完整的FESS特征映射是公式(6)成分的组合:步骤1-3、导出概率相似度函数,用于网络文本数据检测。有了公式(7)的特征映射,可将用于网络文本数据检测的相似度函数定义为如下形式:其中,ti和tj是不同的文本,是文本ti的特征映射,是文本tj的特征映射,W’是对角权值矩阵,对角线上的每个元素衡量了的相应维度对概率相似度的重要程度,也就是说,权值大的维度比权值小的维度重要。对于图像数据,本专利技术一种可用于网络信息检测的语义相似度学习方法通过下述技术方案来实现。步骤2-1、基于高斯混合模型对图像数据建模。设x∈R是表征图像的底层特征,可为颜色特征、纹理特征、SIFT特征等,其维度设为D。高斯混合模型GMMs(GaussianMixtureModels)是观测变量、隐变量和模型参数的函数,该模型采样过程如下:(1)随机选择一个混合中心;(2)从该混合中心对应的高斯分布中采样。该过程由m=(m1,…,mL)T指示,即:如果没选择第l个混合中心,则ml=0,否则ml=1。指示因子m服从以下多项式分布:其中,βl=EP(m)[ml],βl∈[0,1],关于m的条件概率分布可以表示为:其中,是混合中心对应的高斯分布的均值和方差,是整个模型的参数。高斯混合模型的概率密度函数可以表示为:步骤2-2、导出编码数据语义信息的特征映射来表征网络图像信息。似然函数P(x|θ)=ΣmP(x,m|θ)无法直接求解,采用变分期望最大化算法求解。该算法分为两个步骤,其一:关于后验分布在训练集上最大化似然函数,此为推断步骤;其二,关于模型参数在训练集上最大化似然函数,此为参数估计步骤。两个步骤在训练集上交替进行。假设Q(m)是m的后验分布的近似,可得:由推断步骤更新隐变量的后验,可得:由参数估计步骤更新高斯混合模型的参数,可得:其中,uk和是高斯混合模型的加权均值和方差,衡量样本xc对第k个混合中心的贡献程度。基于公式(11)的下界,可得Fisher分数函数:完整的Fisher特征映射是以上函数的组合:步骤2-3、导出概率相似度函数,用于网络图像信息检测归一化后的概率相似度函数可以定义为如下形式:其中,Ii和Ij是两幅不同的图像,Φi是图像Ii的特征映射,Φj是图像Ij的特征映射,W是对角权值矩阵,对角线上的每个元素衡量了Φ的相应维度对概率相似度的重要程度,也就是说,权值大的维度比权值小的维度重要。与现有方法相比,本专利技术的优越性体现在:采用概率产生式模型对网络数据建模,从该模型中学习出编码了网络数据语义内容的中高层特征,并基于该特征映射定义概率相似度函数。该概率相似度函数区别于传统相似度函数之处在于,是网络信息数据、隐变量和产生式模型参数的函数,可以更好地适应数据分布。附图说明图1基于语义相似度的网络图像信息检测方法流程图。图2基于语义相似度的网络文本信息检测方法流程图具体实施方式以下结合具体实施例和附图对本专利技术的技术方案做更详细的阐述,以下实施例以本专利技术技术方案为前提下进行实施,分别给出了图像数据(比文本的处理过程复杂)以及文本处理的详细实施方式和过程,但本专利技术的保护范围不限于下述的实施例。本专利技术的具体实施例(一):从在线照片共享平台Flickr上下载25000幅图片,其中,15000幅图片被用作训练集,剩余的10000幅图片用作测试集。从测试集中随机选取1000幅图片作为查询图像,剩余的24000幅图片作为图片集合。下面结合附图1对本专利技术的实施方式做更具体的说明,详述如下(使用VisualC++编程实现):1、图像底层特征提取。四种颜色SIFT特征被用来表示图像的底层特征,包括OpponentSIFT,C-SIFT,rgSIFT和RGB-SIFT,使用密集采样和Harris-Laplace点采样将四种颜色SIFT特征结合起来。2、使用高斯混合模型对网络图像数据建模。设x∈R是上述步骤提取出的图像的底层特征,其维度设为D。高斯混合模型GMMs(GaussianMixtureModels)是观测变量、隐变量和模型参数的函数,该模型采样过程如下:(1)随机选择一个混合中心;(2)从该混合中心对应的高斯分布中采样。该过程由m=(m1,…,mL)T指示,即:如果没选择第l个混合中心,则ml=0,否则ml=1。指示因子m服从以下多项式分布:其中,βl=EP(m)[ml],βl∈[0,1],高斯混合模型的概率密度函数可以表示为:其中,是混合中心对应的高斯分布的均值和方差,是整个模型的参数。3、基于高斯混合模型导出特征映射。假设Q(m)是m的后验本文档来自技高网...

【技术保护点】
1.一种可用于网络信息检测的语义相似度学习方法,可应用于文本和图像两种网络数据,其特征在于:其中对于文本数据,该方法具体包括如下步骤:步骤1、基于潜在狄利克雷分布模型对文本数据建模;步骤2、导出编码数据语义信息的特征映射来表征网络文本信息;步骤3、导出概率相似度函数,用于网络文本数据检测。

【技术特征摘要】
1.一种可用于网络信息检测的语义相似度学习方法,可应用于文本和图像两种网络数据,其特征在于:其中对于文本数据,该方法具体包括如下步骤:步骤1、基于潜在狄利克雷分布模型对文本数据建模;步骤2、导出编码数据语义信息的特征映射来表征网络文本信息;步骤3、导出概率相似度函数,用于网络文本数据检测。2.根据权利要求1所述的一种可用于网络信息检测的语义相似度学习方法,其特征在于:所述步骤1具体过程如下:假设网络文本信息用词袋模型表示,令w={w1,…,wM}是文件,M是文件中单词的数目,是指示向量,表示所有V项的第j项被选做文件的第i个单词;令是主题的指示向量,表示所有K个主题的第k个主题被第i个单词选择;潜在狄利克雷分配模型按照下述过程生成每个文档:S11、根据狄利克雷分布选择一个文件d=(d1,…dl),该分布的参数为η,可表示为如下形式:其中,η=(η1,…,ηl)是狄利克雷分布的参数,Γ是Gamma函数;S12、对于M个单词中的每个单词wi,选择一个主题zi,该主题服从多项式分布,参数为d,可表示成如下形式:S13、从条件多项式分布P(wi|zi,μ)中选择一个单词wi,该条件多项式分布参数为μ,可表示成如下形式:潜在狄利克雷分布的联合概率密度函数可以表示为如下形式:3.根据权利要求1所述的一种可用于网络信息检测的语义相似度学习方法,其特征在于:所述步骤2具体过程如下:P(w,z,d|η,μ)的似然函数变分下界可以由下式给出:根据公式(5)的下界,可得FESS分数函数,即为变分下界的成分:完整的FESS特征映射是公式(6)成分的组合:4.根据权利要求1所述的一种可用于网络信息检测的语义相似度学习方法,其特征在于:所述步骤3具体过程如下:有了公式(7)的特征映射,可将用于网络文本数据检测的相似度函数定义为如下形式:其中,ti和tj是不同的文本,是文本ti的特征映射,是文本tj的特征映射,W’是对角权值矩阵,对角线上的每个元素衡量了的相应维度对概率相似度的重要程度,也就是说,权值大的维度比权值小的维度重要。5.一种可用于网络信息检测的语义相似度学习方法,可应用于文本和图像两种网络数...

【专利技术属性】
技术研发人员:徐征杨恩好
申请(专利权)人:北京彼维网络技术有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1