一种可用于网络信息检测的语义相似度学习方法技术

技术编号：21914681 阅读：26 留言：0更新日期：2019-08-21 12:38

本发明专利技术涉及一种可用于网络信息检测的语义相似度学习方法，对于文本数据，包括：步骤1、基于潜在狄利克雷分布模型对文本数据建模；步骤2、导出编码数据语义信息的特征映射来表征网络文本信息；步骤3、导出概率相似度函数，用于网络文本数据检测。对于图像数据，包括：步骤1、基于高斯混合模型对图像数据建模；步骤2、导出编码数据语义信息的特征映射来表征网络图像信息；步骤3、导出概率相似度函数，用于网络图像信息检测。本发明专利技术方法采用概率相似度函数区别于传统相似度函数之处在于，是网络信息数据、隐变量和产生式模型参数的函数，可以更好地适应数据分布。

A Semantic Similarity Learning Method for Network Information Detection

全部详细技术资料下载

【技术实现步骤摘要】
一种可用于网络信息检测的语义相似度学习方法
本专利技术涉及一种可用于网络信息检测的语义相似度学习方法，可广泛应用于网络信息检测、识别、监测等领域。属于机器学习和网络信息处理领域。
技术介绍
随着互联网技术的快速发展，海量的数据在互联网上产生，如何快速准确地检测出感兴趣的网络信息成为近来的研究热点。相似度度量是网络信息检测中的重要关键技术之一，传统的方法常采用预先定义的相似度度量，如欧式距离、马氏距离和高斯核函数等来衡量网络信息之间的相似度。这类度量方式，没有考虑网络信息的数据分布，因此对数据的分布缺乏适应能力。为了更好地从网络数据中学习中高层语义信息，采用机器学习的方法学习相似度度量。概率相似度是其中一类基于机器学习获取相似度度量的方法，该类方法最近受到越来越多研究者的青睐。概率相似度的学习方法充分考虑了数据的概率分布，使用产生式概率模型对数据分布进行建模，并从该模型中导出显式的特征映射，基于特征映射定义概率相似度函数用于检测。导出的概率相似度函数是隐变量和模型参数的函数，而隐变量编码了数据内容相关的隐信息，这些信息在网络信息检测和识别中非常有效。基于此，本专利技术提出一种可用于网络信息检测的语义相似度的学习方法。
技术实现思路
本专利技术的目的在于针对现有方法的不足，提出一种可用于网络信息检测的语义相似度的学习方法，该方法从数据的概率分布出发，从网络数据中学习出编码了数据分布的概率相似度。本专利技术可应用于两种网络数据，文本和图像。对于文本数据，本专利技术一种可用于网络信息检测的语义相似度学习方法通过下述技术方案来实现。步骤1-1、基于潜在狄利克雷分布模型对...

【技术保护点】
1.一种可用于网络信息检测的语义相似度学习方法，可应用于文本和图像两种网络数据，其特征在于：其中对于文本数据，该方法具体包括如下步骤：步骤1、基于潜在狄利克雷分布模型对文本数据建模；步骤2、导出编码数据语义信息的特征映射来表征网络文本信息；步骤3、导出概率相似度函数，用于网络文本数据检测。

【技术特征摘要】
1.一种可用于网络信息检测的语义相似度学习方法，可应用于文本和图像两种网络数据，其特征在于：其中对于文本数据，该方法具体包括如下步骤：步骤1、基于潜在狄利克雷分布模型对文本数据建模；步骤2、导出编码数据语义信息的特征映射来表征网络文本信息；步骤3、导出概率相似度函数，用于网络文本数据检测。2.根据权利要求1所述的一种可用于网络信息检测的语义相似度学习方法，其特征在于：所述步骤1具体过程如下：假设网络文本信息用词袋模型表示，令w＝{w1,…,wM}是文件，M是文件中单词的数目，是指示向量，表示所有V项的第j项被选做文件的第i个单词；令是主题的指示向量，表示所有K个主题的第k个主题被第i个单词选择；潜在狄利克雷分配模型按照下述过程生成每个文档：S11、根据狄利克雷分布选择一个文件d＝(d1,…dl)，该分布的参数为η，可表示为如下形式：其中，η＝(η1,…,ηl)是狄利克雷分布的参数，Γ是Gamma函数；S12、对于M个单词中的每个单词wi，选择一个主题zi，该主题服从多项式分布，参数为d，可表示成如下形式：S13、从条件多项式分布P(wi|zi,μ)中选择一个单词wi，该条件多项式分布参数为μ，可表示成如下形式：潜在狄利克雷分布的联合概率密度函数可以表示为如下形式：3.根据权利要求1所述的一种可用于网络信息检测的语义相似度学习方法，其特征在于：所述步骤2具体过程如下：P(w,z,d|η,μ)的似然函数变分下界可以由下式给出：根据公式(5)的下界，可得FESS分数函数，即为变分下界的成分：完整的FESS特征映射是公式(6)成分的组合：4.根据权利要求1所述的一种可用于网络信息检测的语义相似度学习方法，其特征在于：所述步骤3具体过程如下：有了公式(7)的特征映射，可将用于网络文本数据检测的相似度函数定义为如下形式：其中，ti和tj是不同的文本，是文本ti的特征映射，是文本tj的特征映射，W’是对角权值矩阵，对角线上的每个元素衡量了的相应维度对概率相似度的重要程度，也就是说，权值大的维度比权值小的维度重要。5.一种可用于网络信息检测的语义相似度学习方法，可应用于文本和图像两种网络数...

【专利技术属性】
技术研发人员：徐征，杨恩好，
申请(专利权)人：北京彼维网络技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人