基于词频权重的流量平台监测方法和系统技术方案

技术编号:36103586 阅读:17 留言:0更新日期:2022-12-28 14:03
本发明专利技术提供一种基于词频权重的流量平台监测方法和系统,通过搭建云计算平台,获取互联网数据流,使用句法分析和语义分析特征向量,根据词分量出现的频率赋予权重值,计算余弦值得到有关评论的质心向量,对质心向量进行报警判断,可以更加容易判断是否合规,极大地提高了防护效率。提高了防护效率。提高了防护效率。

【技术实现步骤摘要】
基于词频权重的流量平台监测方法和系统


[0001]本申请涉及网络多媒体领域,尤其涉及一种基于词频权重的流量平台监测方法和系统。

技术介绍

[0002]现有流量平台面临的问题是,词汇碎片化,难以提取出关键性词汇,虽然现有技术中已经有基于质心向量的过滤方法,但是当词汇出现频率杂乱无章时,基于质心向量的过滤方法很难达到预期的效果。
[0003]因此,急需一种针对性的基于词频权重的流量平台监测的方法和系统。

技术实现思路

[0004]本专利技术的目的在于提供一种基于词频权重的流量平台监测方法和系统,通过搭建云计算平台,获取互联网数据流,使用句法分析和语义分析特征向量,根据词分量出现的频率赋予权重值,计算余弦值得到有关评论的质心向量,对质心向量进行报警判断,可以更加容易判断是否合规,极大地提高了防护效率。
[0005]第一方面,本申请提供一种基于词频权重的流量平台监测方法,所述方法包括:
[0006]在服务器上搭建云计算平台,构建句法模型和语义分析模型,所述句法模型和语义分析模型分别位于云计算平台的不同核实体上,所述核实体是所述云计算平台中处于中心地位的实体服务器;
[0007]根据获取策略,获取互联网平台的数据流,将所述数据流中的特征向量输入句法模型进行断句,去除表情符号,得到词分量;
[0008]统计单位时间内所述词分量出现的次数,根据次数对应赋予权重值;
[0009]将所述词分量输入语义分析模型,输出词含义,所述词含义为去除语气词、简洁、含义唯一、使用大类的单词的语句,将所述词含义重组成新的语句,将所述权重值插入所述新的语句中,完成向量化,得到第二特征向量;
[0010]其中所述第二特征向量包含了多个对应不同词含义的权重值;
[0011]计算若干个所述第二特征向量之间的夹角的余弦值,将所述余弦值高于阈值的第二特征向量组成质心向量;
[0012]计算所述质心向量的权重值的累加值,用于反映评论的相关性的度量;
[0013]过滤质心向量值低于第二阈值的词含义,判断所述词含义中是否包括指定的关键词,如果是则继续判断该词含义所在的语句是否形成了指定的含义,如果该语句形成了指定的含义,则认定对应的第二特征向量属于需要报警的情形,发出报警消息;如果该语句没有形成指定的含义,则认定对应的第二特征向量合规。
[0014]结合第一方面,在第一方面第一种可能的实现方式中,所述方法还包括风险评估、攻击关联分析和态势感知。
[0015]结合第一方面,在第一方面第二种可能的实现方式中,所述获取互联网平台的数
据流包括对所述数据流的编解码。
[0016]结合第一方面,在第一方面第三种可能的实现方式中,所述语义分析模型和句法模型的内核均使用神经网络模型。
[0017]第二方面,本申请提供一种基于词频权重的流量平台监测系统,所述系统包括处理器以及存储器:
[0018]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0019]所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。
[0020]第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面四种可能中任一项所述的方法。
[0021]本专利技术提供一种基于词频权重的流量平台监测方法和系统,通过搭建云计算平台,获取互联网数据流,使用句法分析和语义分析特征向量,根据词分量出现的频率赋予权重值,计算余弦值得到有关评论的质心向量,对质心向量进行报警判断,可以更加容易判断是否合规,极大地提高了防护效率。
附图说明
[0022]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本专利技术方法的流程图。
具体实施方式
[0024]下面结合附图对本专利技术的优选实施例进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。
[0025]图1为本申请提供的基于词频权重的流量平台监测方法的流程图,包括:
[0026]在服务器上搭建云计算平台,构建句法模型和语义分析模型,所述句法模型和语义分析模型分别位于云计算平台的不同核实体上,所述核实体是所述云计算平台中处于中心地位的实体服务器;
[0027]根据获取策略,获取互联网平台的数据流,将所述数据流中的特征向量输入句法模型进行断句,去除表情符号,得到词分量;
[0028]统计单位时间内所述词分量出现的次数,根据次数对应赋予权重值;
[0029]将所述词分量输入语义分析模型,输出词含义,所述词含义为去除语气词、简洁、含义唯一、使用大类的单词的语句,将所述词含义重组成新的语句,将所述权重值插入所述新的语句中,完成向量化,得到第二特征向量;
[0030]其中所述第二特征向量包含了多个对应不同词含义的权重值;
[0031]计算若干个所述第二特征向量之间的夹角的余弦值,将所述余弦值高于阈值的第二特征向量组成质心向量;
[0032]计算所述质心向量的权重值的累加值,用于反映评论的相关性的度量;
[0033]过滤质心向量值低于第二阈值的词含义,判断所述词含义中是否包括指定的关键
词,如果是则继续判断该词含义所在的语句是否形成了指定的含义,如果该语句形成了指定的含义,则认定对应的第二特征向量属于需要报警的情形,发出报警消息;如果该语句没有形成指定的含义,则认定对应的第二特征向量合规。
[0034]所述云计算平台还包括调用边缘地位的实体服务器,溯源对应的词分量和所述簇状结构,将疑似轨迹和疑似源点发送给中心地位的实体服务器,所述中心地位的实体服务器调用所述云计算平台的计算能力,确定对应数据流的源点,通知所述边缘地位的实体服务器屏蔽该源点。
[0035]在一些优选实施例中,所述方法还包括风险评估、攻击关联分析和态势感知。
[0036]在一些优选实施例中,所述获取互联网平台的数据流包括对所述数据流的编解码。
[0037]在一些优选实施例中,所述语义分析模型和句法模型的内核均使用神经网络模型。
[0038]本申请提供一种基于词频权重的流量平台监测系统,所述系统包括:所述系统包括处理器以及存储器:
[0039]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0040]所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的方法。
[0041]本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所有实施例中任一项所述的方法。
[0042]具体实现中,本专利技术还提供一种计算机存储介质,其中,该计算机存储介质可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于词频权重的流量平台监测方法,其特征在于,所述方法包括:在服务器上搭建云计算平台,构建句法模型和语义分析模型,所述句法模型和语义分析模型分别位于云计算平台的不同核实体上,所述核实体是所述云计算平台中处于中心地位的实体服务器;根据获取策略,获取互联网平台的数据流,将所述数据流中的特征向量输入句法模型进行断句,去除表情符号,得到词分量;统计单位时间内所述词分量出现的次数,根据次数对应赋予权重值;将所述词分量输入语义分析模型,输出词含义,所述词含义为去除语气词、简洁、含义唯一、使用大类的单词的语句,将所述词含义重组成新的语句,将所述权重值插入所述新的语句中,完成向量化,得到第二特征向量;其中所述第二特征向量包含了多个对应不同词含义的权重值;计算若干个所述第二特征向量之间的夹角的余弦值,将所述余弦值高于阈值的第二特征向量组成质心向量;计算所述质心向量的权重值的累加值,用于反映评论的相关性的度量;过滤质心向量值低于第二阈值的词含义,判断所述词含义中是否包括指定的关键词,如果是则继续判断该词含义所在的语句是否形成了指定的...

【专利技术属性】
技术研发人员:苏长君曾祥禄
申请(专利权)人:北京智美互联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1