基于DPI数据分析及文本解析的主题营销方法和系统技术方案

技术编号:26791361 阅读:26 留言:0更新日期:2020-12-22 17:06
基于DPI数据分析及文本解析的主题营销方法和系统,通过DPI技术实时获取HTTP协议的用户数据包,组合解析为用户访问的网页内容文本,利用TF‑IDF(词频‑逆文档频率)算法,统计文本中每个词语的重要程度,选择分数最高的n个关键词,与m个营销主题词匹配,计算每个关键词与每个广告营销主题词之间的相似性(基于语料库的TF‑IDF分值),将m*n个分值相加作为网页内容与营销主题的相似度,对相似度达到预设阈值的网页的访问用户,实时进行广告营销信息推送。

【技术实现步骤摘要】
基于DPI数据分析及文本解析的主题营销方法和系统
本专利技术涉及大数据及数据挖掘
,特别是涉及基于DPI数据分析及文本解析的主题营销方法和系统。
技术介绍
URL(UniformResourceLocator,统一资源定位器),它是互联网上的的统一资源定位标志,就是网络地址,DPI(Deeppacketinspection,深度报文解析),是一种基于数据包的深度检测技术,针对不同的网络应用层载荷(例如HTTP、DNS等)进行深度检测,目前通信运营商在开展实时主题营销是通过基于DPI解析用户上网URL地址,并结合事先建立好的URL地址库中URL的分类信息(如新闻、购物等),给用户打标签,再基于用户标签手工匹配营销主题实现。该方法存在以下问题:URL地址库中网址有限,只能覆盖互联网上的少量网址;URL网页内容变化快,地址库更新难度大;通讯运营商建立的用户标签的精细度可能不能满足广告主需求,例如广告主希望对正在看的网页上有“联想”、“笔记本”、“HP”、“超极本”等内容的用户实时推送笔记本广告,而用户标签可能只有“购物”、“电脑”等类别。...

【技术保护点】
1.基于DPI数据分析及文本解析的主题营销方法和系统,其特征在于:通过DPI技术实时获取HTTP协议的用户数据包,组合解析为用户访问的网页内容文本,利用TF-IDF(词频-逆文档频率)算法,统计文本中每个词语的重要程度,选择分数最高的n个关键词,与m个营销主题词匹配,计算每个关键词与每个广告营销主题词之间的相似性(基于语料库的TF-IDF分值),将m*n个分值相加作为网页内容与营销主题的相似度,对相似度达到预设阈值的网页的访问用户,实时进行广告营销信息推送。/n

【技术特征摘要】
1.基于DPI数据分析及文本解析的主题营销方法和系统,其特征在于:通过DPI技术实时获取HTTP协议的用户数据包,组合解析为用户访问的网页内容文本,利用TF-IDF(词频-逆文档频率)算法,统计文本中每个词语的重要程度,选择分数最高的n个关键词,与m个营销主题词匹配,计算每个关键词与每个广告营销主题词之间的相似性(基于语料库的TF-IDF分值),将m*n个分值相加作为网页内容与营销主题的相似度,对相似度达到预设阈值的网页的访问用户,实时进行广告营销信息推送。


2.根据权利要求1所述的基于DPI数据分析及文本解析的主题营销方法和系统,其特征在于:数据采集模块:系统通过与运营商的网络流量等系统,实时获取网络中的HTTP流量,将采集到HTTP协议数据包导入到本系统中。


3.根据权利要求1所述的基于DPI数据分析及文本解析的主题营销方法和系统,其...

【专利技术属性】
技术研发人员:李云亮张明杰董李平
申请(专利权)人:翼集分电子商务上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1