当前位置: 首页 > 专利查询>中山大学专利>正文

一种互联网信息过滤以及互联网用户信息和网帖结构分析方法技术

技术编号:19056983 阅读:22 留言:0更新日期:2018-09-29 12:12
本发明专利技术公开了一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,通过爬虫获取数据,并利用spark‑sql进行数据检索,接着利用关注度模型对用户信息和贴吧进行了分析,最后对帖子的文本进行相关性计算和相关词挖掘,有效的提高了对水贴和广告贴的过滤效果。

【技术实现步骤摘要】
一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
本专利技术涉及一种互联网信息过滤以及互联网用户信息和网帖结构分析方法。
技术介绍
百度贴吧依托百度搜索引擎,靠着能够捕捉建立用户焦点话题,开放度高,操作便捷等优点沉淀了大量用户。经过14年发展,百度贴吧成了最大的中文交流社区。百度贴吧作为信息消费的大平台,打造了多种用户关系链,维护着各种丰富多彩的热点内容。在业务发展上,贴吧需要进一步明确用户各种属性,进而打造出更好个服务。而在监管方面,则需要对用户发文操作进行审核,以达到监督目的。基于这两方面,也就需要使用自然语言处理来尝试开辟新的途径达到上述两个目的。对水贴跟广告贴的过滤,有部分需要匹配固定格式或者在词典中匹配到相应敏感词才能过滤,无法只通过纯粹的模型训练产生的词典进行拦截。
技术实现思路
本专利技术的首要目的是提供一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,实现广告贴和水贴的拦截、用户信息与帖子分析,文本相关性、相关词等的挖掘。为解决上述技术问题,本专利技术所采用的技术方案是:1、一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,其特征在于包括以下步骤:数据采集,利用python的爬虫框架,分析所需信息所在页面的url结构,根据分析结果构造请求url,模拟浏览器提交网络请求,使用正则表达式或者第三方库提取信息;数据存储与检索,将采集回来的数据,按照贴吧数据的分类建表,然后将数据导入hbase,存储方式采用列存储,检索的方式是利用基于mapreduce计算框架的spark-sql进行检索;用户关系分析,利用spark-sql筛选后的数据,通过关注度模型,把每个用户当做一个点,关系用边来表示,很多用户就构成一个无向有环图,把用户与用户之间的关系,转化为点与点之间的可达性问题;贴吧分析,统计每个主题贴吧所拥有的用户数来确定贴吧的关注度,挖掘每个贴吧之间的关系,通过扫描每个用户关注的贴吧列表,来建立贴吧与贴吧之间的关系,贴吧作为点,贴吧之间的关系作为边,构造无向有环图;文本相关性挖掘,利用TFI-DF模型、LSI模型和余弦距离计算两个文本之间的相似性,在相似文本之间挖掘相关词;相关词挖掘,把文本中出现的词转化为词向量,使用word2vec中的cbow模型来学习从当前词的周围的词预测当前词生成的概率的过程,利用skim-gram模型来学习从当前词预测其他词生成的概率的过程,最后使用神经网络对上述学习过程进行训练。本专利技术提供的一种互联网信息过滤以及互联网用户信息和网帖结构分析方法通过爬虫获取数据,并利用spark-sql进行数据检索,接着利用关注度模型对用户信息和贴吧进行了分析,最后对帖子的文本进行相关性计算和相关词挖掘,有效的提高了对水贴和广告贴的过滤效果。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例系统结构图;图2为本专利技术实施例数据采集流程示意图;图3为本专利技术实施例数据存储对应的表结构示意图;图4为本专利技术实施例抽象社交网络关系示意图;图5为本专利技术实施例用户交互关系示意图;图6为本专利技术实施例用户好友关系示意图;图7为本专利技术实施例帖子结构分析示意图;图8为本专利技术实施例cbow模型和skim-gram模型示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例本专利是利用python爬虫框架,爬取贴吧帖子的内容,发帖的用户,用户回复的内容,然后将内容存储在HBase上,接着利用LSI、word2vec等模型对用户信息、帖子内容和回复进行分析挖掘,构造词库。分析挖掘后构造出关系网络图,并用词库检验水贴和广告贴的过滤效果。如图1所示,一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,包括以下步骤:数据采集,利用python的爬虫框架,分析所需信息所在页面的url结构,根据分析结果构造请求url,模拟浏览器提交网络请求,使用正则表达式或者第三方库提取信息;数据存储与检索,将采集回来的数据,按照贴吧数据的分类建表,然后将数据导入hbase,存储方式采用列存储,检索的方式是利用基于mapreduce计算框架的spark-sql进行检索;用户关系分析,利用spark-sql筛选后的数据,通过关注度模型,把每个用户当做一个点,关系用边来表示,很多用户就构成一个无向有环图,把用户与用户之间的关系,转化为点与点之间的可达性问题;贴吧分析,统计每个主题贴吧所拥有的用户数来确定贴吧的关注度,挖掘每个贴吧之间的关系,通过扫描每个用户关注的贴吧列表,来建立贴吧与贴吧之间的关系,贴吧作为点,贴吧之间的关系作为边,构造无向有环图;文本相关性挖掘,利用TFI-DF模型、LSI模型和余弦距离计算两个文本之间的相似性,在相似文本之间挖掘相关词;相关词挖掘,把文本中出现的词转化为词向量,使用word2vec中的cbow模型来学习从当前词的周围的词预测当前词生成的概率的过程,利用skim-gram模型来学习从当前词预测其他词生成的概率的过程,最后使用神经网络对上述学习过程进行训练。数据采集流程如图2所示,数据采集主要利用python爬虫实现,分析所需信息所在页面的url,然后查看页面源代码,找出所需内容所在的标签,并分析标签结构。在分析完结构后,构造对应的正则表达式用以匹配该格式的字符串。接着,分析访问这个url的请求,也就是url后缀变动的参数部分,还有该请求的头部。接着创建内存池,将所有需要访问到的url放入url队列中。然后编辑请求头如User-Agent来模拟浏览器访问网站,编辑了请求头后构造Get请求,发送get请求,并将所需的url对应的网页下载下来以文本形式保存。接着利用之前构造的正则表达式,来解析网页标题,网页关键字等等。数据存储对应的表结构如图3所示,将所采集的数据按照实体进行分类,然后对每个实体进行建表,并对每个实体所对应的部分字段添加约束。然后,将数据进行分割,导入到HBase中。然后利用spark-sql做检索操作。数据在HBase中按列存储的方式存储。用户信息分析,主要是用户的社交关系分析。用户用点来表示,用户关系则用边进行表示。定义为G=(V,E)。其中:V为非空集合,称为顶点集;E为集合,包括所有V中元素构成的有序二元组,即边的组合,称为边集。一个点u的邻域及所有与此点相邻的点的集合,记为N(u),邻域在社交网络里,可被理解为用户的好友群。如图4为抽象社交网络关系图。在社交关系中,主要有两个变量需要考虑:用户的共同关注率以及共同粉丝率:共同关注(u,w)=#{c:c∈u的所有关注集合且c∈w的所有关注集合}对所有w∈u的好友集共同粉丝(u,w)=#{c:c∈u的所有粉丝集合且c∈w的所有粉丝集合}对所有w∈u的好友集其中,u的所有关注集合和所有粉丝集合均不包括互粉好友;一些“大V”或者某一特定小群体的领袖名人可能具有较高的共同粉丝概率,而有趣味相投的好友的用户可能拥有较高的共同关注概率。如图5所示为用户交互关系示意图,图6所示为用户好友关系本文档来自技高网...

【技术保护点】
1.一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,其特征在于包括以下步骤:数据采集,利用python的爬虫框架,分析所需信息所在页面的url结构,根据分析结果构造请求url,模拟浏览器提交网络请求,使用正则表达式或者第三方库提取信息;数据存储与检索,将采集回来的数据,按照贴吧数据的分类建表,然后将数据导入hbase,存储方式采用列存储,检索的方式是利用基于mapreduce计算框架的spark‑sql进行检索;用户关系分析,利用spark‑sql筛选后的数据,通过关注度模型,把每个用户当做一个点,关系用边来表示,很多用户就构成一个无向有环图,把用户与用户之间的关系,转化为点与点之间的可达性问题;贴吧分析,统计每个主题贴吧所拥有的用户数来确定贴吧的关注度,挖掘每个贴吧之间的关系,通过扫描每个用户关注的贴吧列表,来建立贴吧与贴吧之间的关系,贴吧作为点,贴吧之间的关系作为边,构造无向有环图;文本相关性挖掘,利用TFI‑DF模型、LSI模型和余弦距离计算两个文本之间的相似性,在相似文本之间挖掘相关词;相关词挖掘,把文本中出现的词转化为词向量,使用word2vec中的cbow模型来学习从当前词的周围的词预测当前词生成的概率的过程,利用skim‑gram模型来学习从当前词预测其他词生成的概率的过程,最后使用神经网络对上述学习过程进行训练。...

【技术特征摘要】
1.一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,其特征在于包括以下步骤:数据采集,利用python的爬虫框架,分析所需信息所在页面的url结构,根据分析结果构造请求url,模拟浏览器提交网络请求,使用正则表达式或者第三方库提取信息;数据存储与检索,将采集回来的数据,按照贴吧数据的分类建表,然后将数据导入hbase,存储方式采用列存储,检索的方式是利用基于mapreduce计算框架的spark-sql进行检索;用户关系分析,利用spark-sql筛选后的数据,通过关注度模型,把每个用户当做一个点,关系用边来表示,很多用户就构成一个无向有环图,把用户与用户之间的关系,转化为点与点之间的可达性问题;贴吧分析,统计每个主题贴吧所拥有的用户数来确定贴吧的关注度,挖掘每个贴吧之间的关系,通过扫描每个用户关注的贴吧列表,来建立贴吧与贴吧之间的关系,贴吧作为点,贴吧之间的关系作为边,构造无向有环图;文本相关性挖掘,利用TFI-DF模型、LSI模型和余弦距离计算两个文本之间的相似性,在相似文本之间挖掘相关词;相关词挖掘,把文本中出现的词转化为词向量,使用word2vec中的cbow模型来学习从当前词的周围的词预测当前词生成的概率的过程,利用skim-gram模型来学习从当前词预测其他词生成的概率的过程,最后使用神经网络对上述学习过程进行训练。2.根据权利要求1所述的一种互联网信息过滤以及互联网用户信息和网帖结构分析方法,其特征在于所述数据采集包括以下步骤:利用python爬虫,分析所需信息所在页面的url,然后查看页面源代码,找出所需内容所在的标签,并分析标签结构;在分析完结构后,构造对应的正则表达式用以匹配该格式的字符串;接着,分析访问这个url的请求,也就是url后缀变动的参数部分,还有该请求的头部,创建内存池,将所有需要访问到的url放入url队列中;然后编辑请...

【专利技术属性】
技术研发人员:刘宁许伟原陈家炜
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1