一种互联网信息过滤以及互联网用户信息和网帖结构分析方法技术

技术编号：19056983 阅读：22 留言：0更新日期：2018-09-29 12:12

本发明专利技术公开了一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，通过爬虫获取数据，并利用spark‑sql进行数据检索，接着利用关注度模型对用户信息和贴吧进行了分析，最后对帖子的文本进行相关性计算和相关词挖掘，有效的提高了对水贴和广告贴的过滤效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
本专利技术涉及一种互联网信息过滤以及互联网用户信息和网帖结构分析方法。
技术介绍
百度贴吧依托百度搜索引擎，靠着能够捕捉建立用户焦点话题，开放度高，操作便捷等优点沉淀了大量用户。经过14年发展，百度贴吧成了最大的中文交流社区。百度贴吧作为信息消费的大平台，打造了多种用户关系链，维护着各种丰富多彩的热点内容。在业务发展上，贴吧需要进一步明确用户各种属性，进而打造出更好个服务。而在监管方面，则需要对用户发文操作进行审核，以达到监督目的。基于这两方面，也就需要使用自然语言处理来尝试开辟新的途径达到上述两个目的。对水贴跟广告贴的过滤，有部分需要匹配固定格式或者在词典中匹配到相应敏感词才能过滤，无法只通过纯粹的模型训练产生的词典进行拦截。
技术实现思路
本专利技术的首要目的是提供一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，实现广告贴和水贴的拦截、用户信息与帖子分析，文本相关性、相关词等的挖掘。为解决上述技术问题，本专利技术所采用的技术方案是：1、一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，其特征在于包括以下步骤：数据采集，利用python的爬虫框架，分析所需信息所在页面的url结构，根据分析结果构造请求url，模拟浏览器提交网络请求，使用正则表达式或者第三方库提取信息；数据存储与检索，将采集回来的数据，按照贴吧数据的分类建表，然后将数据导入hbase，存储方式采用列存储，检索的方式是利用基于mapreduce计算框架的spark-sql进行检索；用户关系分析，利用spark-sql筛选后的数...

【技术保护点】
1.一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，其特征在于包括以下步骤：数据采集，利用python的爬虫框架，分析所需信息所在页面的url结构，根据分析结果构造请求url，模拟浏览器提交网络请求，使用正则表达式或者第三方库提取信息；数据存储与检索，将采集回来的数据，按照贴吧数据的分类建表，然后将数据导入hbase，存储方式采用列存储，检索的方式是利用基于mapreduce计算框架的spark‑sql进行检索；用户关系分析，利用spark‑sql筛选后的数据，通过关注度模型，把每个用户当做一个点，关系用边来表示，很多用户就构成一个无向有环图，把用户与用户之间的关系，转化为点与点之间的可达性问题；贴吧分析，统计每个主题贴吧所拥有的用户数来确定贴吧的关注度，挖掘每个贴吧之间的关系，通过扫描每个用户关注的贴吧列表，来建立贴吧与贴吧之间的关系，贴吧作为点，贴吧之间的关系作为边，构造无向有环图；文本相关性挖掘，利用TFI‑DF模型、LSI模型和余弦距离计算两个文本之间的相似性，在相似文本之间挖掘相关词；相关词挖掘，把文本中出现的词转化为词向量，使用word2vec中的cbow模型来学习...

【技术特征摘要】
1.一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，其特征在于包括以下步骤：数据采集，利用python的爬虫框架，分析所需信息所在页面的url结构，根据分析结果构造请求url，模拟浏览器提交网络请求，使用正则表达式或者第三方库提取信息；数据存储与检索，将采集回来的数据，按照贴吧数据的分类建表，然后将数据导入hbase，存储方式采用列存储，检索的方式是利用基于mapreduce计算框架的spark-sql进行检索；用户关系分析，利用spark-sql筛选后的数据，通过关注度模型，把每个用户当做一个点，关系用边来表示，很多用户就构成一个无向有环图，把用户与用户之间的关系，转化为点与点之间的可达性问题；贴吧分析，统计每个主题贴吧所拥有的用户数来确定贴吧的关注度，挖掘每个贴吧之间的关系，通过扫描每个用户关注的贴吧列表，来建立贴吧与贴吧之间的关系，贴吧作为点，贴吧之间的关系作为边，构造无向有环图；文本相关性挖掘，利用TFI-DF模型、LSI模型和余弦距离计算两个文本之间的相似性，在相似文本之间挖掘相关词；相关词挖掘，把文本中出现的词转化为词向量，使用word2vec中的cbow模型来学习从当前词的周围的词预测当前词生成的概率的过程，利用skim-gram模型来学习从当前词预测其他词生成的概率的过程，最后使用神经网络对上述学习过程进行训练。2.根据权利要求1所述的一种互联网信息过滤以及互联网用户信息和网帖结构分析方法，其特征在于所述数据采集包括以下步骤：利用python爬虫，分析所需信息所在页面的url，然后查看页面源代码，找出所需内容所在的标签，并分析标签结构；在分析完结构后，构造对应的正则表达式用以匹配该格式的字符串；接着，分析访问这个url的请求，也就是url后缀变动的参数部分，还有该请求的头部，创建内存池，将所有需要访问到的url放入url队列中；然后编辑请...

【专利技术属性】
技术研发人员：刘宁，许伟原，陈家炜，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人