一种基于互联网信息的商业信息挖掘系统技术方案

技术编号:26171322 阅读:58 留言:0更新日期:2020-10-31 13:43
本发明专利技术一种基于互联网信息的商业信息挖掘系统,涉及信息挖掘技术领域,用本发明专利技术从互联网上通过大规模的分布式爬虫模块,采集相关的新闻论坛各种数据,将采集的网页内容通过数据预处理模块进行数据清洗和融合,在通过命名实体识别模块对信息进行分词和命名实体识别,其间通过企业画像模块针对要挖掘商业信息的客户进行企业画像,商业信息生成模块针对企业的产品、技术特点、用户群体、资金情况进行分析总结,针对网页内容进行分类和聚类,最后将每一个网页的分析结果,和企业用户画像生成的模型进行匹配,将最合适的商业信息推荐给最相关的企业,实现为企业客户提供潜在的商业信息推送。

【技术实现步骤摘要】
一种基于互联网信息的商业信息挖掘系统
本专利技术涉及信息挖掘
,更具体的是涉及基于互联网信息的商业信息挖掘系统。
技术介绍
商业信息的散布往往是开启交易行为的重要因素的一,因此如何准确将商业信息传送给真正需要商业信息的消费端,或如何让消费端可快速查询并获得所需要的可利用性商业信息,将是众人潜心研究的重点。然而,现有商业信息服务系统是使用广泛散布的方式进行,对于广大的消费端而言无可避免将接收到所有的广告信息,再从所有广告信息中筛选出几则有利用价值的商业信息,不仅其商业信息播放的精准率不高,且也将造成物质或人力的资源浪费。
技术实现思路
本专利技术的目的在于:为了上述技术问题,本专利技术提供一种基于互联网信息的商业信息挖掘系统。本专利技术为了实现上述目的具体采用以下技术方案:一种基于互联网信息的商业信息挖掘系统,其特征在于:包括爬虫模块、数据预处理模块、命名实体识别模块、企业画像模块、新闻挖掘模块和商业信息生成模块,从互联网上通过大规模的分布式爬虫模块,采集相关的新闻论坛各种数据,将采集的网页内容通本文档来自技高网...

【技术保护点】
1.一种基于互联网信息的商业信息挖掘系统,其特征在于:包括爬虫模块、数据预处理模块、命名实体识别模块、企业画像模块、新闻挖掘模块和商业信息生成模块,从互联网上通过大规模的分布式爬虫模块,采集相关的新闻论坛各种数据,将采集的网页内容通过数据预处理模块进行数据清洗和融合,在通过命名实体识别模块对信息进行分词和命名实体识别,其间通过企业画像模块针对要挖掘商业信息的客户进行企业画像,商业信息生成模块针对企业的产品、技术特点、用户群体、资金情况进行分析总结,针对网页内容进行分类和聚类,最后将每一个网页的分析结果,和企业用户画像生成的模型进行匹配,将最合适的商业信息推荐给最相关的企业,实现为企业客户提供潜...

【技术特征摘要】
1.一种基于互联网信息的商业信息挖掘系统,其特征在于:包括爬虫模块、数据预处理模块、命名实体识别模块、企业画像模块、新闻挖掘模块和商业信息生成模块,从互联网上通过大规模的分布式爬虫模块,采集相关的新闻论坛各种数据,将采集的网页内容通过数据预处理模块进行数据清洗和融合,在通过命名实体识别模块对信息进行分词和命名实体识别,其间通过企业画像模块针对要挖掘商业信息的客户进行企业画像,商业信息生成模块针对企业的产品、技术特点、用户群体、资金情况进行分析总结,针对网页内容进行分类和聚类,最后将每一个网页的分析结果,和企业用户画像生成的模型进行匹配,将最合适的商业信息推荐给最相关的企业,实现为企业客户提供潜在的商业信息推送。


2.根据权利要求1所述的一种基于互联网信息的商业信息挖掘系统,其特征在于:所述爬虫模块主要利用分布式的爬虫,爬虫分为下载模块、redisURL去重模块、内容去重模块、网页解析模块、集群调度模块、存储模块。


3.根据权利要求1所述的一种基于互联网信息的商业信息挖掘系统,其特征在于:所述数据预处理模块主要针对网络采集的各种模块,进行文本的编码转化,统一为utf8编码,进行繁简转化,去除下载的乱码...

【专利技术属性】
技术研发人员:刘超刘霖雯
申请(专利权)人:北京北斗天巡科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1