一种针对招商引资领域的互联网情报抓取和推荐系统技术方案

技术编号:15840942 阅读:64 留言:0更新日期:2017-07-18 16:54
一种针对招商引资领域的互联网情报抓取和推荐系统,包括招商情报采集模块、招商情报分析模块、招商情报服务模块和数据存储模块。系统通过网络爬虫技术对媒体网站和社交媒体网站的公司信息进行抓取;通过基于人工监督和机器学习的推荐算法对网络的信息进行过滤和推荐,推荐出高质量符合用户目标范围的资讯信息;根据审核人的推荐与否以及推荐资讯的阅读量来自动修正情报推荐分析,从而使未来抓取信息的质量更高,减少人为的干预。本发明专利技术通过网络爬虫技术对网站信息进行爬取,同时将搜索结果按照用户设置的过滤规则进行过滤,获取用户所关注行业领域的各种企业和高科技企业的投资机会,从而汇集信息提供给招商人员作为招商引资的目标客商。

An Internet intelligence crawling and recommender system for investment promotion

An Internet intelligence capture and recommendation system for investment attraction, including investment intelligence collection module, investment intelligence analysis module, investment intelligence service module and data storage module. The system crawls through the web crawler technology company information on media and social media websites; filtering and recommendation of network information through artificial supervision and recommendation algorithm based on machine learning, high quality to meet user goals range of information recommendation; according to the audit recommendation and recommendation information reading quantity automatic correction of information recommendation analysis, so that the future quality of grasping the information higher, reduce human intervention. The present invention through the web site information web crawler crawling, and search results are filtered according to the filtering rules set by the user, get the user attention in the field of industry of various enterprises and high-tech enterprises investment opportunities, which together provide information for investment as investment target customers.

【技术实现步骤摘要】
一种针对招商引资领域的互联网情报抓取和推荐系统
本专利技术涉及一种针对招商引资领域的互联网情报抓取和推荐系统,属于互联网

技术介绍
从事招商引资领域的人员依赖信息的获取来开展招商工作、服务工作和咨询工作。目前招商信息的来源偏重于线下的活动和客户拜访,缺少主动获取信息的高效手段。因此,利用互联网网络爬虫技术、全文检索技术和文本挖掘技术来帮助招商人员获得互联网的招商信息和资讯很有必要。网络爬虫又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。网络爬虫将互联网的所有页面分为五类:已下载未过期、已下载已过期、待下载、可知、不可知。抓取策略可分为广度优先搜索策略、最佳优先搜索策略、深度优先搜索策略等。全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索研究的是对整个文档信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。全文检索的中心环节是文件内容表达、信息查询的获得以及相关信息的匹配。文本挖掘是抽取有效、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。文本挖本文档来自技高网...
一种针对招商引资领域的互联网情报抓取和推荐系统

【技术保护点】
一种针对招商引资领域的互联网情报抓取和推荐系统,其特征在于,所述系统通过网络爬虫的方式及时获取互联网的财经舆情、上市公司投资或并购的资讯、各公司CEO公开讲话以及社交媒体的跟踪信息;通过网络爬虫技术对媒体网站和社交媒体网站的公司信息进行抓取;通过基于人工监督和机器学习的推荐算法对网络的信息进行过滤和推荐,推荐出高质量符合用户目标范围的资讯信息;根据审核人的推荐与否以及推荐资讯的阅读量来自动修正情报推荐分析,从而使未来抓取信息的质量更高,减少人为的干预。

【技术特征摘要】
1.一种针对招商引资领域的互联网情报抓取和推荐系统,其特征在于,所述系统通过网络爬虫的方式及时获取互联网的财经舆情、上市公司投资或并购的资讯、各公司CEO公开讲话以及社交媒体的跟踪信息;通过网络爬虫技术对媒体网站和社交媒体网站的公司信息进行抓取;通过基于人工监督和机器学习的推荐算法对网络的信息进行过滤和推荐,推荐出高质量符合用户目标范围的资讯信息;根据审核人的推荐与否以及推荐资讯的阅读量来自动修正情报推荐分析,从而使未来抓取信息的质量更高,减少人为的干预。2.根据权利要求1所述的一种针对招商引资领域的互联网情报抓取和推荐系统,其特征在于,所述系统对媒体网站和社交媒体网站的公司提供的信息进行抓取,抓取的关键字比对和招商引资领域相关,用来发现各种招商项目信号。3.根据权利要求1所述的一种针对招商引资领域的互联网情报抓取和推荐系统,其特征在于,所述机器学习的算法如下:(1)推荐模型的初始算法是判断资讯是否出现知识库里的关键字以及关键字出现的频率,出现关键字频率高的资讯会被优先推荐;(2)推荐出来的网页的特征要经过人工筛选,人工筛选的结果将网页分为正向网页和负向网页,同时筛选的结果被不同用户进行点击,点击量反映了网页的准确性和关联度;(3)系统分析网页的特征值,网页特征值包括网页的网站网址、时间、出现频率最好的关键字;(4)系统将网页的特征值,与人工筛选的结果以及网页的查看次数进行关联,用随机数建立最初的预测模型,用深度学习的神经网络加以训练...

【专利技术属性】
技术研发人员:姚治
申请(专利权)人:广州优亚信息技术有限公司
类型:发明
国别省市:广东,44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1