【技术实现步骤摘要】
基于多语言高效数据采集方法、计算机程序
本专利技术属于计算机软件
,尤其涉及一种基于多语言高效数据采集方法、计算机程序。
技术介绍
互联网数据采集需求越来越大,采集系统的高效和精确正在成为采集系统追求的目标。目前众多采集系统采用爬虫系统对网站数据进行直接采集。国内,国外采集多采用多套系统部署采集,采集方式采用通用采集或者模版化采集,对新闻类网站等进行数据采集。多套系统的部署增加了采购和运维成本,也造成系统复杂,很难对现有资源进行统一调配。不同网站内容重复率高,采集信息浪费严重。通用采集方式效率虽然高,但是错误率相对会更高,特别对于一些中小地方网站采集错误率会更大。模版化人工标注采集模式,准确率高,但是需要大量人工对每个网站进行人工定义规则,人工成本高。传统新闻采集系统针对各个新闻网站进行配置管理,针对境内外网站要做定向匹配,例如通过正则表达式进行精确匹配,针对网站二级域名或者栏目进行配置采集,传统采集方式需要花费大量的人力成本,系统部署和维护周期漫长。根据现有系统,采集全球30万新闻站点,维护站点成本超过300人月,服务器超过50台。现有的采集系统目前大部分设计为对新闻网站全量或者增量采集,客观性采集信息不全面,无法实现对内容的定向采集,需要占用大量的带宽和存储空间。此外不能对其他语言进行采集,随着中国走向国际化,对不同语言的采集也是迫切需求。传统人工匹配方式,很难实现大量全语种采集,一方面各语种人才难得,此外小语种人才很难有计算机基础实现人工配置。针对海外不同语言的采集,目前国内还是以中/英文为主,新闻采集没有涉及到海外多语言新闻的采集。针对海外葡 ...
【技术保护点】
一种基于多语言高效数据采集方法,其特征在于,所述基于多语言高效数据采集方法包括:(1)关键字录入;(2)识别输入语言类型,对文本多语言翻译;(3)对多语言关键字分发;(4)根据各子系统特定性能获取调度服务器任务,调用相关引擎进行业务爬取;(5)网页分成新闻内容页,新闻列表页,过滤无效信息;(6)新闻页面直接对链接获取新闻信息;(7)新闻列表页,启用二级爬虫子系统递归,页面二次分析,获取新闻列表页,获取新闻页面,获取新闻;(8)获取新闻内容去重;(9)合法数据的数据结构化存储。
【技术特征摘要】
1.一种基于多语言高效数据采集方法,其特征在于,所述基于多语言高效数据采集方法包括:(1)关键字录入;(2)识别输入语言类型,对文本多语言翻译;(3)对多语言关键字分发;(4)根据各子系统特定性能获取调度服务器任务,调用相关引擎进行业务爬取;(5)网页分成新闻内容页,新闻列表页,过滤无效信息;(6)新闻页面直接对链接获取新闻信息;(7)新闻列表页,启用二级爬虫子系统递归,页面二次分析,获取新闻列表页,获取新闻页面,获取新闻;(8)获取新闻内容去重;(9)合法数据的数据结构化存储。2.如权利要求1所述的基于多语言高效数据采集方法,其特征在于,所述识别输入语言类型,对文本多语言翻译具体包括:(1)通过字符集判断输入语言版本;(2)通过翻译引擎对录入语言进行翻译;1)通过判定的输入语言版本,通过管道传输给机器翻译引擎,返回关键字集合记录集合,每个记录集合包含语言种类和翻译的目标词汇;2)如果记录集合为空,相应翻译出现异常。3.如权利要求1所述的基于多语言高效数据采集方法,其特征在于,所述对多语言关键字分发具体包括:(1)业务调度任务服务接收爬取业务,加入任务队列;(2)根据语言版本,调度任务根据策略把任务分配;(3)中文关键字分配给支持中文的搜索引擎,英文分配给支持英文引擎服务器日文分配goo。4.如权利要求1所述的基于多语言高效数据采集方法,其特征在于,所述获取新闻内容去重具体包括:(1)提取将要采集新闻的url;(2)对新闻url的hash编码;1)对同一个网站不同url爬取内容分散到不同的服务器,固定一个静态变量a初始值为1;2)建立新变量W,通过对网站的url加上变量a,W=hash(url)+a;3)a=a+1,如果a超过阈值L,则a=amod(L);(3)根据采集引擎个数,对hash编码W根据存活个数取余,根据余数分配到相应的采集引擎;1)向分发服务器发出alive信号,分发服务器动态加载配置;2)减少采集服务器,发出close信号;(4)引擎作为内存一级队列列表,语言版本作为二级队列,新闻url作为三级队列;(5)根据url的hash编码取余找到对应引擎的队列;(6)在引擎队列下,根据语言版本找到相应队列;(7)对url的hash编码对应语言队列在内存中进行检索;(8)检索到,放弃新闻采集,进行下一条新闻url提取,重复执行(1);(9)没有检测到,多个采集器对hash值进行按存活采集服务器数量进行取余操作,根据余数分配到对应的采集器,添加hash数值到对应引擎的队列,增加时间戳,采集新闻内容,进行结构化存储,并对采集内容通过hash算法进行指纹提取,作为内容验证内容;(10)对超过阚值时间的hash数值清理,回收内存;(11)对内存监控,空闲内存低于预定阚值,对各队列进行强...
【专利技术属性】
技术研发人员:詹咏松,程国艮,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。