一种面向web双语平行语料资源的分布式采集系统技术方案

技术编号：8532874 阅读：260 留言：0更新日期：2013-04-04 15:54

一种面向web双语平行语料资源的分布式采集系统，它涉及语料获取技术领域。本发明专利技术克服了现有系统爬取规模较小，获得语料渠道较少，爬取效率较低的问题。本发明专利技术所述的系统包括链接存储库模块、筛选过滤器模块、网页爬行器模块、原始网页库模块、双语探测模块、黑名单模块、双语网页库模块和链接抽取器模块。本发明专利技术克服了现有技术领域的技术偏见，将互联网作为语料获取对象，通过应用本发明专利技术所描述的系统，可以有效地解决分布式系统资源的占有矛盾问题；可以为双语平行语料采集系统，提供一个通用的设计架构；可以不断动态的将非双语站点加入黑名单，能够高效的抓取互联网中双语平行语料；可以极大幅度的提高双语语料抓取的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语料获取
，具体涉及双语平行语料的分布式采集系统。
技术介绍
统计机器翻译是机器翻译的方法之一，基本思想是通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。在统计机器翻译技术中，平行语料库起到了至关重要的作用。有充足数量和良好质量的平行语料，是建立高性能统计机器翻译系统的必要条件。双语平行语料库的建设与获取存在着很大的困难，各国都投入了大量的人力、物力和财力。但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域，不适合真实文本应用。同时，互联网上的大规模双语文本具有很好的时效性和覆盖性，这为双语平行语料库的获取提供了潜在的解决途径。研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题，推动相关技术发展和实用化具有重要的意义。目前，双语平行语料采集系统大都存在爬取规模较小，获得语料渠道较少，爬取效率较低的问题。
技术实现思路
本专利技术提供了一种面向web双语平行语料资源的分布式采集系统，解决了现有系统爬取规模较小，获得语料渠道较少，爬取效率较低的问题。本专利技术所述的面向web双语平行语料资源...

【技术保护点】
一种面向web双语平行语料资源的分布式采集系统，其特征在于，该系统包括：链接存储库模块，用于存储抓取任务中所包含的超链接；筛选过滤器模块(1)，从链接存储库模块中输入链接流，判断链接是否满足爬行条件；符合爬行条件的再判断是否包含非双语站点，根据规则判断是否抓取；网页爬行器模块(2)，由筛选过滤器模块(1)中获得下载列表，然后对下载列表中的url链接对应的网页，从互联网上下载下来；原始网页库模块，经网页爬行器模块(2)下载来的网页保存到原始网页库模块中，用于存储网页爬行器模块(2)抓取的原始网页；双语探测模块，从原始网页库模块中读取数据，对某个站点下载下来的网页进行判别，判断含中英句对网页的比例...

【技术特征摘要】
1.一种面向web双语平行语料资源的分布式采集系统，其特征在于，该系统包括链接存储库模块，用于存储抓取任务中所包含的超链接；筛选过滤器模块(I)，从链接存储库模块中输入链接流，判断链接是否满足爬行条件；符合爬行条件的再判断是否包含非双语站点，根据规则判断是否抓取；网页爬行器模块(2)，由筛选过滤器模块(I)中获得下载列表，然后对下载列表中的 url链接对应的网页，从互联网上下载下来；原始网页库模块，经网页爬行器模块(2)下载来的网页保存到原始网页库模块中，用于存储网页爬行器模块(2)抓取的原始网页；双语探测模块，从原始网页库模块中读取数据，对某个站点下载下来的网页进行判别，判断含中英句对网页的比例，是否含有双语平行网页，得到该站点是否为双语站点；黑名单模块，从双语探测模块中判断为非双语站点的则加入到黑名单模块中，用于存储禁止抓取的非双语站点主域名；双语网页库模块，用于存储双语探测器模块获得的双语网页资源；链接抽取器模块，从双语网页库模块中读取数据，去除网页中的冗余数据，从网页中抽取超链接。2.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统，其特征在于，所述的链接存储库模块的进一步限定用于存储维护一个大规模爬取的链接库，它包括网页的URL地址、抓取状态和爬取的时间。3.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统，其特征在于，所述的筛选过滤器模块(I)的进一步限定筛选过滤器模块(I)通过从链接存储库模块中顺序读取链接项并筛选一个待抓取链接列表；所述筛选的策略由自定义的过滤规则和黑名单规则构成；过滤规则包括通用的正则表达式，以及由黑名单提供的非双语的站点；从链接存储库模块中读出一条记录后，对其进行规则判断是否将其加入抓取列表，作为网页爬行器模块(2)的输入；另外一个功能，定期的对链接存储库模块进行更新，根据筛选过滤规则，剔除冗余无价值的链接，提高链接存储库质量。4.根据权利要求1所述的一种面向web双语平行语料资源...

【专利技术属性】
技术研发人员：徐志明，张志超，韩啸天，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人