一种面向web双语平行语料资源的分布式采集系统,它涉及语料获取技术领域。本发明专利技术克服了现有系统爬取规模较小,获得语料渠道较少,爬取效率较低的问题。本发明专利技术所述的系统包括链接存储库模块、筛选过滤器模块、网页爬行器模块、原始网页库模块、双语探测模块、黑名单模块、双语网页库模块和链接抽取器模块。本发明专利技术克服了现有技术领域的技术偏见,将互联网作为语料获取对象,通过应用本发明专利技术所描述的系统,可以有效地解决分布式系统资源的占有矛盾问题;可以为双语平行语料采集系统,提供一个通用的设计架构;可以不断动态的将非双语站点加入黑名单,能够高效的抓取互联网中双语平行语料;可以极大幅度的提高双语语料抓取的效率。
【技术实现步骤摘要】
本专利技术涉及语料获取
,具体涉及双语平行语料的分布式采集系统。
技术介绍
统计机器翻译是机器翻译的方法之一,基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。在统计机器翻译技术中,平行语料库起到了至关重要的作用。有充足数量和良好质量的平行语料,是建立高性能统计机器翻译系统的必要条件。双语平行语料库的建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力。但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本具有很好的时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。目前,双语平行语料采集系统大都存在爬取规模较小,获得语料渠道较少,爬取效率较低的问题。
技术实现思路
本专利技术提供了一种面向web双语平行语料资源的分布式采集系统,解决了现有系统爬取规模较小,获得语料渠道较少,爬取效率较低的问题。本专利技术所述的面向web双语平行语料资源的分布式采集系统包括链接存储库模块,用于存储抓取任务中所包含的超链接;筛选过滤器模块,从链接存储库模块中输入链接流,判断链接是否满足爬行条件;符合爬行条件的再判断是否包含非双语站点,根据规则判断是否抓取;网页爬行器模块,由筛选过滤器模块中获得下载列表,然后对下载列表中的url链接对应的网页,从互联网上下载下来;原始网页库模块,经网页爬行器模块下载来的网页保存到原始网页库模块中,用于存储网页爬行器模块抓取的原始网页;双语探测模块,从原始网页库模块中读取数据,对某个站点下载下来的网页进行判别,判断含中英句对网页的比例,是否含有双语平行网页,得到该站点是否为双语站点;黑名单模块,从双语探测模块中判断为非双语站点的则加入到黑名单模块中,用于存储禁止抓取的非双语站点主域名;双语网页库模块,用于存储双语探测器模块获得的双语网页资源;链接抽取器模块,从双语网页库模块中读取数据,去除网页中的冗余数据,从网页中抽取超链接。本专利技术中面向web双语平行语料资源的分布式采集系统,能够将已经判别的非双语的网站站点,在翻译语料采集过程中动态的加入黑名单,下次采集过程直接忽略,节省计算资源,提高双语资源抓取效率;一个待抓取的url链接,按照该链接所在的主机地址生成的哈希值进行散列,分配给不同的网页爬行器模块,达到分布式并行处理的效果。本专利技术克服了现有
的技术偏见,将互联网作为语料获取对象,通过应用本专利技术所描述的系统,可以有效地解决分布式系统资源的占有矛盾问题;可以为双语平行语料采集系统,提供一个通用的设计架构;可以不断动态的将非双语站点加入黑名单,能够高效的抓取互联网中双语平行语料;可以极大幅度的提高双语语料抓取的效率。附图说明图1为本专利技术所述的面向双语平行语料的分布式采集系统的工作原理示意图;图2为本专利技术所述的面向双语平行语料的分布式采集系统中筛选过滤器模块和网页爬行器模块的工作原理示意图。具体实施例方式具体实施方式一本实施方式所述的面向web双语平行语料资源的分布式采集系链接存储库模块,用于存储抓取任务中所包含的超链接;筛选过滤器模块1,从链接存储库模块中输入链接流,判断链接是否满足爬行条件;符合爬行条件的再判断是否包含非双语站点,根据规则判断是否抓取;网页爬行器模块2,由筛选过滤器模块I中获得下载列表,然后对下载列表中的url链接对应的网页,从互联网上下载下来;原始网页库模块,经网页爬行器模块2下载来的网页保存到原始网页库模块中,用于存储网页爬行器模块2抓取的原始网页;双语探测模块,从原始网页库模块中读取数据,对某个站点下载下来的网页进行判别,判断含中英句对网页的比例,是否含有双语平行网页,得到该站点是否为双语站点;黑名单模块,从双语探测模块中判断为非双语站点的则加入到黑名单模块中,用于存储禁止抓取的非双语站点主域名;双语网页库模块,用于存储双语探测器模块获得的双语网页资源;链接抽取器模块,从双语网页库模块中读取数据,去除网页中的冗余数据,从网页中抽取超链接。如图1所示,本实施方式中链接存储库模块的信息来源于初始种子URL,初始种子UR用于激发原始信息。本实施方式中筛选过滤器模块I (如图2所示),包括正则过滤器、域名提取器、黑名单过滤器和哈希分配器;其中正则过滤器过滤规则包括通用的正则表达式,这些正则表达式由配置文件添加,在互联网上存在且明显不是双语站点的链接,经过本模块,所有不符合正则表达式的链接将被剔除,不再流入网页爬行器;域名提取器提取url链接中的主域名;黑名单过滤器判断域名提取器提取的主域名是否在黑名单中,如果存在,则将此链接丢弃。哈希分配器对经由以上步骤处理得到的连接分配给某个网页爬行器,首先对链接提取主机名,然后进行哈希得到哈希值对爬行器数目进行取余来决定该任务分配给哪个网页爬行器。本实施方式中网页爬行器模块2(如图2所示),其处理流程包含以下步骤1、输入为待抓取的一个链接任务列表;2、对该任务列表进行排序,将具有相同主机的url链接尽量分散开来,对主机进行礼貌性访问;3、访问dns缓存,获得主机所对应ip地址,若缓存不存在,访问dns服务器,并加入到缓存中;4、多线程通过HTTP协议给服务器发送获取当前超链接所指定的网页实体的请求,将数据存储到原始网页数据库。具体实施方式二本实施方式是对具体实施方式一所述的链接存储库模块的进一步说明用于存储维护一个大规模爬取的链接库,它包括网页的URL地址、抓取状态和爬取的时间。本实施方式存储抓取的任务列表中的这些元信息来决定是否对一个链接进行抓取或增量式更新。具体实施方式三本实施方式是对具体实施方式一所述的筛选过滤器模块I的进一步说明筛选过滤器模块I通过从链接存储库模块中顺序读取链接项并筛选一个待抓取链接列表;所述筛选的策略由自定义的过滤规则和黑名单规则构成;过滤规则包括通用的正则表达式,以及由黑名单提供的非双语的站点;从链接存储库模块中读出一条记录后,对其进行规则判断是否将其加入抓取列表,作为网页爬行器模块2的输入;另外一个功能,定期的对链接存储库模块进行更新,根据筛选过滤规则,剔除冗余无价值的链接,提高链接存储库质量。本实施方式中已经判别的非双语的网站站点,在翻译语料采集过程中动态的加入黑名单,下次采集过程直接忽略,节省计算资源,提高双语资源抓取效率。本实施方式中一个待抓取的url链接,按照该链接所在的主机地址生成的哈希值进行散列,分配给不同的网页爬行器模块2,达到分布式并行处理的效果。具体实施方式四本实施方式是对具体实施方式一所述的网页爬行器模块2的进一步说明用于下载网页;各个网页爬行器模块2之间相互独立,多个网页爬行器模块2在同一时刻并行工作;所述网页爬行器模块2的个数由硬件所能承受的能力和网络环境条件所决定。本实施方式中利用多个网页爬行器模块2在同一时刻并行工作,这样就极大的提高了采集效率,因为在同一时刻,若只有一个爬行器在下载网页,显然效率低下且不能达到实时性的要求。具体实施方式五本实施方式是对具体实施方式一所述的原始网页库模块的进一步说明用于存储网页爬行器模块2下载的原始html网页,并记录本文档来自技高网...
【技术保护点】
一种面向web双语平行语料资源的分布式采集系统,其特征在于,该系统包括:链接存储库模块,用于存储抓取任务中所包含的超链接;筛选过滤器模块(1),从链接存储库模块中输入链接流,判断链接是否满足爬行条件;符合爬行条件的再判断是否包含非双语站点,根据规则判断是否抓取;网页爬行器模块(2),由筛选过滤器模块(1)中获得下载列表,然后对下载列表中的url链接对应的网页,从互联网上下载下来;原始网页库模块,经网页爬行器模块(2)下载来的网页保存到原始网页库模块中,用于存储网页爬行器模块(2)抓取的原始网页;双语探测模块,从原始网页库模块中读取数据,对某个站点下载下来的网页进行判别,判断含中英句对网页的比例,是否含有双语平行网页,得到该站点是否为双语站点;黑名单模块,从双语探测模块中判断为非双语站点的则加入到黑名单模块中,用于存储禁止抓取的非双语站点主域名;双语网页库模块,用于存储双语探测器模块获得的双语网页资源;链接抽取器模块,从双语网页库模块中读取数据,去除网页中的冗余数据,从网页中抽取超链接。
【技术特征摘要】
1.一种面向web双语平行语料资源的分布式采集系统,其特征在于,该系统包括链接存储库模块,用于存储抓取任务中所包含的超链接;筛选过滤器模块(I),从链接存储库模块中输入链接流,判断链接是否满足爬行条件; 符合爬行条件的再判断是否包含非双语站点,根据规则判断是否抓取;网页爬行器模块(2),由筛选过滤器模块(I)中获得下载列表,然后对下载列表中的 url链接对应的网页,从互联网上下载下来;原始网页库模块,经网页爬行器模块(2)下载来的网页保存到原始网页库模块中,用于存储网页爬行器模块(2)抓取的原始网页;双语探测模块,从原始网页库模块中读取数据,对某个站点下载下来的网页进行判别, 判断含中英句对网页的比例,是否含有双语平行网页,得到该站点是否为双语站点;黑名单模块,从双语探测模块中判断为非双语站点的则加入到黑名单模块中,用于存储禁止抓取的非双语站点主域名;双语网页库模块,用于存储双语探测器模块获得的双语网页资源;链接抽取器模块,从双语网页库模块中读取数据,去除网页中的冗余数据,从网页中抽取超链接。2.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统,其特征在于,所述的链接存储库模块的进一步限定用于存储维护一个大规模爬取的链接库,它包括网页的URL地址、抓取状态和爬取的时间。3.根据权利要求1所述的一种面向web双语平行语料资源的分布式采集系统,其特征在于,所述的筛选过滤器模块(I)的进一步限定筛选过滤器模块(I)通过从链接存储库模块中顺序读取链接项并筛选一个待抓取链接列表;所述筛选的策略由自定义的过滤规则和黑名单规则构成;过滤规则包括通用的正则表达式,以及由黑名单提供的非双语的站点; 从链接存储库模块中读出一条记录后,对其进行规则判断是否将其加入抓取列表,作为网页爬行器模块(2)的输入;另外一个功能,定期的对链接存储库模块进行更新,根据筛选过滤规则,剔除冗余无价值的链接,提高链接存储库质量。4.根据权利要求1所述的一种面向web双语平行语料资源...
【专利技术属性】
技术研发人员:徐志明,张志超,韩啸天,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。