平行语料获取方法、装置、电子设备、及存储介质制造方法及图纸

技术编号:24576518 阅读:48 留言:0更新日期:2020-06-21 00:27
本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质,方法包括:识别存在平行语料的网页;对所述网页进行分组;对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。本公开实施例能够提高获取平行语料的效率,应用该方法能够从海量网页中自动获取大量平行语料数据。

Parallel corpus acquisition method, device, electronic equipment and storage medium

【技术实现步骤摘要】
平行语料获取方法、装置、电子设备、及存储介质
本公开实施例涉及计算机应用
,具体涉及一种平行语料获取方法、装置、电子设备、及存储介质。
技术介绍
语料库的建设是统计学习方法的重要基础,对自然语言处理研究具有巨大价值,特别是双语语料库,已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。现有的机器翻译模型,为了进行有效训练以得到准确的翻译效果,一般都需要大量的平行语料作为训练样本。但是大量平行语料并不容易获得。目前一般采用开发专门定制的抓取与解析抽取器从公开数据集和词典网站中抓取平行例句来生成平行语料。一方面,针对特定网站的专用抓取工具和解析抽取器不具有通用性和扩展性;另一方面,上述站点数量有限,因此获取的平行语料数量有限,内容涵盖的范围也存在局限性。
技术实现思路
有鉴于此,本公开实施例提供一种平行语料获取方法、装置、电子设备、及存储介质,以实现自动从海量网页中获取大量平行语料数据。本公开实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开实施例的实践而习得。本文档来自技高网...

【技术保护点】
1.一种平行语料获取方法,其特征在于,包括:/n识别存在平行语料的网页;/n对所述网页进行分组;/n对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;/n将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。/n

【技术特征摘要】
1.一种平行语料获取方法,其特征在于,包括:
识别存在平行语料的网页;
对所述网页进行分组;
对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;
将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。


2.根据权利要求1所述的方法,其特征在于,识别存在平行语料的网页包括:
从预定网页集中确定网址中包含代表语种的语种信息片段的网页作为所述存在平行语料的网页。


3.根据权利要求2所述的方法,其特征在于,在从预定网页集中确定网址中包含代表语种的语种信息片段的网页作为所述存在平行语料的网页之前还包括:
从周期性抓取的网页中,将当天新增的网页和前N天抓取的网页进行汇聚后作为所述预定网页集,其中所述N为自然数。


4.根据权利要求2所述的方法,其特征在于,对所述网页进行分组包括:
对所述网页的网址去除所述语种信息片段后进行正则匹配,根据正则匹配结果对所述网页进行分组。


5.根据权利要求4所述的方法,其特征在于,在对所述网页进行分组之前还包括,获取语种信息片段样本集,根据所述样本集生成正则表达式;
对所述网页的网址去除所述语种信息片段后进行正则匹配包括:对所述网页的网址去除所述语种信息片段后,基于所述正则表达式进行正则匹配。


6.根据权利要求1所述的方法,其特征在于,对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据包括:
对分组内的网页,获取该网页内的网页文本,对所述网页文本进行语种比例成分检测,若比例最高语种的比例小于预定比例阈值,则过滤掉该网页,否则保留该网页文本中该比例最高语种的文本数据。


7.根据权利要求1所述的方法,其特征在于,对各组合所包含的文本数据对进行文本对齐获取平行语料之前还包括:对各组合所包含的两个文本数据基于长度比例确定是否保留该组合。


8.根据权利要求1所述的方法,其特征在于,对各组合所包含的文本数据对进行文本对齐获取平行语料包括:
确定该文本数据对的两个语种对应的对齐双向词典;
对该文本数据对的第一文本数据中的各源语句,从该文本数据对的第二文本数据中取出一个比对语句,执行如下操作:
对所述源语句...

【专利技术属性】
技术研发人员:曹军李磊王明轩朱培豪
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1