【技术实现步骤摘要】
平行语料获取方法、装置、电子设备、及存储介质
本公开实施例涉及计算机应用
,具体涉及一种平行语料获取方法、装置、电子设备、及存储介质。
技术介绍
语料库的建设是统计学习方法的重要基础,对自然语言处理研究具有巨大价值,特别是双语语料库,已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。现有的机器翻译模型,为了进行有效训练以得到准确的翻译效果,一般都需要大量的平行语料作为训练样本。但是大量平行语料并不容易获得。目前一般采用开发专门定制的抓取与解析抽取器从公开数据集和词典网站中抓取平行例句来生成平行语料。一方面,针对特定网站的专用抓取工具和解析抽取器不具有通用性和扩展性;另一方面,上述站点数量有限,因此获取的平行语料数量有限,内容涵盖的范围也存在局限性。
技术实现思路
有鉴于此,本公开实施例提供一种平行语料获取方法、装置、电子设备、及存储介质,以实现自动从海量文档中获取大量平行语料数据。本公开实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开 ...
【技术保护点】
1.一种平行语料获取方法,其特征在于,包括:/n获取目标文档内的文本数据;/n对所述文本数据进行语种检测;/n若所述文本数据包括至少两个语种,则保留所述文本数据;/n检测保留的文本数据中,各语种的词汇分布比例;/n若词汇分布比例最高的第一语种和第二语种的词汇分布比例均大于预定比例阈值,则保留所检测的文本数据;/n从保留的所检测的文本数据中抽取所述第一语种的语句作为第一语句集,以及抽取所述第二语种的语句作为第二语句集;/n将所述第一语句集和所述第二语句集进行语句对齐;以及/n确定对齐度大于预定对齐度阈值的语句对作为平行语料。/n
【技术特征摘要】
1.一种平行语料获取方法,其特征在于,包括:
获取目标文档内的文本数据;
对所述文本数据进行语种检测;
若所述文本数据包括至少两个语种,则保留所述文本数据;
检测保留的文本数据中,各语种的词汇分布比例;
若词汇分布比例最高的第一语种和第二语种的词汇分布比例均大于预定比例阈值,则保留所检测的文本数据;
从保留的所检测的文本数据中抽取所述第一语种的语句作为第一语句集,以及抽取所述第二语种的语句作为第二语句集;
将所述第一语句集和所述第二语句集进行语句对齐;以及
确定对齐度大于预定对齐度阈值的语句对作为平行语料。
2.根据权利要求1所述的方法,其特征在于,将所述第一语句集和所述第二语句集进行语句对齐包括:
确定用于对齐所述第一语种语句和所述第二语种语句的对齐双向词典;
对所述第一语句集中的任一源语句,从所述第二语句集中取出一个比对语句,执行如下操作;
对所述源语句进行分词和词性过滤得到第一词集,确定所述第一词集中属于所述对齐双向词典中的第一对齐词集;以及对所述比对语句进行分词和词性过滤得到第二词集,确定所述第二词集中属于所述对齐双向词典中的第二对齐词集;
根据所述第一词集的词数、第一对齐词集的词数、所述第二词集的词数、以及所述第二对齐词集的词数确定所述源词句和所述比对语句之间的对齐度。
3.根据权利要求2所述的方法,其特征在于,对所述第一语句集中的任一源语句,从所述第二语句集中取出一个比对语句包括:
顺次获取所述第一语句集中的一个语句作为所述源语句,若所述源语句的前一语句与所述第二语句集中的第I语句之间的对齐度大于所述预定对齐度阈值,且所述I小于所述第二语句集的语句数,则从所述第二语句集中取出所述第I语句的下一语句作为所述对比语句,其中所述I为自然数。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括,在确定对齐度大于预定对齐度阈值的语句对作为平行语料之后:
筛选出对齐度大于预定第二对齐度阈值的平行语料,其中所述预定第二对齐度阈值大于所述预定对齐度阈值;
将所筛选的平行语料传送给用于生成对齐双向词典的训练模型进行训练以优化所述训练模型;
采用优化后的所述训练模型生成新的对齐双向词典以更新所述对齐双向词典。
5.根据权利...
【专利技术属性】
技术研发人员:曹军,李磊,王明轩,朱培豪,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。