温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质,方法包括:识别存在平行语料的网页;对所述网页进行分组;对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;将分组内保留的文本数据根据不同语种两两...该专利属于北京字节跳动网络技术有限公司所有,仅供学习研究参考,未经过北京字节跳动网络技术有限公司授权不得商用。
温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质,方法包括:识别存在平行语料的网页;对所述网页进行分组;对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;将分组内保留的文本数据根据不同语种两两...