【技术实现步骤摘要】
双语语料句对齐方法、装置、可读存储介质和计算机设备
本申请涉及计算机
,特别是涉及一种双语语料句对齐方法、装置、计算机可读存储介质和计算机设备。
技术介绍
在对篇章级对齐的双语平行语料中进行句级别对齐时,一种可行的做法是利用句长信息及词汇信息判断两种语言平行语料中各个句子的相似程度。譬如,如果两个句子的长度相差较大,则两个句子的相似度较低,为平行句对的可能性也就较小。又或者,如果两个句子同时包含相同的数字,或包含相同的字母串,则两个句子的相似程度较高,两者为平行句对的可能性也就越高。以及,当两句话中包含同一个概念在两种语言中的单词,则两种语言的相似度也更高,譬如英文句子包含“Framework”而中文包含“框架”。基于此对齐逻辑,通用的处理流程是先对两种语言的句对分别进行令牌化,令牌化操作等价于对句子进行分词操作,亦即将连贯的一句话拆解为一个个的词语,并提供预先生成或抽取好的双语词典作为辅助信息进行对齐。如果未能提供已有的双语词典,则可以使用句长法对语料进行初步对齐后,再对已经初步对齐的语料抽取双语词典,利用双语词典进行第二次的对齐。但针对多个语种的待对齐语料进行对齐时,需要在一台服务器上部署各个语种对应的分词工具,以实现抽取不同语种的双语词典,对不同语种的待对齐语料进行对齐。以Python为例,中文的可以使用jieba,日语的可以使用mecab,韩语则可以使用mecab的ko扩展等。不同分词工具,不仅依赖于不同的运行环境(比如mecab需要额外的C++支持,mecab的ko拓展更是只可以运行在 ...
【技术保护点】
1.一种双语语料句对齐方法,包括:/n获取待对齐平行文本及所述待对齐平行文本中原文文本的语种类型和译文文本的语种类型;/n对所述待对齐平行文本进行预处理,获得待对齐平行句对;/n从单语分词模型组中调用与所述原文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的原文文本进行分词处理,获得待对齐原文的句片段组;/n从所述单语分词模型组中调用与所述译文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的译文文本进行分词处理,获得待对齐译文的句片段组;/n根据预设的格式处理方式,对所述待对齐原文的句片段组和所述待对齐译文的句片段组进行格式处理,获得双语句对组;/n基于所述预设的格式处理方式,获取与所述原文文本的语种类型和所述译文文本的语种类型对应的双语词典;/n调用句对齐工具,根据所述双语词典,对所述双语句对组进行句对齐处理,获得句对齐平行语料;/n所述单语分词模型的训练方式包括:/n获取与待训练单语分词模型的语种类型对应单语数据;/n对所述单语数据进行预处理,获得单语数据样本;/n通过SentencePiece算法基于所述单语数据样本进行单语分词模型训练,获得单语分词模型。/n
【技术特征摘要】 【专利技术属性】
1.一种双语语料句对齐方法,包括:
获取待对齐平行文本及所述待对齐平行文本中原文文本的语种类型和译文文本的语种类型;
对所述待对齐平行文本进行预处理,获得待对齐平行句对;
从单语分词模型组中调用与所述原文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的原文文本进行分词处理,获得待对齐原文的句片段组;
从所述单语分词模型组中调用与所述译文文本的语种类型对应的单语分词模型,对所述待对齐平行句对中的译文文本进行分词处理,获得待对齐译文的句片段组;
根据预设的格式处理方式,对所述待对齐原文的句片段组和所述待对齐译文的句片段组进行格式处理,获得双语句对组;
基于所述预设的格式处理方式,获取与所述原文文本的语种类型和所述译文文本的语种类型对应的双语词典;
调用句对齐工具,根据所述双语词典,对所述双语句对组进行句对齐处理,获得句对齐平行语料;
所述单语分词模型的训练方式包括:
获取与待训练单语分词模型的语种类型对应单语数据;
对所述单语数据进行预处理,获得单语数据样本;
通过SentencePiece算法基于所述单语数据样本进行单语分词模型训练,获得单语分词模型。
2.根据权利要求1所述的方法,其特征在于,双语词典的训练方式包括:
从句对齐平行语料库中获取与待训练双语词典的语种类型对应的句对齐平行语料样本,所述待训练双语词典的语种类型包括原文语料的语种类型和译文语料的语种类型;
对所述句对齐平行语料样本进行预处理,得到句对齐平行语料对;
从所述单语分词模型组中调用与所述原文语料的语种类型对应的单语分词模型,对所述句对齐平行语料对中的原文语料进行分词处理,获得样本原文的句片段组;
从所述单语分词模型组中调用与所述译文语料的语种类型对应的单语分词模型,对所述句对齐平行语料对中的译文语料进行分词处理,获得样本译文的句片段组;
根据所述预设的格式处理方式,对所述样本原文的句片段组和所述样本译文的句片段组进行格式处理,获得双语句对样本组;
通过双语词对抽取算法对所述双语句对样本组进行对齐,获得双语词典。
3.根据权利要求1或2所述的方法,其特征在于,所述预设的格式处理方式,包括:
获取待格式处理的句片段组;
检测所述句片段组中的下划线符,将检测到的下划线符从所述句片段组中去除。
4.根据权利要求1或2所述的方法,其特征在于,所述预设的格式处理方式,包括:
获取待格式处理的句片段组以及对应的语种类型;
根据句片段组的语种类型,确定所述句片段组是否属于格式处理对象;
当所述句片段组属于格式处理对象时,检测所述句片段组中的下划线符,将检测到的下划线符从所述句片段组中去除。
技术研发人员:鲁思祈,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。