【技术实现步骤摘要】
语料匹配方法、装置、设备及存储介质
[0001]本申请涉及数据处理
,特别是涉及一种语料匹配方法、相应的一种语料匹配装置、相应的一种电子设备以及一种计算机存储介质。
技术介绍
[0002]目前,通常可利用语料建立知识体系,例如语料库等,在应用多种不同领域时基于所建立的语料库提供进行语料分析、语料匹配等操作的支持。其中,所应用的领域可以包括翻译领域,即在翻译领域中可借助语料库进行语料匹配,实现语料匹配准确度和语料复用的最大化。
[0003]然而,在翻译领域进行语料匹配时,通常存在一句多匹配(即同一句源语言对应不同的目标语言的句子。以中翻英为例,存在同样一句中文对应不同的英文句子),因为同样一句话,在不同的产品的文档以及同一产品的不同文档类型需要翻译成同一语种中的不同句子。对于这种情况,相关的采用语料库中混合语料匹配的方式将会导致语料匹配不准确,且不利于翻译效率的提高。
技术实现思路
[0004]鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语料匹配方法、相 ...
【技术保护点】
【技术特征摘要】
1.一种语料匹配方法,其特征在于,所述方法包括:获取待匹配的语料以及所述待匹配的语料的需求匹配类型;根据所述待匹配的语料的需求匹配类型获取与所述需求匹配类型相符的语料库;所述语料库中所包含的每个句对具有多重的属性设置;根据所述语料库中所包含的每个句对具有多重的属性设置,得到与所述待匹配的语料匹配的目标语料。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取多个语料库以及各个语料库中所包含的各个句对,确定每个句对所涉及的至少一个应用场景;基于每个句对涉及的应用场景的信息,对每个句对设置多重的属性;所设置的多重的属性包括句对涉及的产品编码、句对涉及的文档类型以及句对涉及的文档主题标识;其中,同一产品编码下具有多种文档类型的文档,每种文档类型的文档由多个文档主题标识的文档组成。3.根据权利要求1所述的方法,其特征在于,所述根据所述待匹配的语料的需求匹配类型获取与所述需求匹配类型相符的语料库,包括:获取基于所述需求匹配类型进行多层分级设置的主语料库和参考语料库;其中,所述获取基于所述需求匹配类型进行多层分级设置的主语料库和参考语料库,包括:获取与所述需求匹配类型相符的语料库,所述需求匹配类型包括匹配属性范围;采用所述匹配属性范围对与所述需求匹配类型相符的语料库进行设置,并按照所设置的各个语料库的优先级将设置匹配属性范围后的语料库划分为主语料库和参考语料库。4.根据权利要求3所述的方法,其特征在于,所述根据所述语料库中所包含的每个句对具有多重的属性设置,得到与所述待匹配的语料匹配的目标语料,包括:基于所获取的主语料库和参考语料库中所包含的每个句对的多重的属性,从主语料库和参考语料库中匹配得到符合匹配属性范围的目标语料。5.根据权利要求4所述的方法,其特征在于,还包括:在匹配的过程中,若所获取的主语料库和/或参考语料库设置有针对其自身的新增句对自动导入功能,则自动导入新增句对至设置有新增句对自动导入功能的相应数据库,并为所导入的新增句对增加属性设置;其中,所导入的新增句对为在去重后保存的在历史匹配过程中得到的语料。6.根据权利要求4或5所述的方法,其特征在于,所获取的语料库中所包含的句对包括...
【专利技术属性】
技术研发人员:聂香国,邴孝娟,吴翰清,周凤鸣,
申请(专利权)人:阿里云计算有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。