语言处理方法及设备技术

技术编号:21513984 阅读:39 留言:0更新日期:2019-07-03 09:04
一种语言处理方法及设备。所述方法包括:获取源语言和目标语言的n组互译句对,n组互译句对中的每一组互译句对包括互为译文的一个源语言句子和一个目标语言句子,n为大于1的整数;采用源语言的提取规则,从n组互译句对的每个源语言句子中提取源语言片段;从n组互译句对的每个目标语言句子中,分别提取与源语言片段互为译文的目标语言片段;根据从n个目标语言句子中提取的至少n个目标语言片段,生成目标语言的提取规则。本申请实施例提供的方案,通过根据已经确定的源语言的提取规则,能够自动生成目标语言的提取规则,不必通过语言专家总结目标语言的提取规则,节省了人力和时间成本。

Language Processing Method and Equipment

【技术实现步骤摘要】
语言处理方法及设备
本申请实施例涉及计算机
,特别涉及一种语言处理方法及设备。
技术介绍
随着人工智能技术的不断发展,让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互,就需要系统能够识别出人类自然语言的具体含义。通常,系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。在相关技术中,利用语言专家针对一种自然语言总结得出的提取规则,来提取该自然语言的句子中的关键信息。例如对于从中文句子提取日期,语言专家总结出的日期提取规则为:【四位数字】年【一至二位数字】月【一至二位数字】日,系统根据该日期的提取规则就能够提取句子中的日期的关键信息。当系统需要识别多种自然语言时,由于不同的自然语言之间的语法区别,一种提取规则无法适用于所有自然语言。对于每一种自然语言,都需要该自然语言的语言专家总结对应的提取规则。当需要多种自然语言的提取规则时,每一种自然语言都需要对应的语言专家总结提取规则,导致耗费过多的时间和人力成本。
技术实现思路
本申请提供了一种语言处理方法及设备,可用于解决在现有技术中需要多种自然语言的提取规则时,由于每一种自然语言都需要对应的语言专家总结提取规则,导致耗费过多的时间和人力成本的问题。第一方面,本申请提供一种语言处理方法,该方法包括:获取源语言和目标语言的n组互译句对,n组互译句对中的每一组互译句对包括互为译文的一个源语言句子和一个目标语言句子,n为大于1的整数;采用源语言的提取规则,从n组互译句对的每个源语言句子中提取源语言片段;从n组互译句对的每个目标语言句子中,分别提取与源语言片段互为译文的目标语言片段;根据从n个目标语言句子中提取的至少n个目标语言片段,生成目标语言的提取规则。本申请提供的方案中,通过源语言的提取规则以及源语言和目标语言的n组互译句对,提取至少n个目标语言片段,再根据至少n个目标语言片段生成目标语言的提取规则。根据已经确定的源语言的提取规则,能够自动生成目标语言的提取规则,不必通过语言专家总结目标语言的提取规则,节省了人力和时间成本。在一个可能的设计中,从n组互译句对的每个目标语言句子中,分别提取与源语言片段互为译文的目标语言片段,包括:对于每一组互译句对,根据互译句对间的词对齐关系,获取从互译句对的源语言句子中提取的源语言片段包含的各个词语,在互译句对的目标语言句子中对应的译文词语;将译文词语组合,得到互译句对的目标语言句子的目标语言片段。本申请提供的方案中,通过根据互译句对之间的词对齐关系和源语言片段,准确地获取互译句对的目标语言句子的目标语言片段。在另一个可能的设计中,每个目标语言片段包括k个域的词语,k为正整数;根据从n个目标语言句子中提取的至少n个目标语言片段,生成目标语言的提取规则,包括:将至少n个目标语言片段中属于同一个域的词语进行合并,得到每个域的合并后的词语,属于同一个域的词语是指具有相同语义的词语;对每个域的合并后的词语进行泛化,得到目标语言的提取规则。本申请提供的方案中,通过对至少n个目标语言片段中属于同一个域的词语进行合并与泛化,从而自动生成目标语言的提取规则。在又一个可能的设计中,根据从n个目标语言句子中提取的至少n个目标语言片段,生成目标语言的提取规则之后,还包括:将源语言的提取规则施用于源语言语料库,得到a个源语言片段;以及,将目标语言的提取规则施用于目标语言语料库,得到b个目标语言片段;其中,源语言语料库中包含的源语言句子和目标语言语料库中包含的目标语言句子的数量一致,且互为译文,a和b均为整数;检测a个源语言片段和b个目标语言片段是否符合预设条件;若符合预设条件,则对目标语言的提取规则进行更新。本申请提供的方案中,通过对目标语言的提取规则进行更新,确保目标语言的提取规则的准确性,避免根据目标语言的提取规则提取信息时发生错误。在又一个可能的设计中,预设条件包括:a和b不相等;和/或,存在至少一组从互译句对中提取的源语言片段和目标语言片段的语义不匹配。本申请提供的方案中,通过预先设定的预设条件,能够准确地检测目标语言的提取规则是否准确。在又一个可能的设计中,目标语言的提取规则包括至少一个域对应的提取规则,每个域对应的提取规则用于提取目标语言的一种语义的词语。对目标语言的提取规则进行更新,包括:减小目标语言的提取规则中第一域对应的提取规则的泛化程度;和/或,扩大目标语言的提取规则中第二域对应的提取规则的泛化程度。本申请提供的方案中,通过减小或扩大目标语言的提取规则的泛化程度,准确地对目标语言的提取规则进行更新,以确保目标语言的提取规则的准确性。第二方面,本申请提供了一种语言处理设备,该设备包括用于执行上述第一方面及第一方面的各种可能的设计中的任意一个设计所提供的语言处理方法的单元或手段。第三方面,本申请提供了一种语言处理设备,包括处理器和存储器,其中,存储器中存有计算机可读程序;该处理器通过运行存储器中的程序,以用于完成上述第一方面及第一方面的各个可能的设计中的任意一个设计所提供的语言处理方法。第四方面,本申请提供一种计算机存储介质,用于储存为语言处理设备所用的计算机软件指令,其包含用于执行上述方面所设计的程序。第五方面,本申请提供一种计算机程序产品,当该计算机程序产品被执行时,其用于执行上述第一方面及第一方面的各种可能的设计中的任意一个设计所提供的语言处理方法。相较于现有技术,本申请提供的方案中,通过源语言的提取规则以及源语言和目标语言的n组互译句对,提取至少n个目标语言片段,再根据至少n个目标语言片段生成目标语言的提取规则。根据已经确定的源语言的提取规则,能够自动生成目标语言的提取规则,不必通过语言专家总结目标语言的提取规则,节省了人力和时间成本。附图说明图1是本申请一个实施例提供的语言处理方法的流程图;图2是本申请一个实施例提供的词对齐关系的示意图;图3是本申请另一个实施例提供的语言处理方法的流程图;图4是本申请一个实施例提供的生成目标语言的提取规则的示意图;图5A是本申请一个实施例提供的语言处理设备的示意性框图;图5B是本申请一个实施例提供的语言处理设备的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,例如该计算机设备可以是PC(PersonalComputer,个人计算机)或者服务器。当计算设备作为本申请实施例提供的方法的执行主体时,也可以称为语言处理设备。可选地,该计算机设备包括一数据库,该数据库中存储有多种自然语言的语料库和提取规则。为了便于说明,在下述方法实施例中,仅以各步骤的执行主体为计算机设备进行介绍说明,但对此不构成限定。请参考图1,其示出了本申请一个实施例提供的语言处理方法的流程图。该方法可以包括如下几个步骤。步骤101,获取源语言和目标语言的n组互译句对。源语言是指已经总结出一条或多条提取规则的一种自然语言,而目标语言是指需要生成提取规则的一种自然语言。计算机设备需要生成目标语言的一条提取规则时,先获取源语言和目标语言的n组互译句对,n为大于1的整数。源语言和目标语言的互译句对是指互为译文的一对源语言句子和目标本文档来自技高网...

【技术保护点】
1.一种语言处理方法,其特征在于,所述方法包括:获取源语言和目标语言的n组互译句对,所述n组互译句对中的每一组互译句对包括互为译文的一个源语言句子和一个目标语言句子,所述n为大于1的整数;采用所述源语言的提取规则,从所述n组互译句对的每个源语言句子中提取源语言片段;从所述n组互译句对的每个目标语言句子中,分别提取与所述源语言片段互为译文的目标语言片段;根据从n个目标语言句子中提取的至少n个目标语言片段,生成所述目标语言的提取规则。

【技术特征摘要】
1.一种语言处理方法,其特征在于,所述方法包括:获取源语言和目标语言的n组互译句对,所述n组互译句对中的每一组互译句对包括互为译文的一个源语言句子和一个目标语言句子,所述n为大于1的整数;采用所述源语言的提取规则,从所述n组互译句对的每个源语言句子中提取源语言片段;从所述n组互译句对的每个目标语言句子中,分别提取与所述源语言片段互为译文的目标语言片段;根据从n个目标语言句子中提取的至少n个目标语言片段,生成所述目标语言的提取规则。2.根据权利要求1所述的方法,其特征在于,所述从所述n组互译句对的每个目标语言句子中,分别提取与所述源语言片段互为译文的目标语言片段,包括:对于每一组互译句对,根据所述互译句对间的词对齐关系,获取从所述互译句对的源语言句子中提取的源语言片段包含的各个词语,在所述互译句对的目标语言句子中对应的译文词语;将所述译文词语组合,得到所述互译句对的目标语言句子的目标语言片段。3.根据权利要求1或2所述的方法,其特征在于,每个目标语言片段包括k个域的词语,k为正整数;所述根据从n个目标语言句子中提取的至少n个目标语言片段,生成所述目标语言的提取规则,包括:将所述至少n个目标语言片段中属于同一个域的词语进行合并,得到每个域的合并后的词语,所述属于同一个域的词语是指具有相同语义的词语;对所述每个域的合并后的词语进行泛化,得到所述目标语言的提取规则。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据从n个目标语言句子中提取的至少n个目标语言片段,生成所述目标语言的提取规则之后,还包括:将所述源语言的提取规则施用于源语言语料库,得到a个源语言片段;以及,将所述目标语言的提取规则施用于目标语言语料库,得到b个目标语言片段;其中,所述源语言语料库中包含的源语言句子和所述目标语言语料库中包含的目标语言句子的数量一致,且互为译文,所述a和所述b均为整数;检测所述a个源语言片段和所述b个目标语言片段是否符合预设条件;若符合所述预设条件,则对所述目标语言的提取规则进行更新。5.根据权利要求4所述的方法,其特征在于,所述预设条件包括:所述a和所述b不相等;和/或,存在至少一组从互译句对中提取的源语言片段和目标语言片段的语义不匹配。6.根据权利要求4所述的方法,其特征在于,所述目标语言的提取规则包括至少一个域对应的提取规则,每个域对应的提取规则用于提取所述目标语言的一种语义的词语;所述对所述目标语言的提取规则进行更新,包括:减小所述目标语言的提取规则中第一域对应的提取规则的泛化程度;和/或,扩大所述目标语言的提取规则中第二域对应的提取规则的泛化程度。7.一种语言处理设备,其特征在于,所述设备包括:获取单元,用于获取源语言和目标语言的n组...

【专利技术属性】
技术研发人员:邢超陈晓蔡振林
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1