语言处理方法及设备技术

技术编号：21513984 阅读：39 留言：0更新日期：2019-07-03 09:04

一种语言处理方法及设备。所述方法包括：获取源语言和目标语言的n组互译句对，n组互译句对中的每一组互译句对包括互为译文的一个源语言句子和一个目标语言句子，n为大于1的整数；采用源语言的提取规则，从n组互译句对的每个源语言句子中提取源语言片段；从n组互译句对的每个目标语言句子中，分别提取与源语言片段互为译文的目标语言片段；根据从n个目标语言句子中提取的至少n个目标语言片段，生成目标语言的提取规则。本申请实施例提供的方案，通过根据已经确定的源语言的提取规则，能够自动生成目标语言的提取规则，不必通过语言专家总结目标语言的提取规则，节省了人力和时间成本。

Language Processing Method and Equipment

全部详细技术资料下载

【技术实现步骤摘要】
语言处理方法及设备
本申请实施例涉及计算机
，特别涉及一种语言处理方法及设备。
技术介绍
随着人工智能技术的不断发展，让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互，就需要系统能够识别出人类自然语言的具体含义。通常，系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。在相关技术中，利用语言专家针对一种自然语言总结得出的提取规则，来提取该自然语言的句子中的关键信息。例如对于从中文句子提取日期，语言专家总结出的日期提取规则为：【四位数字】年【一至二位数字】月【一至二位数字】日，系统根据该日期的提取规则就能够提取句子中的日期的关键信息。当系统需要识别多种自然语言时，由于不同的自然语言之间的语法区别，一种提取规则无法适用于所有自然语言。对于每一种自然语言，都需要该自然语言的语言专家总结对应的提取规则。当需要多种自然语言的提取规则时，每一种自然语言都需要对应的语言专家总结提取规则，导致耗费过多的时间和人力成本。
技术实现思路
本申请提供了一种语言处理方法及设备，可用于解决在现有技术中需要多种自然语言的提取规则时，由于每一种自然语言都需要对应的语言专家总结提取规则，导致耗费过多的时间和人力成本的问题。第一方面，本申请提供一种语言处理方法，该方法包括：获取源语言和目标语言的n组互译句对，n组互译句对中的每一组互译句对包括互为译文的一个源语言句子和一个目标语言句子，n为大于1的整数；采用源语言的提取规则，从n组互译句对的每个源语言句子中提取源语言片段；从n组互译句对的每个目标语言句子中，分别提取与源...

【技术保护点】
1.一种语言处理方法，其特征在于，所述方法包括：获取源语言和目标语言的n组互译句对，所述n组互译句对中的每一组互译句对包括互为译文的一个源语言句子和一个目标语言句子，所述n为大于1的整数；采用所述源语言的提取规则，从所述n组互译句对的每个源语言句子中提取源语言片段；从所述n组互译句对的每个目标语言句子中，分别提取与所述源语言片段互为译文的目标语言片段；根据从n个目标语言句子中提取的至少n个目标语言片段，生成所述目标语言的提取规则。

【技术特征摘要】
1.一种语言处理方法，其特征在于，所述方法包括：获取源语言和目标语言的n组互译句对，所述n组互译句对中的每一组互译句对包括互为译文的一个源语言句子和一个目标语言句子，所述n为大于1的整数；采用所述源语言的提取规则，从所述n组互译句对的每个源语言句子中提取源语言片段；从所述n组互译句对的每个目标语言句子中，分别提取与所述源语言片段互为译文的目标语言片段；根据从n个目标语言句子中提取的至少n个目标语言片段，生成所述目标语言的提取规则。2.根据权利要求1所述的方法，其特征在于，所述从所述n组互译句对的每个目标语言句子中，分别提取与所述源语言片段互为译文的目标语言片段，包括：对于每一组互译句对，根据所述互译句对间的词对齐关系，获取从所述互译句对的源语言句子中提取的源语言片段包含的各个词语，在所述互译句对的目标语言句子中对应的译文词语；将所述译文词语组合，得到所述互译句对的目标语言句子的目标语言片段。3.根据权利要求1或2所述的方法，其特征在于，每个目标语言片段包括k个域的词语，k为正整数；所述根据从n个目标语言句子中提取的至少n个目标语言片段，生成所述目标语言的提取规则，包括：将所述至少n个目标语言片段中属于同一个域的词语进行合并，得到每个域的合并后的词语，所述属于同一个域的词语是指具有相同语义的词语；对所述每个域的合并后的词语进行泛化，得到所述目标语言的提取规则。4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据从n个目标语言句子中提取的至少n个目标语言片段，生成所述目标语言的提取规则之后，还包括：将所述源语言的提取规则施用于源语言语料库，得到a个源语言片段；以及，将所述目标语言的提取规则施用于目标语言语料库，得到b个目标语言片段；其中，所述源语言语料库中包含的源语言句子和所述目标语言语料库中包含的目标语言句子的数量一致，且互为译文，所述a和所述b均为整数；检测所述a个源语言片段和所述b个目标语言片段是否符合预设条件；若符合所述预设条件，则对所述目标语言的提取规则进行更新。5.根据权利要求4所述的方法，其特征在于，所述预设条件包括：所述a和所述b不相等；和/或，存在至少一组从互译句对中提取的源语言片段和目标语言片段的语义不匹配。6.根据权利要求4所述的方法，其特征在于，所述目标语言的提取规则包括至少一个域对应的提取规则，每个域对应的提取规则用于提取所述目标语言的一种语义的词语；所述对所述目标语言的提取规则进行更新，包括：减小所述目标语言的提取规则中第一域对应的提取规则的泛化程度；和/或，扩大所述目标语言的提取规则中第二域对应的提取规则的泛化程度。7.一种语言处理设备，其特征在于，所述设备包括：获取单元，用于获取源语言和目标语言的n组...

【专利技术属性】
技术研发人员：邢超，陈晓，蔡振林，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人