【技术实现步骤摘要】
数据处理装置、数据处理方法以及电子设备
本专利技术涉及数据处理领域,尤其涉及数据处理装置、数据处理方法以及电子设备。
技术介绍
数据处理是当前较为热门的一个
在数据处理领域中,由于数据信息的种类的丰富性和多样性,处理的目的和要求也不尽相同。语言数据作为众多类型数据中的一种,在人们的日常生活、工作中是极为常见的。例如,电子邮件、手机间互发的短消息以及人们学习和工作中需要处理的各种文件中所包含的文字信息,都是语言数据。在利用现有的用于处理语言数据的技术对如上所述的语言数据进行处理时,尤其是将一种模式的语言数据转换为另一种模式时,其处理的准确度和/或精度往往较低。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。鉴于此,本专利技术提供了数据处理装置、数据处理方法以及电子设备,以至少解决现有的用于处理语言数据的技术所存在 ...
【技术保护点】
一种数据处理装置,包括:语义角色标注单元,用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;匹配单元,用于基于预定双语语料库获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数,其中,所述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及调序结果确定单元,用于将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。
【技术特征摘要】
1.一种数据处理装置,包括:语义角色标注单元,用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;匹配单元,用于基于预定双语语料库获得所述源语言语义角色序列分别与每个所述目标语言语义角色序列之间的匹配分数,其中,所述预定双语语料库包括多个经过语义角色标注的、针对源语言和目标语言的双语句对;以及调序结果确定单元,用于将所述匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果,其中,所述匹配单元包括:相关程度获得子单元,用于针对每个所述目标语言语义角色序列中的每个目标语言谓词,利用所述预定双语语料库,获得该目标语言语义角色序列的包含该目标语言谓词的至少部分子序列与所述源语言语义角色序列之间的相关程度;以及匹配分数确定子单元,用于针对每个所述目标语言语义角色序列,基于获得的与该目标语言语义角色序列有关的所述相关程度来确定该目标语言语义角色序列与所述源语言语义角色序列之间的匹配分数,并且其中,所述匹配分数确定子单元用于根据下式获得所述匹配分数:其中,S为所述源语言语义角色序列,T为所述目标语言语义角色序列,VT为T中的目标语言谓词,ai为T中位于VT左侧的第i个语义角色,h为VT左侧的语义角色数量,bj为T中位于VT右侧的第j个语义角色,k为VT右侧的语义角色数量,P(VT|S)为用于表示S与T的子序列{VT}之间的相关程度的条件概率,P(a1|VT,S)为用于表示S与T的子序列{VT}和{a1,VT}之间的相关程度的条件概率,P(ai|ai-1,VT,S)为用于表示S与T的子序列{ai-1,VT}和{ai,ai-1,VT}之间的相关程度的条件概率,P(b1|VT,S)为用于表示S与T的子序列{VT}和{VT,b1}之间的相关程度的条件概率,以及P(bj|VT,bj-1,S)为用于表示S与T的子序列{VT,bj-1}和{VT,bj-1,bj}之间的相关程度的条件概率。2.根据权利要求1所述的数据处理装置,其中,所述相关程度获得子单元用于针对每个所述目标语言语义角色序列中的每个目标语言谓词,获得如下多种相关程度中的任一种或多种:该目标语言语义角色序列的仅包括该目标语言谓词的子序列与所述源语言语义角色序列之间的相关程度;该目标语言语义角色序列的包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列与所述源语言语义角色序列之间的相关程度;以及该目标语言语义角色序列的仅包括该目标语言谓词的子序列、包括位于该目标语言谓词左侧的至少一个语义角色的子序列、以及包括该目标语言谓词和位于该目标语言谓词左侧的至少一个语义角色的子序列中的至少两种子序列与所述源语言语义角色序列之间的相关程度。3.根据权利要求1所述的数据处理装置,其中,所述相关程度获得子单元用于根据极大似然法获得P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S)。4.根据权利要求3所述的数据处理装置,其中,所述相关程度获得子单元用于根据以下公式获得P(VT|S)、P(a1|VT,S)、P(ai|ai-1,VT,S)、P(b1|VT,S)以及P(bj|VT,bj-1,S):
【专利技术属性】
技术研发人员:张姝,孟遥,于浩,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。