一种基于词向量的英汉词义映射方法和装置制造方法及图纸

技术编号:14452084 阅读:58 留言:0更新日期:2017-01-18 13:56
本发明专利技术公开了一种词向量的英汉词义映射方法和装置。方法包括:由英文知识库提取待映射词义的同义词集,而后根据英汉词典查询同义词集中各个同义词的候选中文词义;由英文知识库提取待映射词义的英文注释和例句,并根据英汉词典查询各个候选中文词义的英文注释和例句;在英文语料库上训练词向量,为各个英文注释和例句分别生成句子向量;计算待映射词义的英文注释和例句的句子向量与候选中文词义的英文注释和例句的句子向量的相似度,并计算待映射词义与候选中文词义的综合相似度;选择综合相似度最大的候选中文词义作为待映射词义的目标词义。本发明专利技术可以有效发挥词向量的优势,更为准确地进行词义映射。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,具体涉及一种基于词向量的英汉词义映射方法和装置
技术介绍
词义映射是指将知识库中的词义由一种语言描述映射为其它语言描述的过程。词义映射是自然语言处理领域中语言基础资源建设的一项重要工作。作为一项基础性任务,其对词义消歧、语义分析、机器翻译等应用具有重要影响。最初词义映射工作主要以手工的方式开展,人工去逐条映射知识库中的词义。这种方法能够保证词义映射的正确率,但因知识库中的词义概念非常丰富、数据量巨大,这种手工映射的方法耗时耗力,难以完成。随着机器翻译技术的发展,有研究人员开始使用机器翻译的方法进行词义映射,将待映射词义送入机器翻译系统,由该系统自动输出词义映射结果。这种方法利用机器翻译技术自动处理,省时省力,但因机器翻译的质量并不可靠,词义映射的正确率难以保证。无论手工映射方法,还是机器翻译的映射方法,显然都不能满足大规模知识库的词义映射的需求。针对这些问题,本专利技术提出了基于词向量的英汉词义映射方法和装置,该方法综合考虑词义的注释和例句信息,利用词向量为注释和例句生成句子向量,而后利用句子向量综合比较不同词义的相似度,判定待映射英文词义的目标中文词义。该方法能解决现有映射方法的不足,提高词义映射的正确率。
技术实现思路
本专利技术公开了一种基于词向量的英汉词义映射方法和装置,以更有效地进行词义映射。为此,本专利技术提供如下技术方案:一种基于词向量的英汉词义映射方法,包括以下步骤:步骤一、由英文知识库提取待映射词义的同义词集,而后根据英汉词典查询同义词集中各个同义词的候选中文词义;步骤二、由英文知识库提取待映射词义的英文注释和例句,并根据英汉词典查询步骤一所得的各个候选中文词义的英文注释和例句;步骤三、在大规模英文语料库上训练词向量,而后为步骤二所得的各个英文注释和例句分别生成句子向量;步骤四、计算步骤三所得的待映射词义的英文注释和例句的句子向量与候选中文词义的英文注释和例句的句子向量的相似度,而后计算待映射词义与候选中文词义的综合相似度;步骤五、选择综合相似度最大的候选中文词义作为待映射词义的目标词义。进一步的,所述步骤一中,在提取同义词集和查询候选中文词义时,具体为:步骤1-1)由英文知识库,提取待映射词义的同义词集;步骤1-2)根据英汉词典,查询同义词集中各个同义词的候选中文词义。进一步的,所述步骤二中,在提取英文注释和例句时,具体为:步骤2-1)由英文知识库,提取待映射词义的英文注释和例句;步骤2-2)根据英汉词典,查询步骤1-2)所得的各个候选中文词义的英文注释和例句。进一步的,所述步骤三中,在训练词向量并生成句子向量时,具体为:步骤3-1)在大规模英文语料库上训练词向量;步骤3-2)对步骤二所得的英文注释和例句进行词形还原、提取实词等预处理;步骤3-3)根据步骤3-1)所得的词向量,为步骤3-2)处理得到的英文注释和例句分别生成句子向量,具体为:将英文注释或例句记作s,将句子中的某一实词记作w,则句子s的句子向量可由公式(1)获得;s→=Σk=1k=|s|wk→---(1)]]>其中,|s|表示句子s包含的实词的数量,表示实词wk的词向量。进一步的,所述步骤四中,在计算词义相似度时,具体为:步骤4-1)计算步骤三所得的待映射词义的英文注释和例句的句子向量与候选中文词义的英文注释和例句的句子向量的相似度,具体为:将英文注释或例句记作s;任意两个句子si和sj的句子向量相似度可通过公式(2)求得;sim(si,sj)=si→·sj→|si→|×|sj→|---(2)]]>其中,和表示句子si和sj的句子向量,和表示向量和的模。将公式(1)代入公式(2),可得公式(3)。sim(si,sj)=Σk=1k=|si|wk→·Σk=1k=|sj|wk→|Σk=1k=|si|wk→|×|Σk=1k=|sj|wk→|---(3)]]>为了使相似度得分在0到1之间,以便于之后对其进行比较,将公式(3)中的句子向量利用函数做归一化处理,则公式(3)将转化为公式(4);sim(si,sj)=u(Σk=1k=|si|wk→)·u(Σk=1k=|sj|wk→)|u(Σk=1k=|si|wk→)|×|u(Σk=1k=|sj|wk→)|---(4)]]>其中,函数的归一化处理,即指将转化为单位向量。该处理仅改变向量大小并不改变方向,不影响向量的余弦相似度计算。步骤4-2)由步骤4-1)所得的英文注释和例句的句子向量相似度,计算待映射词义与候选中文词义的综合相似度,具体为:将英文知识库中的待映射词义记作Bs,将某一候选中文词义记作Ds,其综合相似度可由公式(5)计算;score(Bs,Ds)=αsim(Bsgl,Dsgl)+(1-α)maxBsex∈BsexsDsex∈Dsexssim(Bsex,Dsex)---(5)]]>其中,Bsgl为Bs的英文注释,Dsgl为Ds的英文注释,Bsexs为Bs的英文例句集合,Dsexs为Ds的英文例句集合,Bsex为Bsexs中的一条例句,Dsex为Dsexs中的一条例句,α和(1-α)分别表示注释和例句的权重,sim(Bsgl,Dsgl)和sim(Bsex,Dsex)由公式(4)计算。进一步的,所述步骤五中,选择综合相似度最大的候选中文词义作为待映射词义的目标词义时,具体为:将英文知识库中的待映射词义记作Bs,将某一候选中文词义记作Ds,则Bs映射的目标词义Ts可由公式(6)而得;Ts=argmaxDsi∈Dssscore(Bs,Dsi)---(6)]]>其中,Dss表示Bs的候选中文词义的集合,Dsi表示Dss中的第i个候选中文词义,score(Bs,Dsi)可由公式(5)计算求得。一种基于词向量的英汉词义映射装置,包括:候选词义查询单元,用于在英文知识库中提取待映射词义的同义词集,而后根据英汉词典查询同义词集中各个同义词的候选中文词义;注释和例句提取单元,用于在英文知识库提取待映射词义的英文注释和例句,并根据英汉词典查询候选词义查询单元所得的各个候选中文词义的英文注释和例句;句子向量生成单元,用于在大规模英文语料库上训练词向量,而后为注释和例句提取单元所得的各个英文注释和例句分别生成句子向量;词义相似度计算单元,用于计算句子向量生成单元所得的待映射词义的英文注释和例句的句子向量与候选中文词义的英文注释和例句的句子向量的相似度,而后计算待映射词义与候选中文词义的综合相似度;目标词义选择单元,用于选择综合相似度最大的候选中文词义作为待映射词义的目标词义。进一步的,所述候选词本文档来自技高网...

【技术保护点】
一种基于词向量的英汉词义映射方法,其特征在于,该方法包括以下步骤:步骤一、由英文知识库提取待映射词义的同义词集,而后根据英汉词典查询同义词集中各个同义词的候选中文词义;步骤二、由英文知识库提取待映射词义的英文注释和例句,并根据英汉词典查询步骤一所得的各个候选中文词义的英文注释和例句;步骤三、在大规模英文语料库上训练词向量,而后为步骤二所得的各个英文注释和例句分别生成句子向量;步骤四、计算步骤三所得的待映射词义的英文注释和例句的句子向量与候选中文词义的英文注释和例句的句子向量的相似度,而后计算待映射词义与候选中文词义的综合相似度;步骤五、选择综合相似度最大的候选中文词义作为待映射词义的目标词义。

【技术特征摘要】
1.一种基于词向量的英汉词义映射方法,其特征在于,该方法包括以下步骤:步骤一、由英文知识库提取待映射词义的同义词集,而后根据英汉词典查询同义词集中各个同义词的候选中文词义;步骤二、由英文知识库提取待映射词义的英文注释和例句,并根据英汉词典查询步骤一所得的各个候选中文词义的英文注释和例句;步骤三、在大规模英文语料库上训练词向量,而后为步骤二所得的各个英文注释和例句分别生成句子向量;步骤四、计算步骤三所得的待映射词义的英文注释和例句的句子向量与候选中文词义的英文注释和例句的句子向量的相似度,而后计算待映射词义与候选中文词义的综合相似度;步骤五、选择综合相似度最大的候选中文词义作为待映射词义的目标词义。2.根据权利要求1所述的基于词向量的英汉词义映射方法,其特征在于,所述步骤一中,在提取同义词集和查询候选中文词义时,具体为:步骤1-1)由英文知识库,提取待映射词义的同义词集;步骤1-2)根据英汉词典,查询同义词集中各个同义词的候选中文词义。3.根据权利要求1所述的基于词向量的英汉词义映射方法,其特征在于,所述步骤二中,在提取英文注释和例句时,具体为:步骤2-1)由英文知识库,提取待映射词义的英文注释和例句;步骤2-2)根据英汉词典,查询步骤1-2)所得的各个候选中文词义的英文注释和例句。4.根据权利要求1所述的基于词向量的英汉词义映射方法,其特征在于,所述步骤三中,在训练词向量并生成句子向量时,具体为:步骤3-1)在大规模英文语料库上训练词向量;步骤3-2)对步骤二所得的英文注释和例句进行词形还原、提取实词等预处理;步骤3-3)根据步骤3-1)所得的词向量,为步骤3-2)处理得到的英文注释和例句分别生成句子向量,具体为:将英文注释或例句记作s,将句子中的某一实词记作w,则句子s的句子向量可由公式(1)获得;s→=Σk=1k=|s|wk→---(1)]]>其中,|s|表示句子s包含的实词的数量,表示实词wk的词向量。5.根据权利要求1所述的基于词向量的英汉词义映射方法,其特征在于,所述步骤四中,在计算词义相似度时,具体为:步骤4-1)计算步骤三所得的待映射词义的英文注释和例句的句子向量与候选中文词义的英文注释和例句的句子向量的相似度,具体为:将英文注释或例句记作s;任意两个句子si和sj的句子向量相似度可通过公式(2)求得;sim(si,sj)=si→·sj→|si→|×|sj→|---(2)]]>其中,和表示句子si和sj的句子向量,和表示向量和的模;将公式(1)代入公式(2),可得公式(3);sim(si,sj)=Σk=1k=|si|wk→·Σk=1k=|sj|wk→|Σk=1k=|si|wk→|×|Σk=1k=|sj|wk→|---(3)]]>为了使相似度得分在0到1之间,以便于之后对其进行比较,将公式(3)中的句子向量利用函数做归一化处理,则公式(3)将转化为公式(4);sim(si,sj)=u(Σk=1k=|si|wk→)·u(Σk=1k=|sj|wk→)|u(Σk=1k...

【专利技术属性】
技术研发人员:鹿文鹏孟凡擎张玉腾
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1