【技术实现步骤摘要】
从图片中自动提取双语词典的方法及装置
本专利技术涉及计算机
,尤其涉及一种从图片中自动提取双语词典的方法及装置。
技术介绍
互联网技术的发展让我们的知识面更加广阔,获取的知识也日益丰富。不过问题也随之而来,有些网络只有详尽的英文或者其他外文资料而没有我们熟悉的汉语资料,这就给我们工作和生活带来极大的不便。目前网络中有很多翻译系统,这些翻译系统可以通过双语词典为我们提供翻译服务,即利用双语词典将一种我们不熟悉的语言翻译成我们熟悉的语言。而双语词典对于一个翻译系统而言非常重要。现有技术中一般利用双语文本(如联合国用多种语言发布的文档)或双语网页(如多种语言的网站)来获取双语句对,并双语从句对中抽取双语词典。由此可见,现有双语词典的生成主要依赖双语文本和网页资源。而随着信息技术的快速发展,信息载体多种多样,包括文字、图片和多媒体等,其中,图片具有包含数据量大、表现形式丰富形象等特点,因而作为信息载体的图片应用范围越来越广,如果能从图片中抽取出双语词典词条,将会极大地丰富和完善双语词典,因此,迫切需要提供一种可以从图片中提取双语词典的技术方案。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的第一个目的在于提出一种从图片中自动提取双语词典的方法。该方法可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。本专利技术的第二个目的在于提出一种从图片中自动提取双语词典的装置。为了实现上述目的,本专利技术第一方面实施例的从图片中自动提取双语词典的方法,包括以下步骤:分别采用第一语言图片语义标注器和第二语言图片语 ...
【技术保护点】
一种从图片中自动提取双语词典的方法,其特征在于,包括:分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及采用最大期望EM算法对生成的所述双语句对进行词对齐,提取出双语词典词条。
【技术特征摘要】
1.一种从图片中自动提取双语词典的方法,其特征在于,包括:分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及采用最大期望EM算法对生成的所述双语句对进行词对齐,提取出双语词典词条其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作。2.如权利要求1所述的方法,其特征在于,所述根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对,包括:根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的有序或无序输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。3.如权利要求2所述的方法,其特征在于,所述采用最大期望EM算法对生成的所述双语句对进行词对齐包括:当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为无序输出时,采用第一EM算法对生成的所述双语句对进行词对齐,其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作,其中所述第一对齐概率公式为:其中,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i表示第一语言的词语在第一语言的句子中的位置,m表示第一语言的句子长度。4.如权利要求2所述的方法,其特征在于,所述采用最大期望EM算法对生成的所述双语句对进行词对齐包括:当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为有序输出时,采用第二EM算法对生成的所述双语句对进行词对齐,其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作,其中所述第二对齐概率公式为:其中,d(j|i,m,n)表示位置关系概率,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置,m、n分别表示第一语言的句子长度和表示第二语...
【专利技术属性】
技术研发人员:王海峰,马艳军,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。