从图片中自动提取双语词典的方法及装置制造方法及图纸

技术编号:9895340 阅读:149 留言:0更新日期:2014-04-09 21:27
本发明专利技术提出一种从图片中自动提取双语词典的方法及装置,其中,从图片中自动提取双语词典的方法包括:分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据第一语言图片语义标注器和第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及采用最大期望(EM)算法对生成的双语句对进行词对齐,提取出双语词典词条。本发明专利技术实施例,通过生成至少两个双语句对,采用EM算法对双语句对进行词对齐,从而可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。

【技术实现步骤摘要】
从图片中自动提取双语词典的方法及装置
本专利技术涉及计算机
,尤其涉及一种从图片中自动提取双语词典的方法及装置。
技术介绍
互联网技术的发展让我们的知识面更加广阔,获取的知识也日益丰富。不过问题也随之而来,有些网络只有详尽的英文或者其他外文资料而没有我们熟悉的汉语资料,这就给我们工作和生活带来极大的不便。目前网络中有很多翻译系统,这些翻译系统可以通过双语词典为我们提供翻译服务,即利用双语词典将一种我们不熟悉的语言翻译成我们熟悉的语言。而双语词典对于一个翻译系统而言非常重要。现有技术中一般利用双语文本(如联合国用多种语言发布的文档)或双语网页(如多种语言的网站)来获取双语句对,并双语从句对中抽取双语词典。由此可见,现有双语词典的生成主要依赖双语文本和网页资源。而随着信息技术的快速发展,信息载体多种多样,包括文字、图片和多媒体等,其中,图片具有包含数据量大、表现形式丰富形象等特点,因而作为信息载体的图片应用范围越来越广,如果能从图片中抽取出双语词典词条,将会极大地丰富和完善双语词典,因此,迫切需要提供一种可以从图片中提取双语词典的技术方案。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的第一个目的在于提出一种从图片中自动提取双语词典的方法。该方法可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。本专利技术的第二个目的在于提出一种从图片中自动提取双语词典的装置。为了实现上述目的,本专利技术第一方面实施例的从图片中自动提取双语词典的方法,包括以下步骤:分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据第一语言图片语义标注器和第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及采用最大期望EM算法对生成的双语句对进行词对齐,提取出双语词典词条。本专利技术实施例的从图片中自动提取双语词典的方法,通过生成多个双语句对,然后采用EM算法对生成的双语句对进行词对齐,从而可以从图片中自动提取出双语词典,而不需要依赖双语文本和网页资源,且实现简单、准确率高。为了实现上述目的,本专利技术第二方面实施例的从图片中自动提取双语词典的装置,包括:生成模块以及对齐提取模块。本专利技术实施例的从图片中自动提取双语词典的装置,通过生成模块生成至少两个双语句对,通过对齐提取模块采用EM算法对双语句对进行词对齐,从而可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,图1是根据本专利技术一个实施例的从图片中自动提取双语词典的方法的流程图;图2a是根据本专利技术一个实施例的图片示意图;图2b是根据本专利技术另一个实施例的图片示意图;图2c是根据本专利技术又一个实施例的图片示意图;图3是根据本专利技术一个实施例的采用第一EM算法提取双语词典的方法的流程图;图4是根据本专利技术一个实施例的采用第二EM算法提取双语词典的方法的流程图;图5是根据本专利技术另一个实施例的从图片中自动提取双语词典的方法的流程图;图6是根据本专利技术一个实施例的从图片中自动提取双语词典的装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。在本专利技术的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本专利技术的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本专利技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本专利技术的实施例所属
的技术人员所理解。下面参考附图描述本专利技术实施例的从图片中自动提取双语词典的方法及装置。图1是根据本专利技术一个实施例的从图片中自动提取双语词典的方法的流程图。如图1所示,从图片中自动提取双语词典的方法包括以下步骤:S101,分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据第一语言图片语义标注器和第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。在本专利技术的实施例中,可以采用不同语言的图片语义标注器例如第一语言图片语义标注器和第二语言图片语义标注器将一副图片转换为对应语言语义标签,也就是反应该图片内容的多语言词语列表。由于标注方法的不同,不同语言的图片语义标注器所标记出的语义标签并非一一对应。比如,对于图片G,其对应的中文和英文语义标签分别为CG={c1,c2,c3,…,em}和EG={e1,e2,e3,…,en},那么<CG,EG>就是一个双语句对。每个图片能够产生一个由语义标签构成的双语句对,利用大量图片可以生成海量的双语句对。其中,图片语义标注器可以按顺序比如按照从左到右或者从上到下的顺序输出双语句对,也可以无序输出双语句对,生成由语义标签构成的双语句对。例如,分别采用中文图片语义标注器和英文图片语义标注器对图2a所示的图片进行标注,获得的包含中文语义标签和中文语义标签的双语句对为:中文语义标签:道路黄色的落叶树木椅子英文语义标签:“path”“leaves”“tree”由于中英文的图片标注器存在标注效果的差异,图片中标出的实体不一定完全匹配,例如英文图片标注器没有标出“chair”。同样地,分别采用中文图片语义标注器和英文图片语义标注器对图2b所示的图片进行标注,获得的包含中文语义标签和中文语义标签的双语句对为:中文语义标签:绿色树木楼房草坪英文语义标签:“rocks”“people”“green”“tree”同样地,分别采用中文图片语义标注器和英文图片语义标注器对图2c所示的图片进行标注,获得的包含中文语义标签和中文语义标签的双语句对为:中文语义标签:绿色草坪树木英文语义标签:“green”“grass”“trees”“sky”需要说明的是,由于图2a-2c不是彩色图片,所以从图2a-2c中看不出颜色,但实际上与图2a-2c对应的图片是彩色图片,因此,可以显示出对应物体的颜色。S102,采用最大期望(EM)算法对生成的双语句对进行词对齐,提取出双语词典词条。在本专利技术的实施例中,当本文档来自技高网
...
从图片中自动提取双语词典的方法及装置

【技术保护点】
一种从图片中自动提取双语词典的方法,其特征在于,包括:分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及采用最大期望EM算法对生成的所述双语句对进行词对齐,提取出双语词典词条。

【技术特征摘要】
1.一种从图片中自动提取双语词典的方法,其特征在于,包括:分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及采用最大期望EM算法对生成的所述双语句对进行词对齐,提取出双语词典词条其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作。2.如权利要求1所述的方法,其特征在于,所述根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对,包括:根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的有序或无序输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。3.如权利要求2所述的方法,其特征在于,所述采用最大期望EM算法对生成的所述双语句对进行词对齐包括:当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为无序输出时,采用第一EM算法对生成的所述双语句对进行词对齐,其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作,其中所述第一对齐概率公式为:其中,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i表示第一语言的词语在第一语言的句子中的位置,m表示第一语言的句子长度。4.如权利要求2所述的方法,其特征在于,所述采用最大期望EM算法对生成的所述双语句对进行词对齐包括:当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为有序输出时,采用第二EM算法对生成的所述双语句对进行词对齐,其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作,其中所述第二对齐概率公式为:其中,d(j|i,m,n)表示位置关系概率,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置,m、n分别表示第一语言的句子长度和表示第二语...

【专利技术属性】
技术研发人员:王海峰马艳军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1