当前位置: 首页 > 专利查询>苏州大学专利>正文

一种双语可比较语料挖掘方法及装置制造方法及图纸

技术编号:15878705 阅读:55 留言:0更新日期:2017-07-25 16:41
本发明专利技术公开了一种双语可比较语料挖掘方法及装置,通过预先从不同语言的数据库中抓取多个图片以及对应的文字信息,建立包含图片以及文字信息的多模态知识库;将源语言知识库中的图片作为查询图片,在目标语言知识库中进行图片检索,查找出与查询图片相似的目标图片;根据目标图片对应的文字信息与查询图片对应的文字信息,构建双语可比较语料。本申请采用跨媒体信息检索技术,通过图片作为沟通源语言和目标语言的媒介,进而获取源语言在目标端的等价或可比较的文本,为互联网中的双语可比较资源挖掘提供了新方法,解决了特定双语资源稀缺的问题。

Bilingual comparable corpus mining method and device

The invention discloses a bilingual comparable corpora mining method and device, through the advance from different language database capture multiple images and the corresponding text information, establish multi modal knowledge base contains pictures and text information; the source language knowledge base images as query images, image retrieval in the target language in the knowledge base, and query picture is similar to the target image search; according to the target image corresponding to the text information and query images corresponding to the text information, constructing bilingual comparable corpora. This application uses the cross media information retrieval technology, communication through the picture as the source language and the target language of the media, and then obtain the source language equivalence at the destination or comparable text, provides a new method for the comparison of bilingual Internet resources mining, solves the problem of the scarcity of resources - specific language.

【技术实现步骤摘要】
一种双语可比较语料挖掘方法及装置
本专利技术涉及计算机
,特别是涉及一种双语可比较语料挖掘方法及装置。
技术介绍
双语可比较语料是指不同语言中表征相似语义的文本集合。大规模的双语可比较语料中通常包含丰富多样的双语互译单元,例如短语级别、句子级别的互译对,以及双语词典。在小语种或者某些限定领域中,平行资源通常较少,但双语可比较语料相对容易获取。因此,双语可比较语料成为机器翻译和跨语言信息检索领域的重要资源。如何自动获取大规模的双语可比较语料成为机器翻译中一项基本任务。目前,双语可比较语料获取的研究方法大致可分为以下三类:一类是基于跨语言信息检索的双语可比较语料构建方法,该方法从源语言的文档中抽取关键词,并基于双语词典将关键词翻译到目标语言,进而将其作为检索查询,检索目标语言的候选文档集合,最终得到可比较的双语文档。第二类是基于内容和结构相似度的双语可比较语料构建方法,该方法利用翻译引擎(谷歌翻译或必应翻译等)将源语言文档翻译到目标语言,得到源文档的伪翻译结果。并进一步从词汇、主题、结构的相似度出发,评价伪翻译文档和目标语言文档相似度,并排序选择相似的文档。第三类方法是从结构化的知本文档来自技高网...
一种双语可比较语料挖掘方法及装置

【技术保护点】
一种双语可比较语料挖掘方法,其特征在于,包括:预先从不同语言的数据库中抓取多个图片以及对应的文字信息,建立包含图片以及所述文字信息的多模态知识库;将源语言知识库中的图片作为查询图片,在目标语言知识库中进行图片检索,查找出与所述查询图片相似的目标图片;根据所述目标图片对应的文字信息与所述查询图片对应的文字信息,构建双语可比较语料。

【技术特征摘要】
1.一种双语可比较语料挖掘方法,其特征在于,包括:预先从不同语言的数据库中抓取多个图片以及对应的文字信息,建立包含图片以及所述文字信息的多模态知识库;将源语言知识库中的图片作为查询图片,在目标语言知识库中进行图片检索,查找出与所述查询图片相似的目标图片;根据所述目标图片对应的文字信息与所述查询图片对应的文字信息,构建双语可比较语料。2.如权利要求1所述的双语可比较语料挖掘方法,其特征在于,所述预先从不同语言的数据库中抓取多个图片以及对应的文字信息包括:利用网络爬虫从新闻网站中抓取图片,所述文字信息为所述图片对应的主题和/或标题信息,将图片以及对应的文字信息作为二元组,存储于所述多模态知识库中。3.如权利要求2所述的双语可比较语料挖掘方法,其特征在于,所述在目标语言知识库中进行图片检索,查找出与所述查询图片相似的目标图片包括:采用尺度不变特征转换算法提取所述查询图片的关键点,将所述查询图片表征为基于所述关键点的特征向量;提取所述目标语言知识库中所有候选图片的特征向量,并匹配所述查询图片和所述候选图片的关键点;计算所有匹配关键点之间的平均欧式距离,作为图片之间的图片相似度;根据所述图片相似度对候选图片进行排序,选取与所述查询图片相似的目标图片。4.如权利要求1至3任一项所述的双语可比较语料挖掘方法,其特征在于,所述在目标语言知识库中进行图片检索,查找出与所述查询图片相似的目标图片包括:确定所述查询图片的主题分类以及发布时间信息;滤除所述目标语言知识库中与所述主题分类以及发布时间信息不匹配的图片;在过滤后的所述目标语言知识库中进行图片检索,查找出与所述查询图片相似的目标图片。5.如权利要求1至3任一项所述的双语可比较语料挖掘方法,其特征在于,所述根据所述目标图片对应的文字信息与所述查询图片对应的文字信息,构建双语可比较语料包括:计算所述查询图片对应的文字信息以及所述目标图片对应的文字信息的文本相似度;根据所述文本相似度对所述目标图片进行重新排序;根据重新排序后的结果,构建双语可比较语料。6.如权利要求5所述的双语可比较语料挖掘...

【专利技术属性】
技术研发人员:洪宇姚亮
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1