【技术实现步骤摘要】
一种基于相似度的多语可比语料库构建方法及系统
[0001]本专利技术涉及语料库构建领域,特别是涉及一种基于相似度的多语可比语料库构建方法及系统。
技术介绍
[0002]语料库是经过精心采样和处理的电子文本,是语言学理论研究、应用研究和语言工程特别是自然语言处理(NLP)所必需的基础资源。在语言方面,语料库可分为单语语料库和多语语料库(双语语料库是多语语料库的特殊情况)。此外,根据语料库的组织方式,多语种语料库又可分为平行语料库和可比语料库。平行语料库是一个或多个目标语言的源语言文本及其对应的翻译文本的文本对集合,所有的语言翻译都需要对齐。作为一种语料库,大规模的并行语料库对于语言研究的建模学习、统计机器翻译、词典学、跨语言信息检索等都具有重要意义。但由于源语和目的语文本之间存在严格的互译关系,很难获得大规模的平行语料库。此外,采集的语料库领域往往不均衡,对齐质量难以保证。这些不仅限制了并行语料库在规模和领域上的快速扩展,而且难以满足实时性的要求。
[0003]针对上述平行语料库的局限性,研究者们开始进行可比性语料库研究。可比性语料库是指一组两个或两个以上的单语语料库,其文本处理同一主题。但与平行语料库相比,可比较语料库的源语和目的语文本并不是严格可译和对齐的。语料库的获取灵活,采集语料库的领域广泛,语料库的建设手段相对方便,语料库的规模和应用领域迅速扩大。此外,可比较语料库作为平行语料库的重要补充,也逐渐成为不可缺少的研究内容之一。到目前为止,可比语料库已被广泛应用于翻译等效提取、机器翻译、跨语言信息检索、平 ...
【技术保护点】
【技术特征摘要】
1.一种基于相似度的多语可比语料库构建方法,其特征在于,包括:获取汉语语料文档、维语语料文档和藏语语料文档;将所述维语语料文档中各则维语语料翻译成汉语语料文本,得到维语翻译汉语语料文档,将所述藏语语料文档中各则藏语语料翻译成汉语语料文本,得到藏语翻译汉语语料文档;对所述汉语语料文档、所述维语翻译汉语语料文档和所述藏语翻译汉语语料文档中的各则语料进行语义嵌入处理,得到汉语语料语义嵌入词向量组、维语翻译汉语语料语义嵌入词向量组和藏语翻译汉语语料语义嵌入词向量组;根据所述汉语语料语义嵌入词向量组、所述维语翻译汉语语料语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组,计算第一相似度、第二相似度和第三相似度;所述第一相似度为所述汉语语料文档中各则汉语语料与所述维语语料文档中各则维语语料的相似度;所述第二相似度为所述汉语语料文档中各则汉语语料与所述藏语语料文档中各则藏语语料的相似度;所述第三相似度为所述维语语料文档中各则维语语料与所述藏语语料文档中各则藏语语料的相似度;根据所述第一相似度、所述第二相似度、所述第三相似度和设定相似度阈值确定多语可比语料库。2.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法,其特征在于,所述获取汉语语料文档、维语语料文档和藏语语料文档,具体包括:采用数据抓取爬虫软件对设定新闻网站进行搜索,得到网页信息;对所述网页信息进行HTML解析,抽取新闻标题、新闻内容和新闻时间,生成初始语料;对所述初始语料进行预处理,得到汉语语料文档、维语语料文档和藏语语料文档。3.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法,其特征在于,所述将所述维语语料文档中各则维语语料翻译成汉语语料文本,得到维语翻译汉语语料文档,将所述藏语语料文档中各则藏语语料翻译成汉语语料文本,得到藏语翻译汉语语料文档,具体包括:采用机器翻译软件将所述维语语料文档中各则维语语料翻译成汉语语料文本,得到维语翻译汉语语料文档;采用机器翻译软件将所述藏语语料文档中各则藏语语料翻译成汉语语料文本,得到藏语翻译汉语语料文档。4.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法,其特征在于,所述根据所述汉语语料语义嵌入词向量组、所述维语翻译汉语语料语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组,计算第一相似度、第二相似度和第三相似度,具体包括:根据所述汉语语料语义嵌入词向量组、所述维语翻译汉语语料语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组,计算每两个语义嵌入词向量组的词频向量;根据所述词频向量计算所述第一相似度、所述第二相似度和所述第三相似度。5.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法,其特征在于,所述根据所述第一相似度、所述第二相似度、所述第三相似度和设定相似度阈值确定多语可比语料库,具体包括:
对应任意一则汉语语料、维语语料和藏语语料,判断对应的第一相似度、对应的第二相似度和对应的第三相似度的交集是否大于设定相似度阈值;若是,则将对应的汉语语料、对应的维语语料和对应的藏语语料存入多语可比语料库;若否,则将对应的汉语语料从所述汉语语料文档中删除,将对应的维语语料从所述维语语料文档中删除,将...
【专利技术属性】
技术研发人员:超木日力格,董书敏,翁彧,刘征,李乙萌,许瑞洋,张瑜,
申请(专利权)人:中央民族大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。