一种基于相似度的多语可比语料库构建方法及系统技术方案

技术编号:35099644 阅读:182 留言:0更新日期:2022-10-01 17:05
本发明专利技术公开了一种基于相似度的多语可比语料库构建方法及系统,涉及语料库构建领域,所述方法,包括:获取汉语语料文档、维语语料文档和藏语语料文档;将维语语料文档、藏语语料文档翻译成汉语语料,得到维语翻译汉语语料文档和藏语翻译汉语语料文档;对汉语语料文档、维语翻译汉语语料文档和藏语翻译汉语语料文档中的各则语料进行语义嵌入处理,得到三个对应的语义嵌入词向量组;根据三个语义嵌入词向量组计算第一相似度、第二相似度和第三相似度;根据第一相似度、第二相似度、第三相似度和设定相似度阈值确定多语可比语料库。本发明专利技术能实现汉

【技术实现步骤摘要】
一种基于相似度的多语可比语料库构建方法及系统


[0001]本专利技术涉及语料库构建领域,特别是涉及一种基于相似度的多语可比语料库构建方法及系统。

技术介绍

[0002]语料库是经过精心采样和处理的电子文本,是语言学理论研究、应用研究和语言工程特别是自然语言处理(NLP)所必需的基础资源。在语言方面,语料库可分为单语语料库和多语语料库(双语语料库是多语语料库的特殊情况)。此外,根据语料库的组织方式,多语种语料库又可分为平行语料库和可比语料库。平行语料库是一个或多个目标语言的源语言文本及其对应的翻译文本的文本对集合,所有的语言翻译都需要对齐。作为一种语料库,大规模的并行语料库对于语言研究的建模学习、统计机器翻译、词典学、跨语言信息检索等都具有重要意义。但由于源语和目的语文本之间存在严格的互译关系,很难获得大规模的平行语料库。此外,采集的语料库领域往往不均衡,对齐质量难以保证。这些不仅限制了并行语料库在规模和领域上的快速扩展,而且难以满足实时性的要求。
[0003]针对上述平行语料库的局限性,研究者们开始进行可比性语料库研究。可比性语料库是指一组两个或两个以上的单语语料库,其文本处理同一主题。但与平行语料库相比,可比较语料库的源语和目的语文本并不是严格可译和对齐的。语料库的获取灵活,采集语料库的领域广泛,语料库的建设手段相对方便,语料库的规模和应用领域迅速扩大。此外,可比较语料库作为平行语料库的重要补充,也逐渐成为不可缺少的研究内容之一。到目前为止,可比语料库已被广泛应用于翻译等效提取、机器翻译、跨语言信息检索、平行句子对齐等领域。
[0004]目前,可比语料库主要涉及汉语与英语、俄语、日语、法语、西班牙语等双语可比语料库,涉及三种及三种以上语种的可比语料库较少,低资源少数民族语言多语可比语料库更鲜见。当涉及较为复杂的多语言应用场景时,如多语种文本翻译、多语种同声传译,跨语言文档检索、重要政策文件跨语言解读等,尽管基于多个双语可比语料库采用两两相比的方法来完成上述工作,但多个双语可比语料库之间分布不平衡性和两两相比的繁琐性,极大地制约着高质量完成上述任务,以及完成上述任务的时效性。因此,有必要构建多语种可比语料库。
[0005]另外,中国是一个统一的多民族的国家。不同民族有着不同的交流语言。因此,语言成了不同民族之间相互交流的重要媒介。换句话说,本民族与其他民族的无障碍交流催生着跨语言信息处理技术应运而生,以及应用这一技术所必需的多语种可比语料库。但是,少数民族语言语料库因其资源较为匮乏、构建难度较大,因此语料库的规模和质量有较大的局限性。到目前为止,未见到有少数民族多语可比语料库,都是双语可比语料库,比如汉

维双语可比语料库,汉

藏双语可比语料库,汉

蒙双语可比语料库。因此,构建少数民族多语可比语料库势在必行。

技术实现思路

[0006]基于此,本专利技术实施例提供一种基于相似度的多语可比语料库构建方法及系统,以实现汉



藏可比语料库的构建。
[0007]为实现上述目的,本专利技术提供了如下方案:
[0008]一种基于相似度的多语可比语料库构建方法,包括:
[0009]获取汉语语料文档、维吾尔语语料文档和藏语语料文档;
[0010]将所述维吾尔语语料文档中各则维吾尔语语料翻译成汉语语料文本,得到维吾尔语翻译汉语语料文档,将所述藏语语料文档中各则藏语语料翻译成汉语语料文本,得到藏语翻译汉语语料文档;
[0011]对所述汉语语料文档、所述维吾尔语翻译汉语语料文档和所述藏语翻译汉语语料文档中的各则语料进行语义嵌入处理,得到汉语语料语义嵌入词向量组、维吾尔语翻译汉语语料语义嵌入词向量组和藏语翻译汉语语料语义嵌入词向量组;
[0012]根据所述汉语语料语义嵌入词向量组、所述维吾尔语翻译汉语语料语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组,计算第一相似度、第二相似度和第三相似度;所述第一相似度为所述汉语语料文档中各则汉语语料与所述维吾尔语语料文档中各则维吾尔语语料的相似度;所述第二相似度为所述汉语语料文档中各则汉语语料与所述藏语语料文档中各则藏语语料的相似度;所述第三相似度为所述维吾尔语语料文档中各则维吾尔语语料与所述藏语语料文档中各则藏语语料的相似度;
[0013]根据所述第一相似度、所述第二相似度、所述第三相似度和设定相似度阈值确定多语可比语料库。
[0014]可选地,所述获取汉语语料文档、维吾尔语语料文档和藏语语料文档,具体包括:
[0015]采用数据抓取爬虫软件对设定新闻网站进行搜索,得到网页信息;
[0016]对所述网页信息进行HTML解析,抽取新闻标题、新闻内容和新闻时间,生成初始语料;
[0017]对所述初始语料进行预处理,得到汉语语料文档、维吾尔语语料文档和藏语语料文档。
[0018]可选地,所述将所述维吾尔语语料文档中各则维吾尔语语料翻译成汉语语料文本,得到维吾尔语翻译汉语语料文档,将所述藏语语料文档中各则藏语语料翻译成汉语语料文本,得到藏语翻译汉语语料文档,具体包括:
[0019]采用机器翻译软件将所述维吾尔语语料文档中各则维吾尔语语料翻译成汉语语料文本,得到维吾尔语翻译汉语语料文档;
[0020]采用机器翻译软件将所述藏语语料文档中各则藏语语料翻译成汉语语料文本,得到藏语翻译汉语语料文档。
[0021]可选地,所述根据所述汉语语料语义嵌入词向量组、所述维吾尔语翻译汉语语料语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组,计算第一相似度、第二相似度和第三相似度,具体包括:
[0022]根据所述汉语语料语义嵌入词向量组、所述维吾尔语翻译汉语语料语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组,计算每两个语义嵌入词向量组的词频向量;
[0023]根据所述词频向量计算所述第一相似度、所述第二相似度和所述第三相似度。
[0024]可选地,所述根据所述第一相似度、所述第二相似度、所述第三相似度和设定相似度阈值确定多语可比语料库,具体包括:
[0025]对应任意一则汉语语料、维吾尔语语料和藏语语料,判断对应的第一相似度、对应的第二相似度和对应的第三相似度的交集是否大于设定相似度阈值;
[0026]若是,则将对应的汉语语料、对应的维吾尔语语料和对应的藏语语料存入多语可比语料库;
[0027]若否,则将对应的汉语语料从所述汉语语料文档中删除,将对应的维吾尔语语料从所述维吾尔语语料文档中删除,将对应的藏语语料从所述藏语语料文档中删除。
[0028]本专利技术还提供了一种基于相似度的多语可比语料库构建系统,包括:
[0029]语料获取模块,用于获取汉语语料文档、维吾尔语语料文档和藏语语料文档;
[0030]语料翻译模块,用于将所述维吾尔语语料文档中各则维吾尔语语料翻译成汉语语料文本,得到维吾尔语翻译汉语语料文档,将所述藏语语料文档本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相似度的多语可比语料库构建方法,其特征在于,包括:获取汉语语料文档、维语语料文档和藏语语料文档;将所述维语语料文档中各则维语语料翻译成汉语语料文本,得到维语翻译汉语语料文档,将所述藏语语料文档中各则藏语语料翻译成汉语语料文本,得到藏语翻译汉语语料文档;对所述汉语语料文档、所述维语翻译汉语语料文档和所述藏语翻译汉语语料文档中的各则语料进行语义嵌入处理,得到汉语语料语义嵌入词向量组、维语翻译汉语语料语义嵌入词向量组和藏语翻译汉语语料语义嵌入词向量组;根据所述汉语语料语义嵌入词向量组、所述维语翻译汉语语料语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组,计算第一相似度、第二相似度和第三相似度;所述第一相似度为所述汉语语料文档中各则汉语语料与所述维语语料文档中各则维语语料的相似度;所述第二相似度为所述汉语语料文档中各则汉语语料与所述藏语语料文档中各则藏语语料的相似度;所述第三相似度为所述维语语料文档中各则维语语料与所述藏语语料文档中各则藏语语料的相似度;根据所述第一相似度、所述第二相似度、所述第三相似度和设定相似度阈值确定多语可比语料库。2.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法,其特征在于,所述获取汉语语料文档、维语语料文档和藏语语料文档,具体包括:采用数据抓取爬虫软件对设定新闻网站进行搜索,得到网页信息;对所述网页信息进行HTML解析,抽取新闻标题、新闻内容和新闻时间,生成初始语料;对所述初始语料进行预处理,得到汉语语料文档、维语语料文档和藏语语料文档。3.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法,其特征在于,所述将所述维语语料文档中各则维语语料翻译成汉语语料文本,得到维语翻译汉语语料文档,将所述藏语语料文档中各则藏语语料翻译成汉语语料文本,得到藏语翻译汉语语料文档,具体包括:采用机器翻译软件将所述维语语料文档中各则维语语料翻译成汉语语料文本,得到维语翻译汉语语料文档;采用机器翻译软件将所述藏语语料文档中各则藏语语料翻译成汉语语料文本,得到藏语翻译汉语语料文档。4.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法,其特征在于,所述根据所述汉语语料语义嵌入词向量组、所述维语翻译汉语语料语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组,计算第一相似度、第二相似度和第三相似度,具体包括:根据所述汉语语料语义嵌入词向量组、所述维语翻译汉语语料语义嵌入词向量组和所述藏语翻译汉语语料语义嵌入词向量组,计算每两个语义嵌入词向量组的词频向量;根据所述词频向量计算所述第一相似度、所述第二相似度和所述第三相似度。5.根据权利要求1所述的一种基于相似度的多语可比语料库构建方法,其特征在于,所述根据所述第一相似度、所述第二相似度、所述第三相似度和设定相似度阈值确定多语可比语料库,具体包括:
对应任意一则汉语语料、维语语料和藏语语料,判断对应的第一相似度、对应的第二相似度和对应的第三相似度的交集是否大于设定相似度阈值;若是,则将对应的汉语语料、对应的维语语料和对应的藏语语料存入多语可比语料库;若否,则将对应的汉语语料从所述汉语语料文档中删除,将对应的维语语料从所述维语语料文档中删除,将...

【专利技术属性】
技术研发人员:超木日力格董书敏翁彧刘征李乙萌许瑞洋张瑜
申请(专利权)人:中央民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1