基于公共标识语的双语语料采集系统技术方案

技术编号:24331356 阅读:21 留言:0更新日期:2020-05-29 19:43
本发明专利技术涉及一种基于公共标识语的双语语料采集系统,包括语料采集范围设定模块,用于在语料采集范围进行语料采集的语料采集模块,第一语料信息存储模块,第二语料信息存储模块,用于从采集的语料中提取公共标识语部分的公共标识语提取模块,双语对照翻译模块,第三语料信息存储模块。本发明专利技术基于网络信息和参考书籍针对性地采集与公共标识语相关的内容,为公共标识语的词汇提供了较为详细的对照基础,以便于后续使用时出现与公共标识语非相关的释义,有效地提高了公共标识语应用中的翻译准确度。

Bilingual corpus collection system based on public signs

【技术实现步骤摘要】
基于公共标识语的双语语料采集系统
本专利技术涉及一种基于公共标识语的双语语料采集系统。
技术介绍
公共标识语也被称为公示语,主要是在城市中为公众或游客的出行方便而提供的指示性语音,包括服务设施、机构名称、广告牌、公共设施、公共交通、旅游景点、街头路牌、标语口号、商店招牌等,其作用是通过简明的语言向公众提供有效的信息。随着经济文化的发展,尤其是旅游业的发展,很多城市都吸引了大量的外国友人,因此公共标识语的翻译显得尤为重要,其不仅是城市语言环境和人文环境的代表,而且为促进旅游产业的发展起到重要的作用。正确、得体的公共标识语翻译内容能够为各国游客提供良好便捷的帮助并提高城市的整体形象,反之,错误、不得体的公共标识语反应内容会给外国游客带来理解上的障碍甚至误区,因此保证公共标识语翻译的准确很有必要。在提高公共标识语翻译准确度的过程中,建立合理准确的公共标识语双语平行语料库又至关重要,而公共标识语双语平行语料库又源于广泛的双语平行语料基础,如何从广泛的语料信息来源中获取所需的公共标识语信息,是本领域技术人员亟需解决的问题。
技术实现思路
针对上述技术问题,本专利技术提供一种基于公共标识语的双语语料采集系统,以较为方便地获取所需公共标识语语料,并在一定程度上提高了语料的准确率。为实现上述目的,本专利技术采用的技术方案如下:一种基于公共标识语的双语语料采集系统,包括:语料采集范围设定模块,用于设定与公共标识语相关的语料的采集范围,该采集范围包括涉及公共标识语的网页、文献著作;r>语料采集模块,用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集,所述基础语料信息包括单语种基础语料信息和双语种基础语料信息;第一语料信息存储模块,用于存储所采集到的单语种基础语料信息;第二语料信息存储模块,用于存储所采集到的双语种基础语料信息;公共标识语提取模块,用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息;双语对照翻译模块,用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标识语语料信息;以及第三语料信息存储模块,用于存储双语种公共标识语语料信息。进一步地,所述语料采集范围设定模块内置有预设采集来源集和扩展采集来源集,其中,预设采集来源集用于保存预设的固定采集范围,扩展采集来源集用于保存来自输入装置新输入的采集范围。进一步地,所述语料采集模块包括用于采集网络上信息的爬虫模块,用于接收人工输入信息的输入模块,用于对图像上文字进行识别的扫描识别模块,以及对采集的信息内容中的语种类别进行识别的语料语种识别模块,其中,该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存,并将识别出的双语种基础语料信息传输至第二语料信息存储模块中保存。进一步地,所述公共标识语提取模块还连接有关键词库,该关键词库用于保存公共标识语关键词,其中一部分公共标识语关键词为预设,并根据实际需求输入并扩充新的公共标识语关键词。进一步地,该基于公共标识语的双语语料采集系统,还包括双语校正模块,用于将公共标识语提取模块提取的双语种公共标识语语料信息进行校正。进一步地,所述双语校正模块进行校正的过程为:从该双语种公共标识语语料信息中分别识别提取出相互对应的中文部分和外文部分,然后基于双语对照翻译模块使用的翻译词库对该中文部分和外文部分的释义进行对比,若对比近似度不小于85%,则认为该部分的双语种公共标识语语料信息为可用,并将其存储在第三语料信息存储模块中,若对比近似度不大于50%,则认为该部分的双语种公共标识语语料信息为不可用,则采用所述翻译词库对中文部分进行对应翻译,并将翻译后的该部分双语种公共标识语语料信息存储在第三语料信息存储模块中,若对比近似度介于50%~85%之间,则将该部分的双语种公共标识语语料信息作疑似标记,并将提取获得的中文部分和外文部分以及采用翻译词库进行翻译的内容以关联形式共同存储在第三语料信息存储模块中。进一步地,对所述双语校正模块或第三语料信息存储模块中存在疑似标记的双语种公共标识语语料信息进行人工校正。与现有技术相比,本专利技术具有以下有益效果:(1)本专利技术基于网络信息和参考书籍针对性地采集与公共标识语相关的内容,为公共标识语的词汇提供了较为详细的对照基础,以便于后续使用时出现与公共标识语非相关的释义,有效地提高了公共标识语应用中的翻译准确度。(2)本专利技术通过对语料采集范围的设定,基于基本的语料获取范围,并可通过人工输入的方式扩展更多的语料采集范围,以便于双语语料的持续更新和增长。(3)本专利技术利用关键词库对含有所需公共标识语的内容进行进一步提取,以排出一些与公共标识语无关的内容,提高了后续使用的公共标识语的准确度,并通过翻译词库对浓缩的公共标识语信息进行校正,进一步提高了双语公共标识语的翻译准确度。附图说明图1为本专利技术的结构框图。图2为语料采集模块的结构框图。具体实施方式下面结合附图说明和实施例对本专利技术作进一步说明,本专利技术的方式包括但不仅限于以下实施例。实施例如图1和图2所示,该基于公共标识语的双语语料采集系统,包括:语料采集范围设定模块,用于设定与公共标识语相关的语料的采集范围,该采集范围包括涉及公共标识语的网页、文献著作,如旅游行业的相关网站网页、一些官方报告材料等;该语料采集范围设定模块内置有预设采集来源集和扩展采集来源集,其中,预设采集来源集用于保存预设的固定采集范围,扩展采集来源集用于保存来自输入装置新输入的采集范围。语料采集模块,用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集,所述基础语料信息包括单语种基础语料信息和双语种基础语料信息,并且该基础语料信息以页面段落为基本单位;该语料采集模块包括用于采集网络上信息的爬虫模块,用于接收人工输入信息的输入模块,用于对图像上文字进行识别的扫描识别模块,以及对采集的信息内容中的语种类别进行识别的语料语种识别模块,其中,该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存,并将识别出的双语种基础语料信息传输至第二语料信息存储模块中保存。第一语料信息存储模块,用于存储所采集到的单语种基础语料信息。第二语料信息存储模块,用于存储所采集到的双语种基础语料信息。公共标识语提取模块,用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息,其中,单语种公共标识语语料信息可以是中文语种,也可以是外文语种,并且所提取的语种公共标识语语料信息和双语种公共标识语语料信息均以语句为基本单位。双语对照翻译模块,用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标本文档来自技高网...

【技术保护点】
1.一种基于公共标识语的双语语料采集系统,其特征在于,包括:/n语料采集范围设定模块,用于设定与公共标识语相关的语料的采集范围,该采集范围包括涉及公共标识语的网页、文献著作;/n语料采集模块,用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集,所述基础语料信息包括单语种基础语料信息和双语种基础语料信息;/n第一语料信息存储模块,用于存储所采集到的单语种基础语料信息;/n第二语料信息存储模块,用于存储所采集到的双语种基础语料信息;/n公共标识语提取模块,用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息;/n双语对照翻译模块,用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标识语语料信息;以及/n第三语料信息存储模块,用于存储双语种公共标识语语料信息。/n

【技术特征摘要】
1.一种基于公共标识语的双语语料采集系统,其特征在于,包括:
语料采集范围设定模块,用于设定与公共标识语相关的语料的采集范围,该采集范围包括涉及公共标识语的网页、文献著作;
语料采集模块,用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集,所述基础语料信息包括单语种基础语料信息和双语种基础语料信息;
第一语料信息存储模块,用于存储所采集到的单语种基础语料信息;
第二语料信息存储模块,用于存储所采集到的双语种基础语料信息;
公共标识语提取模块,用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息;
双语对照翻译模块,用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标识语语料信息;以及
第三语料信息存储模块,用于存储双语种公共标识语语料信息。


2.根据权利要求1所述的基于公共标识语的双语语料采集系统,其特征在于,所述语料采集范围设定模块内置有预设采集来源集和扩展采集来源集,其中,预设采集来源集用于保存预设的固定采集范围,扩展采集来源集用于保存来自输入装置新输入的采集范围。


3.根据权利要求2所述的基于公共标识语的双语语料采集系统,其特征在于,所述语料采集模块包括用于采集网络上信息的爬虫模块,用于接收人工输入信息的输入模块,用于对图像上文字进行识别的扫描识别模块,以及对采集的信息内容中的语种类别进行识别的语料语种识别模块,其中,该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存,并将识别出的双语种基础语料信...

【专利技术属性】
技术研发人员:张洁王晓珊李伟彬刘华费比周黎周辛雨
申请(专利权)人:成都理工大学成都信息工程大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1