【技术实现步骤摘要】
基于公共标识语的双语语料采集系统
本专利技术涉及一种基于公共标识语的双语语料采集系统。
技术介绍
公共标识语也被称为公示语,主要是在城市中为公众或游客的出行方便而提供的指示性语音,包括服务设施、机构名称、广告牌、公共设施、公共交通、旅游景点、街头路牌、标语口号、商店招牌等,其作用是通过简明的语言向公众提供有效的信息。随着经济文化的发展,尤其是旅游业的发展,很多城市都吸引了大量的外国友人,因此公共标识语的翻译显得尤为重要,其不仅是城市语言环境和人文环境的代表,而且为促进旅游产业的发展起到重要的作用。正确、得体的公共标识语翻译内容能够为各国游客提供良好便捷的帮助并提高城市的整体形象,反之,错误、不得体的公共标识语反应内容会给外国游客带来理解上的障碍甚至误区,因此保证公共标识语翻译的准确很有必要。在提高公共标识语翻译准确度的过程中,建立合理准确的公共标识语双语平行语料库又至关重要,而公共标识语双语平行语料库又源于广泛的双语平行语料基础,如何从广泛的语料信息来源中获取所需的公共标识语信息,是本领域技术人员亟需解决的问题。r>专利技术本文档来自技高网...
【技术保护点】
1.一种基于公共标识语的双语语料采集系统,其特征在于,包括:/n语料采集范围设定模块,用于设定与公共标识语相关的语料的采集范围,该采集范围包括涉及公共标识语的网页、文献著作;/n语料采集模块,用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集,所述基础语料信息包括单语种基础语料信息和双语种基础语料信息;/n第一语料信息存储模块,用于存储所采集到的单语种基础语料信息;/n第二语料信息存储模块,用于存储所采集到的双语种基础语料信息;/n公共标识语提取模块,用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信 ...
【技术特征摘要】
1.一种基于公共标识语的双语语料采集系统,其特征在于,包括:
语料采集范围设定模块,用于设定与公共标识语相关的语料的采集范围,该采集范围包括涉及公共标识语的网页、文献著作;
语料采集模块,用于通过网络爬虫、人工输入及文字识别形式在采集范围内进行大规模的基础语料信息采集,所述基础语料信息包括单语种基础语料信息和双语种基础语料信息;
第一语料信息存储模块,用于存储所采集到的单语种基础语料信息;
第二语料信息存储模块,用于存储所采集到的双语种基础语料信息;
公共标识语提取模块,用于根据构建的公共标识语关键词从第一语料信息存储模块提取单语种公共标识语语料信息和从第二语料信息存储模块中提取双语种公共标识语语料信息;
双语对照翻译模块,用于将单语种公共标识语语料信息翻译转换为对应的双语种公共标识语语料信息;以及
第三语料信息存储模块,用于存储双语种公共标识语语料信息。
2.根据权利要求1所述的基于公共标识语的双语语料采集系统,其特征在于,所述语料采集范围设定模块内置有预设采集来源集和扩展采集来源集,其中,预设采集来源集用于保存预设的固定采集范围,扩展采集来源集用于保存来自输入装置新输入的采集范围。
3.根据权利要求2所述的基于公共标识语的双语语料采集系统,其特征在于,所述语料采集模块包括用于采集网络上信息的爬虫模块,用于接收人工输入信息的输入模块,用于对图像上文字进行识别的扫描识别模块,以及对采集的信息内容中的语种类别进行识别的语料语种识别模块,其中,该语料语种识别模块将识别出的单语种基础语料信息传输至第一语料信息存储模块中保存,并将识别出的双语种基础语料信...
【专利技术属性】
技术研发人员:张洁,王晓珊,李伟彬,刘华,费比,周黎,周辛雨,
申请(专利权)人:成都理工大学,成都信息工程大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。