一种建筑工程多模态双语平行语料库的构建方法技术

技术编号:21686267 阅读:31 留言:0更新日期:2019-07-24 14:42
本发明专利技术属于数据处理技术领域,具体涉及一种建筑工程多模态双语平行语料库的构建方法;语料筛选、语料提取、校对、语料切分、对齐、去噪、得到平行语料库、语料库更新和扩容六个步骤;为建筑词汇提供了丰富的对比样本,检索出的词汇或句法的含义都是与建筑相关的,排除了一些无用的含义;为使用者提供数量巨大的双语对译样本,切分精细,精准度高,检索出的词汇或句法含义都是建筑相关的,排除了一些无用的含义,为使用者提供了数量巨大的建筑类双语对译样本。

A Construction Method of Multimodal Bilingual Parallel Corpus in Construction Engineering

【技术实现步骤摘要】
一种建筑工程多模态双语平行语料库的构建方法
本专利技术属于数据处理
,具体涉及一种建筑工程多模态双语平行语料库的构建方法。
技术介绍
建筑英语是建筑行业与英语的结合,涉及到建筑业的各个环节,如资格预审、招投标、建筑施工、质量评估等。建筑英语的文体特征上属于科技文本,有自己的专业词汇和表达习惯,话语方式为书面体,话语基调为正式体。随着我国在国外建筑市场份额的不断扩大以及国内建筑市场与国外建筑市场的接轨,建筑英语的使用越来越普遍,建筑英语的翻译也大量出现,而语料库语言学的观点和方法为建筑英语翻译及教学的研究提供一种工具性的方法,建设建筑英语语料库,服务建筑专业英语教学和建筑领域的应用研究是一项十分紧迫和有意义的任务,鉴于此,有必要设计一种建筑工程多模态双语平行语料库的构建方法。计算机辅助翻译(CAT)是指译员进行翻译工作时,后台不断自动储存译员录入的译文,从而建立数据库,这样在以后的翻译过程中,再次出现相同或相近的短语或句段时,系统就能自动搜索数据库中已存储的相同或类似的内容,为译员提供参考译文,使其避免重复的翻译劳动,因此,采用建筑工程多模态语料库与CAT结合的模式,可以极大地提高翻译效率。但是,目前仍然存在一些问题:国内外建筑专门语料库本身极为罕见,而建筑类多模态语料库更是前所未有;现有的建筑类语料库语料收集整理校对较少,甚至没有校对,造成语料格式和内容不规范;语料来源不够权威,一些语料不加区分地搜集网络上的各种文本,造成语料噪声大、纯度低,无法真正的运用至CAT软件中;目前平行语料多为段落对齐,但翻译时,最有参考价值的是句子,其次是语言片段、短语和术语,对整段翻译的精准度较低。
技术实现思路
本语料库的专利技术的目的在于克服现有技术存在的缺点,提出设计一种建筑工程多模态双语平行语料库的构建方法,即切分精细,精准度高,检索出的词汇或句法含义都是建筑相关领域,因此排除了一些无用的含义,为使用者提供了数量巨大的建筑类双语对译样本。本专利技术涉及的建筑工程多模态双语平行语料库的构建方法,具体包括以下步骤:(1)语料筛选:通过网络下载、扫描识别、手工录入和网络爬虫方式获取原始语料,原始语料的主要来源为国家级出版社正式出版的建筑类英汉双语著作、政府公文报告、官方认证材料、建筑行业正式会议的音频、视频、图纸、图片等;(2)语料提取、校对:利用现代影像技术采集多模态建筑工程类信息(图片、图表、图纸、视频、音频以及文字等),并对其进行挖掘、构建;然后进行校对,对服务器上的原始语料进行增、删、改、查操作,对原始语料进行数据的清洗和去除,校对无误后保存,并将双语语料在Tmxmall软件中做成以段落为主的句对齐方式;(3)语料切分、对齐:将步骤(2)中对齐后对句段进行切分,使得每一对双语平行句对,在Word的可视文档中不超过四行;(4)去噪:采用人工降噪的方式,对翻译结果不精准的语句或段落进行修改,手动录入并保存至语料库,确保了语料库在计算机辅助翻译过程中的精确匹配;(5)标注与转写:根据研究对象和研究需要设计合理、充分的数据挖掘方案,在标注软件上建立不同的标注层,从不同的视角和方面对语料进行标注,例如对建筑合同语料进行标注;并用多模态语料库标注与检索软件,对转写内容、音频和视频进行同步呈现,同时支持文字、音频和视频等多种形式结果输出;(6)得到平行语料库:对已识别的文字依次进行机器翻译,并采用人工翻译进行校正后得到平行语料库;(7)语料库更新和扩容:语料库更新通过更新单元来控制,更新单元不定时弹出推荐词条及其推荐权重,根据推荐词条和推荐权重将推荐词条写入语料库,推荐权重是根据推荐词条弹出该单词或语句的次数来确定,如同一个单词弹出5次,即权重记为5,当该权重超过10时,即将该单词写入语料库,实现语料库的更新和扩容。本专利技术所述步骤(1)的语料筛选过程中,所述网络爬虫的方法采用python下的selenium网络测试包作为爬虫库的基础,首先通过百度学术等第三方网站爬取相关领域文件下载页的外部链接,而后再统一进入这些外部链接,通过模拟点击页面元素的方式,下载相关领域文件,对相关文件的格式进行转换,清洗冗余信息和错误信息,并提取相应的结构信息,然后对转换后的文本进行分词、去除停用词和过滤无语义段落,构建可供分析的基础文本。本专利技术步骤(1)中所述国家级出版社包括中国建筑工业出版社等,所述政府公文报告包括会议公报等,官方认证材料包括合同文本等,其他形态的材料包括建筑行业正式会议的音频、视频、图纸、图片;语料主要涉及的领域包括:绿色建筑、建设理论、建筑标书、建筑合同、建筑材料和城市规划等。本专利技术所述步骤(2)中,通过计算机中的“文本整理器”软件将不符合英文文本规范的全角字符和数值、全角空格多余的回车键进行整理和替换,以对文本中存在的不合规范的符号、格式进行整理,实现原始语料进行数据的清洗和去除,保持文本的清洁性。本专利技术所述步骤(3)中,每一对双语平行句对,在Word的可视文档中不超过四行的具体步骤如下:S31:首先统计待翻译文本第一至三行的字符,并检测第三行倒数第一个句号或逗号或分号,当检测到第三行倒数第一个句号或逗号或分号时,在句号或逗号或分号处进行换行操作,然后执行步骤S34;若未检测到,执行步骤S32;S32:检测第二行倒数第一个句号或逗号或分号,在第二行倒数第一个句号或逗号或分号处进行换行操作,然后执行步骤S34;若第二行未检测到,则执行步骤S33;S33:同样步骤检测第一行,在第一行倒数第一个句号或逗号或分号处进行换行操作,然后执行步骤S34;S34:继续检测待翻译文本换行后的第一至三行的字符,并重复S31-S33的步骤,有效的实现了语料句段的切分,保证了每一对双语平行句对,在Word的可视文档中不超过四行。本专利技术的有益效果是:与现有技术相比,本专利技术涉及的建筑工程多模态双语平行语料库的构建方法,为建筑词汇提供了丰富的对比样本,检索出的词汇或句法的含义都是与建筑相关的,排除了一些无用的含义;为使用者提供数量巨大的双语对译样本,不仅使教师在教学中可以有大量的例证进行教学,提升教学质量,也可以使学生在课外学习与研究中收益良多;可为使用者提供丰富的可用专业型文本资料,以此作为进一步教学、学习、研究和实践的参考;为建筑领域提供了更加专业的翻译平台,且语料库来源权威,切分精细,专业性强,能做到行业精准对接,提升了语料的匹配度,从而满足建筑工程的要求。附图说明图1为本专利技术的翻译结果示例图;图2、图3为本专利技术的多模态材料翻译结果示例图;图4为市场占有率较高的某在线翻译平台的翻译结果示例图;图5为本专利技术的语料库+CAT翻译的结果示例图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本文档来自技高网
...

【技术保护点】
1.一种建筑工程多模态双语平行语料库的构建方法,其特征在于:具体包括以下步骤:(1)语料筛选:通过网络下载、扫描识别、手工录入和网络爬虫方式获取原始语料,原始语料的主要来源为国家级出版社正式出版的建筑类英汉双语著作、政府公文报告、官方认证材料、建筑行业正式会议的音频、视频、图纸、图片;(2)语料提取、校对:利用现代影像技术采集多模态建筑工程类信息(图片、图表、图纸、视频、音频以及文字),并对其进行挖掘、构建;然后进行校对,对服务器上的原始语料进行增、删、改、查操作,对原始语料进行数据的清洗和去除,校对无误后保存,并将双语语料在Tmxmall软件中做成以段落为主的句对齐方式;(3)语料切分、对齐:将步骤(2)中对齐后对句段进行切分,使得每一对双语平行句对,在Word的可视文档中不超过四行;(4)去噪:采用人工降噪的方式,对翻译结果不精准的语句或段落进行修改,手动录入并保存至语料库,确保了语料库在计算机辅助翻译过程中的精确匹配;(5)标注与转写:在标注软件上建立不同的标注层,从不同的视角和方面对语料进行标注;并用多模态语料库标注与检索软件,对转写内容、音频和视频进行同步呈现,同时支持文字、音频和视频多种形式结果输出;(6)得到平行语料库:对已识别的文字依次进行机器翻译,并采用人工翻译进行校正后得到平行语料库;(7)语料库更新和扩容:语料库更新通过更新单元来控制,更新单元不定时弹出推荐词条及其推荐权重,根据推荐词条和推荐权重将推荐词条写入语料库,推荐权重是根据推荐词条弹出该单词或语句的次数来确定。...

【技术特征摘要】
1.一种建筑工程多模态双语平行语料库的构建方法,其特征在于:具体包括以下步骤:(1)语料筛选:通过网络下载、扫描识别、手工录入和网络爬虫方式获取原始语料,原始语料的主要来源为国家级出版社正式出版的建筑类英汉双语著作、政府公文报告、官方认证材料、建筑行业正式会议的音频、视频、图纸、图片;(2)语料提取、校对:利用现代影像技术采集多模态建筑工程类信息(图片、图表、图纸、视频、音频以及文字),并对其进行挖掘、构建;然后进行校对,对服务器上的原始语料进行增、删、改、查操作,对原始语料进行数据的清洗和去除,校对无误后保存,并将双语语料在Tmxmall软件中做成以段落为主的句对齐方式;(3)语料切分、对齐:将步骤(2)中对齐后对句段进行切分,使得每一对双语平行句对,在Word的可视文档中不超过四行;(4)去噪:采用人工降噪的方式,对翻译结果不精准的语句或段落进行修改,手动录入并保存至语料库,确保了语料库在计算机辅助翻译过程中的精确匹配;(5)标注与转写:在标注软件上建立不同的标注层,从不同的视角和方面对语料进行标注;并用多模态语料库标注与检索软件,对转写内容、音频和视频进行同步呈现,同时支持文字、音频和视频多种形式结果输出;(6)得到平行语料库:对已识别的文字依次进行机器翻译,并采用人工翻译进行校正后得到平行语料库;(7)语料库更新和扩容:语料库更新通过更新单元来控制,更新单元不定时弹出推荐词条及其推荐权重,根据推荐词条和推荐权重将推荐词条写入语料库,推荐权重是根据推荐词条弹出该单词或语句的次数来确定。2.根据权利要求1所述的建筑工程多模态双语平行语料库的构建方法,其特征在于:所述步骤(1)的语料筛选过程中,所述网络爬虫的方法采用python下的selenium网络测试包作为爬虫库的基础,首先通过百度学术第三方网站爬取相关领域文件下载页的外部链接,而后再统一进入这些外部链接,通过模拟点击页面元素的方式,下载相关领域文件,对相关文件的格式进行转换,清洗冗余信息和错误信息,并提取相应...

【专利技术属性】
技术研发人员:张晓红王薇张聪颖丁玫高金岭鲍玉平
申请(专利权)人:山东建筑大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1