一种基于汉越词对齐语料构建越南语依存树库的方法技术

技术编号:12219400 阅读:123 留言:0更新日期:2015-10-21 22:54
本发明专利技术涉及一种基于汉越词对齐语料构建越南语依存树库的方法,属于自然语言处理技术领域。本发明专利技术首先构建汉越词对齐平行句对库,再构建中文依存树语料库,根据构建好的汉越词对齐平行句对库、中文依存树语料库,构建了越南语依存树语料库。本发明专利技术构建的越南语依存树库对越南语的句法分析、机器翻译、信息获取等上层应用能提供有力支撑;构建了双语平行依存树库语料;本发明专利技术提出的构建依存树的方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间;本发明专利技术提出的构建依存树的方法相比采用机器学习的方法准确率明显提高。

【技术实现步骤摘要】

本专利技术涉及,属于自然语言 处理

技术介绍
中国一东盟自由贸易区是世界上人口最多的自由贸易区,"桥头堡战略"是推进我 国向西南开发、实现与东盟国家睦邻友好的战略需要,云南是中国向西南开放的重要桥头 堡,语言上的沟通是实现中国与东盟国家之间政治、文化、经济交流的前提。东盟成员国越 南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方边境人民友好相处,相 互学习方面起到了十分重要的作用。所以,针对双语方面的研宄工作就显得尤为重要。越 南语和汉语的互译过程中,句法分析是十分重要的工作。越南语的结构相对比较简单,词语 之间的从属关系清晰明确,所以相对于短语树的句法分析,越南语更适合采用依存树的方 法进行句法分析;越南语依存标注体系和越南语依存树库的构建,已经成为整个越南语依 存分析的核心工作,如果能对该问题加以有效合理的解决,那么对对越南语的句法分析、机 器翻译、信息获取等上层应用可以提供有力支撑。
技术实现思路
本专利技术提供了,以用于解决 现有技术对于研宄越南语的依存句法分析比较困难的问题,构建越南语依存树库比较稀缺 的问题,本专利技术构建的越南语依存本文档来自技高网...

【技术保护点】
一种基于汉越词对齐语料构建越南语依存树库的方法,其特征在于:所述基于汉越词对齐语料构建越南语依存树库的方法的具体步骤如下:Step1、首先构建汉越词对齐平行句对库;Step1.1、首先收集汉越平行句对;Step1.2、带有词对齐的汉越平行句对库建设;对汉越平行句对使用GIZA++进行词对齐训练,然后再通过人工调整得到汉越词对齐平行句对库;Step2、构建中文依存树语料库;Step2.1、对汉越词对齐平行句对库进行中文句子分词处理;Step2.2、对汉越词对齐平行句对库进行中文句子分词处理后的中文句子进行词性标注处理;Step2.3、对词性标注后的中文句子训练得到中文依存树库;Step3、根据构...

【技术特征摘要】

【专利技术属性】
技术研发人员:余正涛李发杰郭剑毅
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1