基于动态词嵌入对齐的无监督泰语依存句法分析方法技术

技术编号:33780686 阅读:28 留言:0更新日期:2022-06-12 14:34
本发明专利技术涉及一种基于动态词嵌入对齐的无监督泰语依存句法分析方法,属于自然语言处理领域。本发明专利技术包括步骤:首先分别获取泰语和英语的单语动态词嵌入;然后针对泰语作为低资源语言缺乏双语平行语料,采用对抗训练的方式将泰语和英语的词向量进行对齐,从而构建新的词向量对应关系;最后针对泰语缺乏标注语料,借助泰语和英语间的映射矩阵将在英语依存标注树库上训练的Biaffine解析模型迁移到泰语,以此实现无监督泰语依存句法分析任务。与以往基于迁移学习的泰语依存句法分析方法相比,本发明专利技术既不需要平行语料、又不需要泰语依存标注语料,可以在资源成本更低的情况下完成泰语依存句法分析。句法分析。句法分析。

【技术实现步骤摘要】
基于动态词嵌入对齐的无监督泰语依存句法分析方法


[0001]本专利技术涉及基于动态词嵌入对齐的无监督泰语依存句法分析方法,属于自然语言处理


技术介绍

[0002]近年来,国内外众多研究人员针对资源稀缺语言的句法分析任务展开了许多研究。依存句法分析分为基于转移的方法和基于图的方法,近几年出现了针对这两种不同方法的神经网络模型。基于转移的方法通过shift

reduce两个基本的动作来将序列转换为树结构,Stack LSTM模型通过三个LSTM来分别建模栈状态、待输入序列和动作序列。虽然Stack LSTM取得了非常好的效果,但是最流行的方法是基于图的方法,即直接用神经网络来预测每两个词之间存在依存关系的概率。目前基于图的依存句法分析中经典的方法如Biaffine模型,它类似全连接自注意力模型,Biaffine模型简单,并且在很多数据集上都取得了当前最好的结果。然而,泰语公开的依存标注数据只有universal dependenies中1000句的标注测试集,泰语的依存句法分析任务现存的显著问题是缺乏依存标注树库,国内本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于动态词嵌入对齐的无监督泰语依存句法分析方法,其特征在于:所述方法的具体步骤如下:Step1、首先将泰语单语语料和英语单语语料分别采用预训练语言模型获取单语动态词嵌入;Step2、然后采用对抗训练的方式将泰语和英语的词向量进行对齐,从而获得泰语和英语的词嵌入对齐矩阵;Step3、接着利用英语依存标注数据训练一个Biaffine依存解析器;Step4、最后将得到的泰英词嵌入对齐矩阵和泰语无标注语料一起输入到预训练的Biaffine依存解析器,依据此模型进行无监督泰语依存句法分析。2.根据权利要求1所述的基于动态词嵌入对齐的无监督泰语依存句法分析方法,其特征在于:所述Step1的具体步骤为:Step1.1、爬取泰语单语语料和英语单语语料,单语语料为一句一行,且将泰语单语句子进行分词预处理;Step1.2、采用ELMo预训练语言模型分别获取英语和泰语的单语词向量;计算均值向量用于表示动态词向量,简化上下文相关词向量的映射,此外计算余弦相似度实现同种语言中语义相近词的聚类,来改善向量空间的对齐,将最终的表示作为动态词嵌入。3.根据权利要求1所述的基于动态词嵌入对齐的无监督泰语依存句法分...

【专利技术属性】
技术研发人员:余正涛张弘弢王剑文永华相艳
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1