一种基于子词嵌入对齐的汉越依存句法分析方法技术

技术编号:41242807 阅读:23 留言:0更新日期:2024-05-09 23:54
本发明专利技术涉及基于子词嵌入对齐的汉越依存句法分析方法,属自然语言处理领域。本发明专利技术主要利用汉语和越南语的子词对齐特征改善越南语预训练语言模型本身表征能力相对较弱的问题。本发明专利技术利用对齐矩阵将汉语子词映射到越南语子词类似的表示空间;接着,筛选出与每个越南语子词最相似的十个汉语子词,并对其进行加权求和,将求和的结果与原始越南语子词表示进行融合作为越南语子词的嵌入表示;最后,将获得的越南语子词表示与XLM‑RoBERTa预训练模型得到的原始越南语词表示相结合作为输入越南语句子的最终词嵌入表示,通过经典的双仿射依存句法分析模型获得越南语句子所对应的依存句法树。本发明专利技术为越南语依存句法分析带来了显著的性能提升。

【技术实现步骤摘要】


技术介绍

1、随着全球化的不断深入,我国与周边国家紧密相连。通过有效地理解越南语的结构和语法,我们能够更精准地进行信息提取和语义理解,从而为跨文化交流提供更为准确和深入的支持。这种能力不仅有助于加深与越南等国的友好合作关系,还在全球范围内推动了科技与文化的交流,为我国参与国际事务和合作提供了更为坚实的语言基础。

2、不同语言之间信息传递仍然面临着复杂的挑战,特别是在处理语法结构和依存关系的解析时。此外,构建高性能的句法分析模型不得不依赖于庞大而高质量的人工标注数据,而在进行跨语言依存句法分析时,模型性能普遍存在显著下降的现象。为了解决这一系列亟待解决的问题,我们提出了基于子词嵌入对齐的汉越依存句法分析方法。当前,越南语依存句法分析仍然是研究的前沿领域之一,致力于通过充分利用现有的低资源语言的数据资源,提升模型在不同语言上的依存句法分析性能,尤其是在低资源的语言环境下。本专利技术设计了一种基于子词嵌入对齐的双仿射依存句法分析模型,以强化越南语依存句法分析的能力。首先,我们对汉语和越南语的语法结构进行了深入研究,揭示了它们之间的众多相似之处,例如本文档来自技高网...

【技术保护点】

1.一种基于子词嵌入对齐的汉越依存句法分析方法,其特征在于:所述方法的具体步骤如下:

2.根据权利要求1所述的基于子词嵌入对齐的汉越依存句法分析方法,其特征在于:所述Step1的具体步骤如下:

3.根据权利要求1所述的基于子词嵌入对齐的汉越依存句法分析方法,其特征在于:所述Step2的具体步骤如下:

4.根据权利要求1所述的基于子词嵌入对齐的汉越依存句法分析方法,其特征在于:所述Step3的具体步骤如下:

5.根据权利要求1所述的基于子词嵌入对齐的汉越依存句法分析方法,其特征在于:所述Step4具体包括如下:

>6.根据权利要求1...

【技术特征摘要】

1.一种基于子词嵌入对齐的汉越依存句法分析方法,其特征在于:所述方法的具体步骤如下:

2.根据权利要求1所述的基于子词嵌入对齐的汉越依存句法分析方法,其特征在于:所述step1的具体步骤如下:

3.根据权利要求1所述的基于子词嵌入对齐的汉越依存句法分析方法,其特征在于:所述step2的具体步骤如下:

4...

【专利技术属性】
技术研发人员:李英刘建建余正涛
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1