融合句法结构及Tree-LSTM的汉越平行句对抽取方法技术

技术编号:27060694 阅读:30 留言:0更新日期:2021-01-15 14:41
本发明专利技术涉及融合句法结构及Tree‑LSTM的汉越平行句对抽取方法。本发明专利技术首先预训练汉越双语词向量,将汉越双语映射到同一语义空间中,考虑汉越句子结构具有差异性,通过依存句法树将句子序列结构转化为依存树结构,通过Tree‑LSTM捕获句子的句法结构信息,并将汉越双语句子的词性信息作为特征向量拼接到句子语义向量中,最后将该向量输入至全连接层训练出汉越平行句对分类器。本发明专利技术利用深度学习方法,在大量数据中自动学习句子表示规则,解决了传统的平行句对抽取任务需要耗费大量人力资源用以设计特征的问题。同时,该发明专利技术考虑并解决了汉越语言的结构差异性特点影响抽取模型性能的问题,提升了平行句对抽取模型的准确率。

【技术实现步骤摘要】
融合句法结构及Tree-LSTM的汉越平行句对抽取方法
本专利技术涉及融合句法结构及Tree-LSTM的汉越平行句对抽取方法,属于自然语言处理

技术介绍
平行语料是开展机器翻译研究的一项重要资源,近年来,中、越两国的交流与合作越来越密切,机器翻译也正成为打通中、越两国各项合作的重要工具,有着非常可观的应用前景。越南语为典型的稀缺型语言,汉越平行句对数据较为稀少,在大量汉越可比语料中利用平行句对抽取技术生成汉越平行句对能够解决汉越机器翻译任务中数据稀疏性问题。传统的平行句对抽取方法很少考虑句子的句法结构信息,因此,利用融合句法结构及Tree-LSTM的汉越平行句抽取方法,从维基百科中汉越可比语料中抽取汉越平行句对具有重要意义。
技术实现思路
本专利技术提供了融合句法结构及Tree-LSTM的汉越平行句对抽取方法,解决了传统的平行句对抽取任务需要耗费大量人力资源用以设计特征的问题,同时,该专利技术考虑并解决了汉越语言的结构差异性特点影响抽取模型性能的问题;本专利技术利用深度学习表示句子语义,同时考虑汉越句法结构的差异性特点,以提高汉越平行句对抽取模型的准确率。本专利技术的技术方案是:融合句法结构及Tree-LSTM的汉越平行句对抽取方法,所述方法包括:Step1、收集用于训练平行句对抽取模型的汉越平行语料以及作为抽取来源的维基百科的汉越可比语料,将收集的汉越平行语料分为训练语料、测试语料;其中,使用Scrapy作为爬虫工具,模仿用户操作,根据页面数据元素的Xpath路径爬取汉越平行句对,同时下载维基百科下汉、越Dump数据集,该数据中包含了汉语所有的维基百科数据,根据ID对齐,可抽取到汉越可比语料;Step2、利用汉越单语语料训练汉越词向量,通过双语词典,训练汉越双语词向量;Step2.1、对汉越单语语料使用fastText分别训练汉越单语词向量;Step2.2、对收集的双语语料进行分词,构建汉越双语词典,作为汉越双语词向量训练任务标签;Step2.3、使用MUSE对汉越双语词向量进行训练。双语词向量训练使汉越同义词在双语语义空间中词向量靠近,同时不改变汉越单语语义空间内词向量的距离,本专利技术使用MUSE对汉越双语词向量进行训练,如公式所示:argmin∑i‖Xi*W-Yi*‖2(1)Step3、利用依存句法树模型将汉越的句子顺序序列转化为依存树结构的树序列,将此树序列作为Tree-LSTM模型的输入;所述Step3中,所述Step3中,汉语和越南语都是孤立语言,语法手段主要是通过语序和虚词的使用。汉语和越南语的语序有相似之处,两种语言的主干成分语序一致,均为主-谓-宾(SVO)结构,两种语言的语法差异主要体现在越南语的修饰词(定语、状语)顺序与汉语不同,汉语的修饰词顺序是偏正结构,即修饰词在中心词前,多层修饰亦相同,例如汉语“她是我见过的最美丽的女孩。”,越南语是正偏结构,即修饰词在中心词后,多层修饰亦相同,例如越南语“là(她是)gái(女孩)xinh(最美丽的)mà(我见过的)。”。为提取汉越语法信息,使用斯坦福大学提供的汉语依存句法分析工具对汉语进行语法分析生成语法依存树,使用越南的TheVietnamesedependencytreebankVnDT工具对越南语进行语法分析生成语法依存树;生成的语法依存树作为Tree-LSTM模型的输入。Step4、将汉越平行语料中的汉越平行句对中的每个词的词性进行标注,转化为向量,拼接到句子语义向量中;Step5、将最终的汉越语义向量进行元素乘积和元素差捕获差异性,进而输入到全连接层中,进行有监督训练。作为本专利技术的进一步方案,所述Step4中,分别将汉越平行语料中的汉越平行句对中的每个词进行词性标注,之后将词性转化为向量,拼接到句子语义向量中,生成最终抽取模型的输入向量。作为本专利技术的进一步方案,所述Step5中,将最后得到的包含词性和句法结构信息的句子语义向量,通过元素乘积和绝对元素差来捕获它们的匹配信息,使用全连接层来计算句子相互的翻译概率,从而进行有监督训练。本专利技术的有益效果是:1、本专利技术使用基于融合了句子结构信息的Tree-LSTM模型对句子进行编码时,其效果明显优于基于Bi-LSTM的模型,词性信息作为辅助信息能够提高整体模型性能;2、本专利技术利用深度学习方法,在大量数据中自动学习句子表示规则,解决了传统的平行句对抽取任务需要耗费大量人力资源用以设计特征的问题;同时,该专利技术考虑并解决了汉越语言的结构差异性特点影响抽取模型性能的问题,提升了平行句对抽取模型的准确率。在实验中表明该专利技术在准确率、召回率、F值三项指标上都优于基线模型。附图说明图1为本专利技术中的流程图;图2为本专利技术将序列转化为树形结构的例图。具体实施方式实施例1:如图1-图2所示,融合句法结构及Tree-LSTM的汉越平行句对抽取方法,所述方法包括:Step1、收集用于训练平行句对抽取模型的汉越平行语料以及作为抽取来源的维基百科的汉越可比语料,将收集的汉越平行语料分为训练语料、测试语料;其中,使用Scrapy作为爬虫工具,模仿用户操作,根据页面数据元素的Xpath路径爬取汉越平行句对,同时下载维基百科下汉、越Dump数据集,该数据中包含了汉语所有的维基百科数据,根据ID对齐,可抽取到汉越可比语料;Step2、对汉、越单语语料使用fastText进行单语词向量训练,获取汉越双语词典,使训练汉越双语词向量是有监督,使用MUSE进行训练,如公式所示:argmin∑i‖Xi*W-Yi*‖2(1)Step3、如图2所示,使用斯坦福大学提供的汉语依存句法分析工具以及越南的TheVietnamesedependencytreebankVnDT工具,对汉越平行语料中的汉越平行句对都转化为汉语依存树和越南语依存树,该图2主要是将句子的顺序结构转化为树形结构作为Tree-LSTM模型的输入。所述Tree-LSTM:fjk=σ(Wfxj+Ufhk+bf)(4)cj=it*uj+∑k∈C(j)fjk*ck(7)hj=oj*tanh(cj)(8)Step4、将汉越平行语料中的汉越平行句对中每个词进行词性标注,对每个词性转化为向量,拼接到句子语义向量中。Step5、将最后得到的包含词性和句法结构信息的向量通过元素乘积和绝对元素差来捕获它们的匹配信息,使用全连接层来计算句子相互的翻译概率。p(yj|cj)=σ(Wchj+c)(20)Step6、实验采用准确率(P)、召回率(R)、和F值(F)作为评价指标进行对比实验。为了验证该模型的有效性,我们设置了如下实验,为了验证预训练双语词向量模型对于平行句对抽取方法的影响,直接使用基线模型作为测试,如下表所示:表1:本文档来自技高网...

【技术保护点】
1.融合句法结构及Tree-LSTM的汉越平行句对抽取方法,其特征在于:所述方法包括:/nStep1、收集用于训练平行句对抽取模型的汉越平行语料以及作为抽取来源的维基百科的汉越可比语料,将收集的汉越平行语料分为训练语料、测试语料;/nStep2、利用汉越单语语料训练汉越词向量,通过双语词典,训练汉越双语词向量;/nStep3、利用依存句法树模型将汉越的句子顺序序列转化为依存树结构的树序列,将此树序列作为Tree-LSTM模型的输入;/nStep4、将汉越平行语料中的汉越平行句对中每个词的词性进行标注,转化为向量,拼接到句子语义向量中;/nStep5、将最终的汉越语义向量进行元素乘积和元素差捕获差异性,进而输入到全连接层中,进行有监督训练。/n

【技术特征摘要】
1.融合句法结构及Tree-LSTM的汉越平行句对抽取方法,其特征在于:所述方法包括:
Step1、收集用于训练平行句对抽取模型的汉越平行语料以及作为抽取来源的维基百科的汉越可比语料,将收集的汉越平行语料分为训练语料、测试语料;
Step2、利用汉越单语语料训练汉越词向量,通过双语词典,训练汉越双语词向量;
Step3、利用依存句法树模型将汉越的句子顺序序列转化为依存树结构的树序列,将此树序列作为Tree-LSTM模型的输入;
Step4、将汉越平行语料中的汉越平行句对中每个词的词性进行标注,转化为向量,拼接到句子语义向量中;
Step5、将最终的汉越语义向量进行元素乘积和元素差捕获差异性,进而输入到全连接层中,进行有监督训练。


2.根据权利要求1所述的融合句法结构及Tree-LSTM的汉越平行句对抽取方法,其特征在于:所述Step1中,使用Scrapy作为爬虫工具,模仿用户操作,根据页面数据元素的Xpath路径爬取汉越平行句对,同时下载维基百科下汉、越Dump数据集,该数据中包含了汉语所有的维基百科数据,根据ID对齐,可抽取到汉越可比语料。


3.根据权利要求1所述的融合句法结构及Tree-LSTM的汉越平行句对抽取方法,其特征在于:所述步骤Step2的具体步骤为:
Step2...

【专利技术属性】
技术研发人员:高盛祥张迎晨余正涛朱浩东
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1