一种基于预训练模型的词对齐性能提升方法技术

技术编号：30091472 阅读：25 留言：0更新日期：2021-09-18 08:53

本发明专利技术公开一种基于预训练模型的词对齐性能提升方法，步骤为：使用预训练模型获取句子中词语的词向量，构成互译句对的词向量矩阵X和Y；对词向量矩阵X和Y进行短语和术语的抽取，把短语和术语中的词的词向量进行加和平均处理，获得更新后的互译句对词向量矩阵X和Y；将词语和词语之间的词向量余弦计算值作为两个词之间的相似度，获得互译句对的相似度矩阵Sim；对Sim进行卷积操作，使得词对齐融入上下文词的信息；使用不同的词对齐抽取方法分别从更新后的互译句对相似度矩阵中抽取对应的词对齐信息。本发明专利技术通过基于预训练方法解决了深度学习需要训练数据大的问题，使用短语和术语表进行匹配，来解决预训练中词语之间相关度不大，而导致词语之间对齐不统一的问题。而导致词语之间对齐不统一的问题。而导致词语之间对齐不统一的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预训练模型的词对齐性能提升方法

[0001]本专利技术涉及一种自然语言处理领域的词对齐提取技术，具体为一种基于预训练模型的词对齐性能提升方法。

技术介绍

[0002]词对齐是自然语言处理的子课题，而且地位极其重要。原因是词对齐技术在自然语言领域的实例抽取、复述生成和词性标注，尤其是统计机器翻译等任务上都有较好的应用。所以一个好的自动词对齐系统是推进自然语言处理领域中大多数任务提升的关键系统。
[0003]近年来，随着人工智能的推进，深度学习获得了各个领域广泛学者的亲昧，当然机器翻译领域也不例外。近几年来，相关研究人员走出统计机器翻译(SMT)的世界，去打开了神经机器翻译(NTM)的大门。在构建神经机器翻译模型的时候，大都采用编码
‑
解码框架，再加上最为重要的注意力机制来引入上下文信息，从而提升翻译的质量。其中最为著名的NMT翻译模型莫过于Ashish Vaswani和Noam Shazeer等人提出的Transformer模型，此模型WMT2014上面多项任务中取得了突破性的分数。
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的词对齐性能提升方法，其特征在于包括以下步骤：1)使用预训练模型获取句子中词语的词向量，从而构成互译句对的词向量矩阵X和Y；2)使用短语和术语抽取工具对互译句对词向量矩阵X和Y进行短语和术语的抽取，然后把短语和术语中的词的词向量进行加和平均处理，加强其内部之间的关联性，获得更新后的互译句对词向量矩阵X和Y；3)将词语和词语之间的词向量余弦计算值作为两个词之间的相似度，获得互译句对的相似度矩阵Sim，计算公式如下：Sim＝cos(X,Y)4)取卷积核定义为κ，尺寸为n
×
n大小，这里n为2
‑
8，对相似度矩阵Sim进行卷积操作，使得词对齐融入上下文词的信息；5)使用不同的词对齐抽取方法分别从更新后的互译句对相似度矩阵中抽取对应的词对齐信息。2.按照权利要求1所述的一种基于预训练模型的词对齐性能提升方法，其特征在于：在步骤2)中，更新对应的词向量矩阵的具体步骤为：201)使用工具对句子进行短语和术语的抽取，然后构造数据集的短语和术语列表；202)对句子的词向量矩阵进行短语和术语匹配，匹配出e
i
,......,e
i+n
共n个源语词为一个短语，对n个词语...

【专利技术属性】
技术研发人员：徐萍，姜炎宏，毕东，宁义明，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人