词义消歧模型的训练方法及装置制造方法及图纸

技术编号:24576551 阅读:66 留言:0更新日期:2020-06-21 00:27
本说明书实施例提供一种词义消歧模型的训练方法及装置,在训练方法中,获取词语共现图和语义关联图。从训练文本中选取第一词语。获取对应于第一词语的正例样本和负例样本。计算训练文本中各词语与各语义关联图中各节点所代表词语的相似度,并基于相似度,选取目标关联图。基于目标关联图,确定第一词语的语义向量,并基于词语共现图,确定其它词语的词向量。基于确定的语义向量和词向量,利用编码器编码。基于词语共现图,确定两个样本中各词语的词向量。根据确定的词向量,利用编码器编码。基于编码结果,计算训练文本与正例样本的第一文本距离,以及计算训练文本与负例样本的第二文本距离。以第一文本距离小于第二文本距离为目标,训练编码器。

Training method and device of word sense disambiguation model

【技术实现步骤摘要】
词义消歧模型的训练方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及一种词义消歧模型的训练方法及装置。
技术介绍
词义消歧是指根据词的上下文来自动判断一词多义的词的当前含义。在传统技术中,通常是基于有监督学习的方法来进行词义消歧。如,基于上下文C,通过有监督学习方法,得到待消歧词的各词义s_i的后验概率P(s_i|C)。将最大后验概率的词义s_k=argmaxP(s_i|C)作为消歧后确定的含义。然而,通过该方法进行词义消歧时,其消歧结果通常不够准确。因此,需要提供一种更准确的词义消歧方法。
技术实现思路
本说明书一个或多个实施例描述了一种词义消歧模型的训练方法及装置,所训练得到的词义消歧模型可以更准确地实现词义消歧。第一方面,提供了一种词义消歧模型的训练方法,包括:获取词语共现图和若干语义关联图;其中,所述词语共现图基于文本语料中各词语之间的共现关系构建,其中的每个节点代表一个词语并对应于一个词向量,所述词向量用于表征对应词语的平均词义;所述语义关联图通过对所述词语共现图采用图分割算法本文档来自技高网...

【技术保护点】
1.一种词义消歧模型的训练方法,所述词义消歧模型包括编码器;所述方法包括:/n获取词语共现图和若干语义关联图;其中,所述词语共现图基于文本语料中各词语之间的共现关系构建,其中的每个节点代表一个词语并对应于一个词向量,所述词向量用于表征对应词语的平均词义;所述语义关联图通过对所述词语共现图采用图分割算法分割得到,其中的每个节点代表一个词语的单个词义并对应于一个第一语义向量;/n从训练文本中选取具有一词多义的第一词语;/n获取所述第一词语的第一解释文本和第二解释文本;其中,所述第一解释文本用于解释所述第一词语对应于所述训练文本的词义,所述第二解释文本用于解释所述第一词语的其它词义;/n对于所述训练...

【技术特征摘要】
1.一种词义消歧模型的训练方法,所述词义消歧模型包括编码器;所述方法包括:
获取词语共现图和若干语义关联图;其中,所述词语共现图基于文本语料中各词语之间的共现关系构建,其中的每个节点代表一个词语并对应于一个词向量,所述词向量用于表征对应词语的平均词义;所述语义关联图通过对所述词语共现图采用图分割算法分割得到,其中的每个节点代表一个词语的单个词义并对应于一个第一语义向量;
从训练文本中选取具有一词多义的第一词语;
获取所述第一词语的第一解释文本和第二解释文本;其中,所述第一解释文本用于解释所述第一词语对应于所述训练文本的词义,所述第二解释文本用于解释所述第一词语的其它词义;
对于所述训练文本,计算所述训练文本中各词语与各语义关联图中各节点所代表词语的相似度,并基于所述相似度,从所述若干语义关联图中选取目标关联图;
至少基于所述目标关联图中各节点对应的第一语义向量,确定所述第一词语的语义向量,并基于所述词语共现图中各节点对应的词向量,确定其它词语的词向量;根据所述第一词语的语义向量和其它词语的词向量,利用所述编码器对所述训练文本进行编码;
基于所述词语共现图中各节点对应的词向量,分别确定所述第一解释文本和所述第二解释文本中各词语的词向量;根据所述第一解释文本和所述第二解释文本中各词语的词向量,利用所述编码器分别对所述第一解释文本和所述第二解释文本进行编码;
基于编码结果,计算所述训练文本与所述第一解释文本之间的第一文本距离,以及计算所述训练文本与所述第二解释文本之间的第二文本距离;
以所述第一文本距离小于所述第二文本距离为目标,训练所述编码器。


2.根据权利要求1所述的方法,所述词语共现图通过以下步骤获得:
针对所述文本语料中的每个词语,将该词语作为当前节点,从所述文本语料中确定出在该词语上下文窗口内出现的词语,将确定出的词语作为关联词语;
将该关联词语作为当前节点的关联节点,并构建两者的连接边;
至少根据该词语与关联词语之间的距离,确定该两者之间连接边的权重;
在针对每个词语,建立与关联节点之间的连接边以及确定连接边的权重之后,得到所述词语共现图。


3.根据权利要求1所述的方法,所述若干语义关联图通过以下步骤得到:
对所述词语共现图中的每个节点,以其为中心,进行广度优先搜索,得到与所述节点关联的初始分割图;
对所述初始分割图进行最大连通子图分割,得到至少一个连通分量;
若所述连通分量的个数多于1个,则对所述节点进行拆分,以使拆分后的各节点与各连通分量一一对应;
基于拆分前所述节点的连接边,构建各节点与对应连通分量之间的连接边,以形成所述若干语义关联图中与该节点相关的语义关联图。


4.根据权利要求1所述的方法,所述词语共现图中各节点的词向量基于图节点向量化方法或者词向量化方法确定;所述图节点向量化方法包括以下任一种:node2vec、Deepwalk以及LINE;所述词向量化方法包括以下任一种:Word2Vec以及Glove。


5.根据权利要求1所述的方法,所述语义关联图中各节点的第一语义向量通过以下步骤得到:
对于所述语义关联图中的每个节点,采样对应的节点序列;
将所述节点序列中的每个节点依次作为当前节点,并对当前节点的当前语义向量进行调整,所述调整的步骤包括:
至少根据当前节点的当前语义向量与当前节点在所述节点序列中的邻近节点的当前语义向量的相似度,计算第一概率值;至少根据当前节点的词向量以及当前节点在所述节点序列中的邻近节点的当前语义向量的相似度,计算第二概率值;
以最大化所述第一概率值和所述第二概率值为目标,对所述当前节点的当前语义向量进行调整;
迭代执行以上各步骤,直至所述语义关联图中的各个节点的当前语义向量满足预定义的收敛条件;
将所述语义关联图中各节点的当前语义向量作为其第一语义向量。


6.根据权利要求1所述的方法,所述编码器包括以下任一种:递归神经网络RNN、长短期记忆网络LSTM以及卷积神经网络CNN。


7.根据权利要求1所述的方法,所述至少基于所述目标关联图中各节点对应的第一语义向量,确定所述第一词语的语义向量,包括:
获取所述目标关联图中所代表词语与所述第一词语相似的节点的第一语义向量;
获取预先构建的个性化语义关联图中所代表查询词与所述第一词语相似的节点的第二语义向量;所述个性化语义关联图基于用户的若干历史查询词而构建,其中的每个节点代表一个查询词的单个词义并对应于一个第二语义向量;
对所述第一语义向量和所述第二语义向量进行融合,将融合结果作为所述第一词语的语义向量。


8.根据权利要求7所述的方法,所述对所述第一语义向量和所述第二语义向量进行融合,包括:
对所述第一语义向量和所述第二语义向量执行最大池化操作、求平均操作或者求和操作,得到所述融合结果。


9.根据权利要求1所述的方法,所述对于所述训练文本,计算所述训练文本中各词语与各语义关联图中各节点所代表词语的相似度,并基于所述相似度,从所述若干语义关联图中选取目标关联图,包括:
对于所述各语义关联图中的每个语义关联图,计算所述训练文本中各词语与该语义关联图中各节点所代表词语的相似度;
基于所述相似度,统计对应于该语义关联图的相似词语的个数;
从若干语义关联图中选取对应的相似词语的个数最多的语义关联图,将选取的语义关联图作为目标关联图。


10.一种词义消歧方法,包括:
获取词语共现图和若干语义关联图;其中,所述词语共现图基于文本语料中各词语之间的共现关系构建,其中的每个节点代表一个词语并对应于一个词向量,所述词向量用于表征对应词语的平均词义;所述语义关联图通过对所述词语共现图采用图分割算法分割得到,其中的每个节点代表一个词语的单个词义并对应于一个语义向量;
获取待消歧文本,并从所述待消歧文本中选取具有一词多义的第一词语;
获取所述第一词语的若干解释文本,其中,每个解释文本用于解释所述第一词语的多个词义中的一个词义;
对于所述待消歧文本,基于所述词语共现图中各节点对应的词向量,确定所述待消歧文本中各词语的词向量;根据所述待消歧文本中各词语的词向量,利用预先训练的词义消歧模型中的编码器,对所述待消歧文本进行编码;
对于每个解释文本,计算所述解释文本中各词语与各语义关联图中各节点所代表词语的相似度,并基于所述相似度,从所述若干语义关联图中选取目标关联图;
基于所述目标关联图中各节点对应的语义向量,确定所述解释文本中各词语的语义向量;根据所述解释文本中各词语的语义向量,利用所述编码器,对所述解释文本进行编码;
基于编码结果,确定所述待消歧文本与所述若干解释文本之间的文本距离;
从所述若干解释文本中选取出对应文本距离最小的目标文本;
基于所述目标文本,确定所述待消歧文本中的所述第一词语的词义。


11.一种词义消歧模型的训练装置,所述词义消歧模型包括编码器;所述装置包括:
获取单元,用于获取词语共现图和若干语义关联图;其中,所述词语共现图基于文本语料中各词语之间的共现关系构建,其中的每个节点代表一个词语并对应于一个词向量,所述词向量用于表征对应词语的平均词义;所述语义关联图通过对所述词语共现图采用图分割算法分割得到,其中的每个节点代表一个词语的单个词义并对应于一个第一语义向量;
选取单元,用于从训练文本中选取具有一...

【专利技术属性】
技术研发人员:钱隽夫
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1