【技术实现步骤摘要】
词嵌入表示学习方法及装置、文本召回方法及装置
本公开涉及自然语言处理
,具体而言,涉及一种词嵌入表示学习方法、词嵌入表示学习装置、文本召回方法、文本召回装置、计算机可读存储介质及电子设备。
技术介绍
词嵌入(wordembedding)又称词向量,词表征、文本表征等,是自然语言处理(NLP)中语言模型与表征学习技术的统称,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。在根据搜索字符串进行信息召回时,用户可能会由于疏忽使得搜索字符串中存在错别字符,例如用户想要输入的搜索字符串是“新冠肺炎”,但是实际输入的搜索字符串是“新官肺炎”,如果严格按照包含错别字符的搜索字符串进行召回时,就会出现召回结果错误或者召回结果不完整的情况,缺少与正确的搜索字符串对应的召回结果,降低了用户体验。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
< ...
【技术保护点】
1.一种词嵌入表示学习方法,其特征在于,包括:/n获取文本语料,对所述文本语料进行分词处理,并基于得到的分词和所述分词对应的发音信息构建图结构;/n以所述图结构中的各节点为初始节点,随机游走获取与所述初始节点对应的节点序列;/n根据所述节点序列对词嵌入表示模型进行训练以获取词嵌入查找表,并基于所述词嵌入查找表确定与所述文本语料对应的词嵌入表示。/n
【技术特征摘要】
1.一种词嵌入表示学习方法,其特征在于,包括:
获取文本语料,对所述文本语料进行分词处理,并基于得到的分词和所述分词对应的发音信息构建图结构;
以所述图结构中的各节点为初始节点,随机游走获取与所述初始节点对应的节点序列;
根据所述节点序列对词嵌入表示模型进行训练以获取词嵌入查找表,并基于所述词嵌入查找表确定与所述文本语料对应的词嵌入表示。
2.根据权利要求1所述的方法,其特征在于,所述文本语料为中文文本,所述发音信息为所述中文文本经分词处理所得到的各分词中每个字对应的拼音;
所述基于得到的分词和所述分词对应的发音信息构建图结构,包括:
以与所述中文文本对应的分词和所述拼音为节点,以所述分词、所述分词中的单字以及所述单字对应的拼音之间的关系为边,根据所述节点和所述边构建无向无环图。
3.根据权利要求2所述的方法,其特征在于,所述基于得到的分词和所述分词对应的发音信息构建图结构,还包括:
在构建所述无向无环图时,根据预设规则对各所述边设置权重。
4.根据权利要求1或2所述的方法,其特征在于,所述边包括在拼音相同字不同以及拼音相近字相同的节点关系上建立的边。
5.根据权利要求1所述的方法,其特征在于,所述以所述图结构中的各节点为初始节点,随机游走获取与所述初始节点对应的节点序列,包括:
获取预设的第一参数和第二参数,根据当前节点、与所述当前节点相邻的历史节点和未来节点、所述第一参数和所述第二参数确定所述当前节点跳到所述历史节点以及所述当前节点跳到所述未来节点的游走概率;
根据所述游走概率确定游走方向,并基于所述游走方向确定所述节点序列。
6.根据权利要求1所述的方法,其特征在于,所述根据所述节点序列对词嵌入表示模型进行训练以获取词嵌入查找表,包括:
将所述节点序列输入至所述词嵌入表示模型,以获取预测信息;
根据所述预测信息和所述节点序列对应的标记信息确定损失函数;
基于所述损失函数对所述词嵌入表示模型的参数进行优化,以使所述损失函数的值达到最小,并将训练后的所述词嵌入表示模型中隐藏层所对应的嵌入矩阵作为所述词嵌入查找表。
7.根据权利要求6所述的方法,其特征在于,所述基于所述词嵌入查找表确定与所述文本语料对应的词嵌入表示,包括:
获取基于所述图结构构建的词表,并根据所述词表获取所述文本语料中的分词所对应的编码;
根据所述编码在所述词嵌入查找表中确定与所述分词对应的词嵌入;
根据所有所述分词对应的词嵌入确定与所述文本语料对应的词嵌入表示。
8.一种文本召回方法,其特征在于,包括:
获取搜索字符串,对所述搜索字符串进行分词处理,以获取搜索分词;
根据所述搜索分词在词嵌入查找表中进行查询,以获取与所述搜索分词对应的词嵌入,所述词嵌入查找表是根据权利要求1-6中任意一项所述的词嵌入表示学习方法所获取的词嵌入查找表;
根据所有所述搜索分词对应的词嵌入获取与所述搜索字符串对应的搜索...
【专利技术属性】
技术研发人员:张雨春,翁泽峰,翟彬旭,张东于,范云霓,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。