词语推荐方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37617317 阅读:14 留言:0更新日期:2023-05-18 12:08
本发明专利技术涉及自然语言处理技术领域,提供一种词语推荐方法、装置、电子设备及存储介质,该方法首先获取待查询释义;然后基于反向词典模型,从候选词表中选取待查询释义对应的目标词语;最后基于目标词语,确定推荐结果。该方法利用多任务学习得到的反向词典模型对词语以及词语的词性进行预测,考虑了词语的词性,并不仅仅依赖于词库中释义的质量以及用户输入的待查询释义的质量,可以保证推荐结果的准确性,提高推荐结果的质量,进而提高用户体验感。词性的引入,可以辅助减少预测空间,对推荐结果起到约束作用,使得推荐结果更加可靠,减少了易混淆词语的干扰,避免出现推荐结果与用户输入的待查询释义相差较大的情况。输入的待查询释义相差较大的情况。输入的待查询释义相差较大的情况。

【技术实现步骤摘要】
词语推荐方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种词语推荐方法、装置、电子设备及存储介质。

技术介绍

[0002]当前,根据用户提供的释义向用户推荐词语成为自然语言处理领域的新任务之一。例如,用户出现舌尖现象(tip

of

the

tongue,又称话到嘴边说不出来),即暂时性忘词的情况时,则需要利用已知的释义查询对应的词语。
[0003]现有技术中在向用户进行词语推荐时,通常采用如下两种方法:
[0004]1)基于释义和释义的匹配方法:这类方法将输入的待查询释义与存储的单词释义进行逐个比较,并返回与输入的待查询释义最相似的释义对应的单词。这类方法主要通过设计手工特征,借助信息检索技术来搜索目标词,或者通过训练深度学习模型来计算释义相似度进而得到推荐结果。
[0005]2)基于释义和单词的匹配方法:这类方法通常直接学习单词的嵌入表示,对于输入的待查询释义,直接与单词的嵌入表示进行相似度计算来得到对应的推荐结果。
[0006]对于方法1),其仅依据释义之间的相似性进行计算的方法完全依赖于词库中释义的质量以及用户输入的待查询释义的质量,因此效果一般。对于方法2),虽然相对于方法1),在计算形式上更加直接,不需要释义到单词的映射关系。但是,其学习到的单词的嵌入表示依然无法准确地得到推荐结果。

技术实现思路

[0007]本专利技术提供一种词语推荐方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0008]本专利技术提供一种词语推荐方法,包括:
[0009]获取待查询释义;
[0010]基于反向词典模型,确定候选词表中各词语与所述待查询释义的第一匹配结果以及所述各词语的词性与所述待查询释义的第二匹配结果,并基于所述第一匹配结果以及所述第二匹配结果,从所述候选词表中选取所述待查询释义对应的目标词语;
[0011]基于所述目标词语,确定推荐结果;
[0012]其中,所述反向词典模型基于所述各词语、所述各词语的词性以及所述各词语的释义样本进行多任务学习得到。
[0013]根据本专利技术提供的一种词语推荐方法,所述反向词典模型基于如下步骤训练得到:
[0014]对于所述候选词表中的任一词语,将所述任一词语的第一token集合与所述任一词语的释义样本的第二token集合进行拼接;
[0015]基于mask标识符替换拼接所得结果中的所述第一token集合,并将替换所得结果
输入至初始模型,由所述初始模型分别对所述替换所得结果以及所述拼接所得结果的标识位进行编码,得到所述替换所得结果对应的第一特征以及所述标识位对应的第二特征;
[0016]基于所述第一特征,确定所述mask标识符与所述各词语的第三匹配结果,基于所述第三匹配结果与所述各词语,计算第一损失函数,并基于所述第二特征,确定所述标识位与所述各词语的词性的第四匹配结果,基于所述第四匹配结果与所述各词语的词性,计算第二损失函数;
[0017]基于所述第一损失函数以及所述第二损失函数,计算目标损失函数,并基于所述目标损失函数,对所述初始模型的模型参数进行迭代更新,得到所述反向词典模型。
[0018]根据本专利技术提供的一种词语推荐方法,所述将所述任一词语的第一token集合与所述任一词语的释义样本的第二token集合进行拼接,之后还包括:
[0019]将所述任一词语的释义样本进行分句,得到若干语句,并确定各语句的第三token集合;
[0020]将所述任一词语的第一token集合与所述各语句的第三token集合进行拼接。
[0021]根据本专利技术提供的一种词语推荐方法,所述基于所述第一匹配结果以及所述第二匹配结果,从所述候选词表中选取所述待查询释义对应的目标词语,具体包括:
[0022]基于所述候选词表的词性指标矩阵、所述第一匹配结果以及所述第二匹配结果,从所述候选词表中选取所述目标词语;
[0023]其中,所述词性指标矩阵基于所述各词语的词性所属的类别、所述候选词表中的词语个数以及所述候选词表中的词性类别个数构建。
[0024]根据本专利技术提供的一种词语推荐方法,所述基于所述候选词表的词性指标矩阵、所述第一匹配结果以及所述第二匹配结果,从所述候选词表中选取所述目标词语,具体包括:
[0025]计算所述词性指标矩阵与所述第二匹配结果的点乘结果;
[0026]基于所述点乘结果以及所述第一匹配结果,计算所述各词语的综合匹配指标,并基于所述各词语的综合匹配指标,从所述候选词表中选取综合匹配指标高的若干词语作为所述目标词语。
[0027]根据本专利技术提供的一种词语推荐方法,所述目标词语包括多个,所述基于所述目标词语,确定推荐结果,具体包括:
[0028]确定各目标词语对应的目标释义;
[0029]计算各目标释义与所述待查询释义的相似度,并确定所述各目标词语中对应的相似度高的若干指定词语;
[0030]确定各指定词语在语料库中的词频,并基于所述词频以及所述各指定词语的综合匹配指标,对所述各指定词语进行排序,并将排序所得结果作为所述推荐结果。
[0031]根据本专利技术提供的一种词语推荐方法,所述基于所述目标词语,确定推荐结果,具体包括:
[0032]判断所述目标词语是否存在于所述待查询释义中;
[0033]若存在,则剔除存在于所述待查询释义中的目标词语,并基于剔除所得结果,确定所述推荐结果。
[0034]本专利技术还提供一种词语推荐装置,包括:
[0035]释义获取模块,用于获取待查询释义;
[0036]词语选取模块,用于基于反向词典模型,确定候选词表中各词语与所述待查询释义的第一匹配结果以及所述各词语的词性与所述待查询释义的第二匹配结果,并基于所述第一匹配结果以及所述第二匹配结果,从所述候选词表中选取所述待查询释义对应的目标词语;
[0037]推荐模块,用于基于所述目标词语,确定推荐结果;
[0038]其中,所述反向词典模型基于所述各词语、所述各词语的词性以及所述各词语的释义样本进行多任务学习得到。
[0039]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的词语推荐方法。
[0040]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的词语推荐方法。
[0041]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的词语推荐方法。
[0042]本专利技术提供的词语推荐方法、装置、电子设备及存储介质,该方法首先获取待查询释义;然后基于反向词典模型,确定候选词表中各词语与待查询释义的第一匹配结果以及各词语的词性与所述待查询释本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词语推荐方法,其特征在于,包括:获取待查询释义;基于反向词典模型,确定候选词表中各词语与所述待查询释义的第一匹配结果以及所述各词语的词性与所述待查询释义的第二匹配结果,并基于所述第一匹配结果以及所述第二匹配结果,从所述候选词表中选取所述待查询释义对应的目标词语;基于所述目标词语,确定推荐结果;其中,所述反向词典模型基于所述各词语、所述各词语的词性以及所述各词语的释义样本进行多任务学习得到。2.根据权利要求1所述的词语推荐方法,其特征在于,所述反向词典模型基于如下步骤训练得到:对于所述候选词表中的任一词语,将所述任一词语的第一token集合与所述任一词语的释义样本的第二token集合进行拼接;基于mask标识符替换拼接所得结果中的所述第一token集合,并将替换所得结果输入至初始模型,由所述初始模型分别对所述替换所得结果以及所述拼接所得结果的标识位进行编码,得到所述替换所得结果对应的第一特征以及所述标识位对应的第二特征;基于所述第一特征,确定所述mask标识符与所述各词语的第三匹配结果,基于所述第三匹配结果与所述各词语,计算第一损失函数,并基于所述第二特征,确定所述标识位与所述各词语的词性的第四匹配结果,基于所述第四匹配结果与所述各词语的词性,计算第二损失函数;基于所述第一损失函数以及所述第二损失函数,计算目标损失函数,并基于所述目标损失函数,对所述初始模型的模型参数进行迭代更新,得到所述反向词典模型。3.根据权利要求2所述的词语推荐方法,其特征在于,所述将所述任一词语的第一token集合与所述任一词语的释义样本的第二token集合进行拼接,之后还包括:将所述任一词语的释义样本进行分句,得到若干语句,并确定各语句的第三token集合;将所述任一词语的第一token集合与所述各语句的第三token集合进行拼接。4.根据权利要求1

3中任一项所述的词语推荐方法,其特征在于,所述基于所述第一匹配结果以及所述第二匹配结果,从所述候选词表中选取所述待查询释义对应的目标词语,具体包括:基于所述候选词表的词性指标矩阵、所述第一匹配结果以及所述第二匹配结果,从所述候选词表中选取所述目标词语;其中,所述词性指标矩阵基于所述各词语的词性所属的类别、所述候选词表中的词语个数...

【专利技术属性】
技术研发人员:杨延杰姚鑫潘雨晨伍大勇王宝鑫崔一鸣杨子清王士进王勃
申请(专利权)人:科大讯飞股份有限公司科大讯飞北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1