【技术实现步骤摘要】
近义词挖掘方法及相关设备
[0001]本申请涉及自然语言处理
,具体涉及一种近义词挖掘方法及相关设备。
技术介绍
[0002]人机交互是指用户与计算机系统之间使用某种对话语言,以一定的交互方式,为完成确定任务而发生的信息交换过程。以问答系统这种计算机系统为例进行应用说明,随着人工智能(Artificial Intelligence,AI)技术在问答系统中的应用,ES(ElasticSearch,一种搜索服务器)获得用户输入的问题后,可以采用深度匹配算法(如BM25算法),从数据库中搜索一批与该问题匹配的候选回复信息,再从中确定最匹配的候选回复信息作为最合理的答复反馈给用户,满足用户需求。
[0003]在实际应用中,由于自然语言表达多样性,可能无法搜索到与用户输入问题内容相匹配的候选回复信息,这种情况下,通常是由用户对输入的问题内容中的关键词语进行近义词替换,如“请问如何取消这个订单?”修改为“请问如何撤销这个订单?”、“请问如何解除这个订单?”等,再搜索与更新后的问题内容相匹配的候选回复信息。
[000 ...
【技术保护点】
【技术特征摘要】
1.一种近义词挖掘方法,其特征在于,所述方法包括:对汉语词库中不同领域的原词语进行词向量相似度计算,得到与相应原词语的语义相似度较高的预设个数的第一候选近义词;调用预构建的初始近义词映射词典;所述初始近义词映射词典包括多个第一近义词词组;从所述多个第一近义词词组中,获取与所述第一候选近义词存在映射关系的第二候选近义词;其中,所述映射关系包括直接映射关系和/或间接映射关系;对所述第一候选近义词和所述第二候选近义词进行过滤筛选,得到所述汉语词库中相应原词语的目标候选近义词。2.根据权利要求1所述的方法,其特征在于,所述对汉语词库中不同领域的原词语进行词向量相似度计算,得到与相应原词语的语义相似度较高的预设个数的第一候选近义词,包括:将所述汉语词库中不同领域的原词语输入词向量模型,输出所述不同领域的原词语的分布式词向量;其中,所述词向量模型是基于通用语料库包含的词向量训练语料的训练学习得到的;对得到的所述分布式词向量进行词语语义相似度计算,得到相似度计算结果;利用所述相似度计算结果,从所述汉语词库中,筛选与所述汉语词库中任一领域的原词语的词语语义相似度较高的预设个数的第一候选近义词。3.根据权利要求2所述的方法,其特征在于,所述对得到的所述分布式词向量进行词语语义相似度计算,得到相似度计算结果,利用所述相似度计算结果,从所述汉语词库中,筛选与所述汉语词库中任一领域的原词语的词语语义相似度较高的预设个数的第一候选近义词,包括:利用得到的所述分布式词向量,构建k
‑
d树;按照最近邻搜索方式,对所述k
‑
d树中各节点数据进行相似度搜索,得到与任一节点数据的词语语义相似度较高的预设个数的分布式词向量;将所述预设个数的分布式词向量各自对应的所述汉语词库中的原词语确定为第一候选近义词。4.根据权利要求1所述的方法,其特征在于,所述从所述多个第一近义词词组中,获取与所述第一候选近义词存在映射关系的第二候选近义词,包括:从所述多个第一近义词词组中,查询与各所述第一候选近义词存在直接映射关系的第一近义词;从所述多个第一近义词词组中,查询与各所述第一近义词存在直接映射关系的第二近义词;由所述第一近义词和/或所述第二近义词,组成与所述第一候选近义词存在映射关系的第二候选近义词。5.根据权利要求1所述的方法,其特征在于,所述初始近义词映射词典的构建方法包括:从至少一个预设数据源,获取多个第二近义词词组;对所述多个第二近义词词组进行融合处理,得到初始近义词映射词典。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一候选近义词和所述第二候选近义词进行过滤筛选,得到所述汉语词库中相应原词语的目标候选近义词,包括:对所述第一候选近义词和所述第二候选近义词进行去重处理;获取去重处...
【专利技术属性】
技术研发人员:周辉阳,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。