近义词挖掘方法、装置及电子设备制造方法及图纸

技术编号:20803032 阅读:31 留言:0更新日期:2019-04-10 02:53
本发明专利技术实施例提供一种近义词挖掘方法、装置及电子设备,涉及计算机应用技术领域。其中近义词挖掘方法包括:获取待处理文本;获取所述文本的预设近义词;通过基于词向量的文档相似度算法,获取所述文本与候选近义词之间的第一语义相似度;以及,通过所述文档相似度算法,获取所述预设近义词与所述候选近义词之间的第二语义相似度;根据所述第一语义相似度和所述第二语义相似度,确定所述文本的近义词。本发明专利技术实施例提供的技术方案,只有当候选近义词与待处理文本及其预设近义词之间的词向量距离均相近时,才会作为待处理文本的近义词;因此,可以有效提高近义词挖掘准确率。

【技术实现步骤摘要】
近义词挖掘方法、装置及电子设备
本申请涉及自然语言处理
,具体涉及一种近义词挖掘方法、装置及电子设备。
技术介绍
文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。近义概念挖掘是文本挖掘中一个重要的分支。近义概念挖掘是指发现与一个词或一段文本具有相近含义的词或文本的过程。目前,一种常用的近义概念挖掘方法是基于词向量空间的近义概念挖掘方法,该方法将词向量空间分布视为语义空间分布,利用两个词向量之间的距离衡量两个对应词之间的相似度,即:两个词之间的词向量距离越近,则两个词的语义越相近。其中,词向量(DistributedRepresentation)是用来将语言中的词进行数学化的一种方式,词向量是一种低维实数向量,且包含词的语义信息。对一个词采用分布式表示的词向量进行表示,使得相似的词在词向量空间中的距离较近。然而,在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:由于在词向量空间中,不仅包括语义空间中大小,还包括语义空间的正反(极性、方向),因此,仅依据词向量的距离对一个词在词向量空间进行近义挖本文档来自技高网...

【技术保护点】
1.一种近义词挖掘方法,其特征在于,包括:获取待处理文本;获取所述文本的预设近义词;通过基于词向量的文档相似度算法,获取所述文本与各候选近义词之间的第一语义相似度;以及,通过所述文档相似度算法,获取所述预设近义词与所述候选近义词之间的第二语义相似度,所述候选近义词从预设词表中获取;根据所述第一语义相似度和所述第二语义相似度,确定所述文本的近义词。

【技术特征摘要】
1.一种近义词挖掘方法,其特征在于,包括:获取待处理文本;获取所述文本的预设近义词;通过基于词向量的文档相似度算法,获取所述文本与各候选近义词之间的第一语义相似度;以及,通过所述文档相似度算法,获取所述预设近义词与所述候选近义词之间的第二语义相似度,所述候选近义词从预设词表中获取;根据所述第一语义相似度和所述第二语义相似度,确定所述文本的近义词。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语义相似度和所述第二语义相似度,并确定所述文本的近义词,包括:根据第一选取规则和各候选近义词的所述第一语义相似度排名,对候选近义词进行选取,形成第一候选近义词集;以及,根据第二选取规则和各候选近义词的所述第二语义相似度排名,对候选近义词进行选取,形成第二候选近义词集;获取所述第一候选近义词集和所述第二候选近义词集共同包括的候选近义词;根据所述共同包括的候选近义词,确定所述近义词。3.根据权利要求2所述的方法,其特征在于,所述根据所述共同包括的候选近义词,并确定所述近义词,包括:获取所述待处理文本及预设近义词的反义词,根据获取到的反义词判断所述共同包括的各候选近义词是否符合构词规则,将符合所述构词规则的候选近义词作为所述近义词。4.根据权利要求3所述的方法,其特征在于,在所述获取所述待处理文本及预设近义词的反义词之前,所述方法还包括:获取所述待处理文本的词性;判断所述词性是否为动词或形容词;若是,则进入下一步。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一语义相似度和所述第二语义相似度,并确定所述文本的近义词,包括:根据所述第一语义相似度和所述第二语义相似度、及预设权重,获取所述文本与所述候选近义词之间的第三语义相似度;根据第三选取规则和所述第三语义相似度对候选近义词进行选取;根据选取的候选近义词,确定所述近义词。6.根据权利要求5所述的方法,其特征在于,所述第三语义相似度采用如下公式计算:Z=α*X+(1-α)*Y其中,X是所述第一语义相似度、Y是所述第二语义相似度,α是所述预设权重,α在0-1之间,...

【专利技术属性】
技术研发人员:蒋宏飞李健铨晋耀红杨凯程
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1