近义词挖掘方法、装置及电子设备制造方法及图纸

技术编号:20803032 阅读:21 留言:0更新日期:2019-04-10 02:53
本发明专利技术实施例提供一种近义词挖掘方法、装置及电子设备,涉及计算机应用技术领域。其中近义词挖掘方法包括:获取待处理文本;获取所述文本的预设近义词;通过基于词向量的文档相似度算法,获取所述文本与候选近义词之间的第一语义相似度;以及,通过所述文档相似度算法,获取所述预设近义词与所述候选近义词之间的第二语义相似度;根据所述第一语义相似度和所述第二语义相似度,确定所述文本的近义词。本发明专利技术实施例提供的技术方案,只有当候选近义词与待处理文本及其预设近义词之间的词向量距离均相近时,才会作为待处理文本的近义词;因此,可以有效提高近义词挖掘准确率。

【技术实现步骤摘要】
近义词挖掘方法、装置及电子设备
本申请涉及自然语言处理
,具体涉及一种近义词挖掘方法、装置及电子设备。
技术介绍
文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。近义概念挖掘是文本挖掘中一个重要的分支。近义概念挖掘是指发现与一个词或一段文本具有相近含义的词或文本的过程。目前,一种常用的近义概念挖掘方法是基于词向量空间的近义概念挖掘方法,该方法将词向量空间分布视为语义空间分布,利用两个词向量之间的距离衡量两个对应词之间的相似度,即:两个词之间的词向量距离越近,则两个词的语义越相近。其中,词向量(DistributedRepresentation)是用来将语言中的词进行数学化的一种方式,词向量是一种低维实数向量,且包含词的语义信息。对一个词采用分布式表示的词向量进行表示,使得相似的词在词向量空间中的距离较近。然而,在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:由于在词向量空间中,不仅包括语义空间中大小,还包括语义空间的正反(极性、方向),因此,仅依据词向量的距离对一个词在词向量空间进行近义挖掘时,会出现语义上相反的反义概念,例如“购买”通过词向量的距离会挖掘出来“出售”。综上所述,现有技术存在近义词挖掘准确率较低的问题。
技术实现思路
本专利技术实施例提供一种近义词挖掘方法、装置及电子设备,用以解决现有技术存在近义词挖掘准确率较低的问题。第一方面,本专利技术实施例中提供了一种近义词挖掘方法,包括:获取待处理文本;获取所述文本的预设近义词;通过基于词向量的文档相似度算法,获取所述文本与各候选近义词之间的第一语义相似度;以及,通过所述文档相似度算法,获取所述预设近义词与所述候选近义词之间的第二语义相似度,所述候选近义词从预设词表中获取;根据所述第一语义相似度和所述第二语义相似度,确定所述文本的近义词。结合第一方面,本专利技术在第一方面的第一种实现方式中,所述根据所述第一语义相似度和所述第二语义相似度,并确定所述文本的近义词,包括:根据第一选取规则和各候选近义词的所述第一语义相似度排名,对候选近义词进行选取,形成第一候选近义词集;以及,根据第二选取规则和各候选近义词的所述第二语义相似度排名,对候选近义词进行选取,形成第二候选近义词集;获取所述第一候选近义词集和所述第二候选近义词集共同包括的候选近义词;根据所述共同包括的候选近义词,确定所述近义词。结合第一方面的第一种实现方式,本专利技术在第一方面的第二种实现方式中,所述根据所述共同包括的候选近义词,并确定所述近义词,包括:判断所述共同包括的候选近义词是否符合构词规则;若上述判断结果为是,则将符合所述构词规则的候选近义词作为所述近义词。结合第一方面,本专利技术在第一方面的第三种实现方式中,所述根据所述第一语义相似度和所述第二语义相似度,并确定所述文本的近义词,包括:根据所述第一语义相似度和所述第二语义相似度、及预设权重,获取所述文本与所述候选近义词之间的第三语义相似度;根据第三选取规则和所述第三语义相似度对候选近义词进行选取;根据选取的候选近义词,确定所述近义词。结合第一方面的第三种实现方式,本专利技术在第一方面的第四种实现方式中,所述第三语义相似度采用如下公式计算:Z=α*X+(1-α)*Y,其中,X是所述第一语义相似度、Y是所述第二语义相似度,α是所述预设权重,α在0-1之间,Z是所述第三语义相似度。结合第一方面的第三种实现方式或第一方面的第四种实现方式,本专利技术在第一方面的第五种实现方式中,所述根据选取的候选近义词,并确定所述近义词,包括:判断所述选取的候选近义词是否符合构词规则;若上述判断结果为是,则将符合所述构词规则的候选近义词作为所述近义词。结合第一方面的第二种实现方式或第一方面的第五种实现方式,本专利技术在第一方面的第六种实现方式中,所述构词规则包括:所述候选近义词中包括所述文本中的字。第二方面,本专利技术实施例提供了一种近义词挖掘装置,其包括用于执行上述方法设计中近义词挖掘装置行为相对应的模块。所述模块可以是软件和/或硬件。第三方面,本专利技术实施例还提供了一种电子设备,其包括处理器和存储器,所述处理器其被配置为支持电子设备执行上述近义词挖掘方法中相应的功能。所述存储器用于与处理器耦合,其保存执行上述近义词挖掘方法必要的程序指令和数据。第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。第五方面,本专利技术实施例提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。相较于现有技术,本专利技术实施例提供的方案,通过获取所述文本的预设近义词;通过基于词向量的文档相似度算法,获取所述文本与候选近义词之间的第一语义相似度;以及,通过所述文档相似度算法,获取所述预设近义词与所述候选近义词之间的第二语义相似度;根据所述第一语义相似度和所述第二语义相似度,确定所述文本的近义词;这种处理方式,使得不仅待处理文本与候选近义词之间的词向量距离会对近义词挖掘结果产生影响,同时待处理文本的预设近义词与候选近义词之间的词向量距离也会对近义词挖掘结果产生影响,只有当候选近义词与待处理文本及其预设近义词之间的词向量距离均相近时,才会作为待处理文本的近义词;因此,可以有效提高近义词挖掘准确率。本专利技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。附图说明图1为本专利技术实施例提供的一种近义词挖掘方法的流程示意图;图2为本专利技术实施例提供的一种近义词挖掘方法的第一具体流程示意图;图3为本专利技术实施例提供的一种近义词挖掘方法的第二具体流程示意图;图4为本专利技术实施例提供的一种近义词挖掘方法的第三具体流程示意图;图5为本专利技术实施例提供的一种近义词挖掘方法的第四具体流程示意图;图6为本专利技术实施例提供的一种近义词挖掘装置的结构示意图;图7为本专利技术实施例提供的一种近义词挖掘装置的第一具体结构示意图;图8为本专利技术实施例提供的一种近义词挖掘装置的第二具体结构示意图;图9为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合附图,对本专利技术的实施例中的技术方案做说明。为了便于理解本专利技术实施例的技术方案,下面首先对方案的基本思想作简要说明。本专利技术实施例提供的近义词挖掘方法,其基本思想是:不仅待处理文本与候选近义词之间的词向量距离会对近义词挖掘结果产生影响,同时待处理文本的预设近义词与候选近义词之间的词向量距离也会对近义词挖掘结果产生影响,只有当候选近义词与待处理文本及其预设近义词之间的词向量距离均相近时,才会作为待处理文本的近义词。因此,采用本专利技术实施例提供的近义词挖掘方法,可以有效提高近义词挖掘准确率。下面结合图1,对本专利技术实施例提供的近义词挖掘方法进行详细说明。在101部分,获取待处理文本。从文本语言角度而言,所述待处理文本可以是各种语言的文本,例如中文文本或英文文本等。在102部分,获取所述待处理文本的预设近义词。所述预设近义词,可以是与所述文本具有相同或相近语义的近义词,是标准的近义词,所述预设近义词不包括与所述文本具有相反语义的词。具体实施时,可以通过人工设置方式设定所述预设近义词。在103部分本文档来自技高网...

【技术保护点】
1.一种近义词挖掘方法,其特征在于,包括:获取待处理文本;获取所述文本的预设近义词;通过基于词向量的文档相似度算法,获取所述文本与各候选近义词之间的第一语义相似度;以及,通过所述文档相似度算法,获取所述预设近义词与所述候选近义词之间的第二语义相似度,所述候选近义词从预设词表中获取;根据所述第一语义相似度和所述第二语义相似度,确定所述文本的近义词。

【技术特征摘要】
1.一种近义词挖掘方法,其特征在于,包括:获取待处理文本;获取所述文本的预设近义词;通过基于词向量的文档相似度算法,获取所述文本与各候选近义词之间的第一语义相似度;以及,通过所述文档相似度算法,获取所述预设近义词与所述候选近义词之间的第二语义相似度,所述候选近义词从预设词表中获取;根据所述第一语义相似度和所述第二语义相似度,确定所述文本的近义词。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语义相似度和所述第二语义相似度,并确定所述文本的近义词,包括:根据第一选取规则和各候选近义词的所述第一语义相似度排名,对候选近义词进行选取,形成第一候选近义词集;以及,根据第二选取规则和各候选近义词的所述第二语义相似度排名,对候选近义词进行选取,形成第二候选近义词集;获取所述第一候选近义词集和所述第二候选近义词集共同包括的候选近义词;根据所述共同包括的候选近义词,确定所述近义词。3.根据权利要求2所述的方法,其特征在于,所述根据所述共同包括的候选近义词,并确定所述近义词,包括:获取所述待处理文本及预设近义词的反义词,根据获取到的反义词判断所述共同包括的各候选近义词是否符合构词规则,将符合所述构词规则的候选近义词作为所述近义词。4.根据权利要求3所述的方法,其特征在于,在所述获取所述待处理文本及预设近义词的反义词之前,所述方法还包括:获取所述待处理文本的词性;判断所述词性是否为动词或形容词;若是,则进入下一步。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一语义相似度和所述第二语义相似度,并确定所述文本的近义词,包括:根据所述第一语义相似度和所述第二语义相似度、及预设权重,获取所述文本与所述候选近义词之间的第三语义相似度;根据第三选取规则和所述第三语义相似度对候选近义词进行选取;根据选取的候选近义词,确定所述近义词。6.根据权利要求5所述的方法,其特征在于,所述第三语义相似度采用如下公式计算:Z=α*X+(1-α)*Y其中,X是所述第一语义相似度、Y是所述第二语义相似度,α是所述预设权重,α在0-1之间,...

【专利技术属性】
技术研发人员:蒋宏飞李健铨晋耀红杨凯程
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1