同义词生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24939047 阅读:21 留言:0更新日期:2020-07-17 21:09
本申请提出一种同义词生成方法、装置、电子设备及存储介质,属于计算机技术领域。其中,该方法包括:获取待处理同义词簇的代表词;根据待处理同义词簇的代表词及同义词簇中包含的原始同义词对,将同义词簇进行同义词对改写处理;根据改写后的各词对的语义相似度,确定改写后的同义词簇的内聚性;若改写后的同义词簇的内聚性满足预设条件,则根据改写后的同义词簇对预设的同义词样本库进行更新。由此,通过这种同义词生成方法,降低了改写后的同义词簇中各词对不同义的概率,提高了同义词簇合成的准确率,改善了同义资源的质量。

【技术实现步骤摘要】
同义词生成方法、装置、电子设备及存储介质
本申请涉及计算机
,尤其涉及一种同义词生成方法、装置、电子设备及存储介质。
技术介绍
互联网搜索引擎已经成为人们获取信息的主流工具。当用户在使用搜索引擎进行搜索时,为了能够将与用户所输入的搜索词的同义词相匹配的网页也包含在搜索结果中召回,可以对用户输入的搜索请求进行同义扩展,即在利用用户输入的搜索请求进行搜索的同时,也利用搜索词的同义词进行搜索。为了在搜索引擎中应用该技术,同义词的挖掘是非常重要的基础工作。相关技术中,在对同义词进行挖掘之后,还可以对挖掘出的同义词簇进行合成,即按照一定的规则确定同义词簇中的一个词作为同义词簇中其他词的代表词。比如,A和B同义,B和C同义,那么A、B、C是一个同义词簇,如果选取的代表词是C,那么合成结果就是A-C、B-C。然而,这种通过选取代表词对同义词簇进行合成的方法,由于同义词在传播过程中会出现语义衰减和失真,可能使得经过传递后的词对不再同义(如上例中的A和C不一定同义),从而导致同义词合成的准确率较低,影响了同义资源的质量。
技术实现思路
本申请提出的同义词生成方法、装置、电子设备及存储介质,用于解决相关技术中,通过选取代表词对同义词簇进行合成的方法,由于同义词在传播过程中会出现语义衰减和失真,可能使得经过传递后的词对不再同义,从而导致同义词合成的准确率较低,影响同义资源的质量的问题。本申请一方面实施例提出的同义词生成方法,包括:获取待处理同义词簇的代表词;根据所述待处理同义词簇的代表词及所述同义词簇中包含的原始同义词对,将所述同义词簇进行同义词对改写处理;根据改写后的各词对的语义相似度,确定改写后的同义词簇的内聚性;若所述改写后的同义词簇的内聚性满足预设条件,则根据所述改写后的同义词簇对预设的同义词样本库进行更新。本申请另一方面实施例提出的同义词生成装置,包括:获取模块,用于获取待处理同义词簇的代表词;改写模块,用于根据所述待处理同义词簇的代表词及所述同义词簇中包含的原始同义词对,将所述同义词簇进行同义词对改写处理;确定模块,用于根据改写后的各词对的语义相似度,确定改写后的同义词簇的内聚性;更新模块,用于若所述改写后的同义词簇的内聚性满足预设条件,则根据所述改写后的同义词簇对预设的同义词样本库进行更新。本申请再一方面实施例提出的电子设备,其包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如前所述的同义词生成方法。本申请再一方面实施例提出的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如前所述的同义词生成方法。本申请又一方面实施例提出的计算机程序,该程序被处理器执行时,以实现本申请实施例所述的同义词生成方法。本申请实施例提供的同义词生成方法、装置、电子设备、计算机可读存储介质及计算机程序,可以获取待处理同义词簇的代表词,并根据待处理同义词簇的代表词及同义词簇中包含的原始同义词对,将同义词簇进行同义词对改写处理,之后根据改写后的各词对的语义相似度,确定改写后的同义词簇的内聚性,进而在改写后的同义词簇的内聚性满足预设条件时,根据改写后的同义词簇对预设的同义词样本库进行更新。由此,通过根据改写后的各词对的语义相似度,确定改写后同义词簇的内聚性,并将内聚性满足预设条件的同义词簇确定为符合标准的同义词簇,从而降低了改写后的同义词簇中各词对不同义的概率,提高了同义词簇合成的准确率,改善了同义资源的质量。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例所提供的一种同义词生成方法的流程示意图;图2-1为本申请实施例所提供的一种同义词集合挖掘过程的示意图;图2-2为本申请实施例所提供的一种同义词生成的整体流程示意图;图3为本申请实施例所提供的另一种同义词生成方法的流程示意图;图4-1为本申请实施例所提供的一种确定改写后的同义词簇与预设的同义词样本库的差异信息的示意图;图4-2为本申请实施例所提供的一种对改写后的同义词簇进行校验的示意图;图5为本申请实施例所提供的一种同义词生成装置的结构示意图;图6为本申请实施例所提供的电子设备的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的要素。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。本申请实施例针对相关技术中,通过选取代表词对同义词簇进行合成的方法,由于同义词在传播过程中会出现语义衰减和失真,可能使得经过传递后的词对不再同义,从而导致同义词合成的准确率较低,影响同义资源的质量的问题,提出一种同义词生成方法。本申请实施例提供的同义词生成方法,可以获取待处理同义词簇的代表词,并根据待处理同义词簇的代表词及同义词簇中包含的原始同义词对,将同义词簇进行同义词对改写处理,之后根据改写后的各词对的语义相似度,确定改写后的同义词簇的内聚性,进而在改写后的同义词簇的内聚性满足预设条件时,根据改写后的同义词簇对预设的同义词样本库进行更新。由此,通过根据改写后的各词对的语义相似度,确定改写后同义词簇的内聚性,并将内聚性满足预设条件的同义词簇确定为符合标准的同义词簇,从而降低了改写后的同义词簇中各词对不同义的概率,提高了同义词簇合成的准确率,改善了同义资源的质量。下面参考附图对本申请提供的同义词生成方法、装置、电子设备、存储介质及计算机程序进行详细描述。图1为本申请实施例所提供的一种同义词生成方法的流程示意图。如图1所示,该同义词生成方法,包括以下步骤:步骤101,获取待处理同义词簇的代表词。需要说明的是,在同义词挖掘中,可以根据挖掘出的同义词集合中各词对间的相关性,将多个同义词对确定为一个同义词簇。比如,A与B同义,即A与B为一个同义词对,在本申请实施例中可以记为A=B,同时,在挖掘出的同义词集合中,C=D、B=C、A=D,则A、B、C、D可以确定为一个同义词簇。在本申请实施例中,可以对挖掘出的同义词集合中的每一个同义词簇进行合成,即在待处理同义词簇中选取一个词作为该同义词簇中其他词的代表词。进一步的,可以按照预设的规则,获取待处理同义词簇的代表词,比如,可以是将同义词簇中使用频率或搜索频率较高的词,确定为同义词簇的代表词。即在本申请实施例一种可能的实现形式中,上述步骤101,可以包括:根据所述待处理的同义词簇中各词的权重,确定所述待处理同义词簇的代表词;或者,将从所述待处理同义词簇中随机获取的任一词确定为所述代表词。其中,同义词簇中各词的权重,是指同义词簇中各词的搜本文档来自技高网...

【技术保护点】
1.一种同义词生成方法,其特征在于,包括:/n获取待处理同义词簇的代表词;/n根据所述待处理同义词簇的代表词及所述同义词簇中包含的原始同义词对,将所述同义词簇进行同义词对改写处理;/n根据改写后的各词对的语义相似度,确定改写后的同义词簇的内聚性;/n若所述改写后的同义词簇的内聚性满足预设条件,则根据所述改写后的同义词簇对预设的同义词样本库进行更新。/n

【技术特征摘要】
1.一种同义词生成方法,其特征在于,包括:
获取待处理同义词簇的代表词;
根据所述待处理同义词簇的代表词及所述同义词簇中包含的原始同义词对,将所述同义词簇进行同义词对改写处理;
根据改写后的各词对的语义相似度,确定改写后的同义词簇的内聚性;
若所述改写后的同义词簇的内聚性满足预设条件,则根据所述改写后的同义词簇对预设的同义词样本库进行更新。


2.如权利要求1所述的方法,其特征在于,所述确定改写后的同义词簇的内聚性之后,还包括:
若所述改写后的同义词簇的内聚性未满足所述预设条件,则确定所述改写后的同义词簇与所述预设的同义词样本库的差异信息;
基于第一预设规则库及第二预设规则库,对所述差异信息进行校验,以确定所述差异信息关联的改写后的每个词对的置信度;
根据所述差异信息关联的改写后的每个词对的置信度,将所述第一预设规则库或第二预设规则库进行更新。


3.如权利要求1所述的方法,其特征在于,所述根据所述改写后的同义词簇对预设的同义词样本库进行更新之前,还包括:
确定所述待处理的同义词簇中各词的权重小于第一阈值。


4.如权利要求1所述的方法,其特征在于,所述确定改写后的同义词簇的内聚性之后,还包括:
若所述待处理的同义词簇中各词的权重大于或等于第一阈值,则确定所述改写后的同义词簇与所述预设的同义词样本库的差异信息;
基于第一预设规则库库及第二预设规则库,对所述差异信息进行校验,以确定所述差异信息关联的改写后的每个词对的置信度;
根据所述差异信息关联的改写后的每个词对的置信度,将所述第一预设规则库或第二预设规则库进行更新。


5.如权利要求1所述的方法,其特征在于,所述获取待处理同义词簇的代表词,包括:
根据所述待处理的同义词簇中各词的权重,确定所述待处理同义词簇的代表词;
或者,
将从所述待处理同义词簇中随机获取的任一词确定为所述代表词。


6.如权利要求1-5任一所述的方法,其特征在于,所述根据改写后的各词对的语义相似度,确定改写后的同义词簇的内聚性之前,还包括:
确...

【专利技术属性】
技术研发人员:熊健
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1