生成同义词的方法、装置、电子设备以及可读存储介质制造方法及图纸

技术编号:25637237 阅读:15 留言:0更新日期:2020-09-15 21:29
本申请公开了一种生成同义词的方法、装置、电子设备以及可读存储介质,涉及搜索技术领域。本申请在生成同义词时所采用的实现方案为:获取待处理实体词及其对应的第一搜索结果页;确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。本申请能够确保所生成的同义词与实体词具有相似的搜索需求,从而提升同义词生成的准确性。

【技术实现步骤摘要】
生成同义词的方法、装置、电子设备以及可读存储介质
本申请涉及互联网
,尤其涉及搜索
中的一种生成同义词的方法、装置、电子设备以及可读存储介质。
技术介绍
在当前的搜索场景下,当用户输入实体词进行搜索时,通常会使用与实体词对应的同义词来替换所输入的实体词进行搜索,从而获取更为丰富的搜索结果。因此,与实体词对应的同义词在搜索中占据着重要的位置。而现有技术在进行同义词的生成时,通常采用将语料库中的文本数据进行切词之后,通过计算词语之间词向量的相似度来生成同义词,但该方法所生成的同义词的准确性较差,且无法确保所生成的同义词与实体词具有相似的搜索需求,从而降低用户对于搜索结果的满意程度。
技术实现思路
本申请为解决技术问题所采用的技术方案是提供一种生成同义词的方法,包括:获取待处理实体词及其对应的第一搜索结果页;确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。本申请能够确保所生成的同义词与实体词具有相似的搜索需求,从而提升同义词生成的准确性。本申请为解决技术问题所采用的技术方案是提供一种生成同义词的装置,包括:获取单元,用于获取待处理实体词及其对应的第一搜索结果页;处理单元,用于确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;生成单元,用于选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。上述申请中的一个实施例具有如下优点或有益效果:本申请能够确保所生成的同义词与实体词具有相似的搜索需求,从而提升同义词生成的准确性。因为采用了通过与待处理实体词对应的第一搜索结果页来获取查询词query,然后选取查询词query中满足第二预设条件的词语作为待处理实体词的同义词的技术手段,所以克服了现有技术中仅通过词语之间词向量的相似度来生成同义词所导致的准确性较低、所生成的同义词与实体词具有不同的搜索需求的技术问题,从而实现确保所生成的同义词与实体词具有相似的搜索需求,提升同义词生成的准确性的技术效果。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的示意图;图2是根据本申请第二实施例的示意图;图3是根据本申请第三实施例的示意图;图4是用来实现本申请实施例的生成同义词的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本申请第一实施例的示意图。如图1中所示,本实施例的生成同义词的方法,具体可以包括如下步骤:S101、获取待处理实体词及其对应的第一搜索结果页;S102、确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;S103、选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。本实施例的生成同义词的方法,能够根据所获取的待处理实体词及其对应的第一搜索结果页,来自动地生成与待处理实体词对应的同义词,进而实现在用户输入待处理实体词之后使用与其对应的同义词来进行搜索,从而获取更为丰富且准确的搜索结果的目的。本实施例中的待处理实体词包括人名、地名、机构名、产品名、影视名、专有名词等具有特定意义的词语。本实施例中的S101在获取待处理实体词时,可以将用户实时输入的词语作为待处理实体词,还可以获取预先存储在数据库中的词语作为待处理实体词。本实施例中的与待处理实体词对应的第一搜索结果页,即为将待处理实体词作为搜索请求进行搜索之后所获取的搜索结果页面。本实施例中的S101在获取与待处理实体词对应的第一搜索结果页时,可以通过对待处理实体词进行实时搜索来获取,还可以根据搜索日志记录来获取。另外,本实施例在获取与待处理实体词对应的第一搜索结果页时,可以将预设数量的搜索结果页面作为第一搜索结果页,其中预设数量可以为一页,例如搜索结果首页,也可以为多页。本实施例对与待处理实体词对应的第一搜索结果页的数量不进行限定。本实施例在获取与待处理实体词对应的第一搜索结果页之后,首先确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,然后再获取与所确定的第二搜索结果页对应的查询词query,其中第二搜索结果页即使用所确定的查询词query作为搜索请求来获取的搜索结果页面。因此,本实施例通过确定与待处理实体词具有相似的搜索结果页的查询词query,确保了从查询词query中所获取的同义词与待处理实体词具有相似的搜索需求,进一步提升了在使用同义词进行搜索时获取搜索结果的召回率。具体地,本实施例在执行S102确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果页时,可以采用以下方式:确定第一搜索结果页中包含的URL(UniformResourceLocator,统一资源定位符),各URL即为搜索结果页面中对应各搜索结果的网页地址;获取历史搜索结果页,并确定所获取的历史搜索结果页中包含的URL,其中可以通过搜索日志记录来获取历史搜索结果页;通过所确定的URL,将第一搜索结果页与历史搜索结果页进行比较;根据比较结果,从历史搜索结果页中选取与第一搜索结果页具有相同URL的数量超过预设阈值的搜索结果页,作为第二搜索结果页。因此,本实施例通过搜索结果页中包含的URL,来确定与第一搜索结果页相似的第二搜索结果页,使得第二搜索结果页与第一搜索结果页中包含的搜索结果尽可能相似,从而进一步确保了所获取的查询词query与待处理实体词具有相似的搜索需求。另外,本实施例在执行S102确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果时,除了根据URL之外,还可以根据搜索结果的标题,选取与第一搜索结果页具有相同标题的搜索结果的数量超过预设阈值的历史搜索结果页作为第二搜索结果页。由于搜索日志记录中会存储有用户每次进行搜索时所使用的查询词query及其对应的搜索结果页,因此本实施例根据查询词query与搜索结果页之间的对应关系,能够获取与第二搜索结果页对应的查询词query。另外,本实施例所获取的查询词query可以有多个,也可以有一个,本实施例对查询词query的数量不进行限定。本实施例在获取与第二搜索结果页对应的查询词query之后,从查询词query中选取满足第二预设条件的词语,将所选取的词语作为与待处理实体词对应的同义词。其中本文档来自技高网...

【技术保护点】
1.一种生成同义词的方法,其特征在于,包括:/n获取待处理实体词及其对应的第一搜索结果页;/n确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;/n选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。/n

【技术特征摘要】
1.一种生成同义词的方法,其特征在于,包括:
获取待处理实体词及其对应的第一搜索结果页;
确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;
选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。


2.根据权利要求1所述的方法,其特征在于,所述确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页包括:
确定所述第一搜索结果页中包含的统一资源定位符URL;
获取历史搜索结果页,并确定所述历史搜索结果页中包含的URL;
根据所确定的URL,从所述历史搜索结果页中选取与所述第一搜索结果页具有相同URL的数量超过预设阈值的搜索结果页,作为所述第二搜索结果页。


3.根据权利要求1所述的方法,其特征在于,所述确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页包括:
确定所述第一搜索结果页中包含的搜索结果的标题;
获取历史搜索结果页,并确定所述历史搜索结果页中包含的搜索结果的标题;
根据所确定的搜索结果的标题,从所述历史搜索结果页中选取与所述第一搜索结果页具有相同标题的搜索结果的数量超过预设阈值的搜索结果页,作为所述第二搜索结果页。


4.根据权利要求1所述的方法,其特征在于,所述选取所述查询词query中满足第二预设条件的词语包括:
将所述查询词query进行切词,获取切词结果;
计算所述切词结果中的各词语与所述待处理实体词之间的相似度,选取与所述待处理实体词具有最大相似度的词语。


5.根据权利要求1所述的方法,其特征在于,所述选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词包括:
选取所述查询词query中满足第二预设条件的词语作为候选词语,将所述候选词语与所述待处理实体词构成同义词候选对;
提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选;
将筛选之后的同义词候选对中的候选词语,作为对应所述待处理实体词的同义词。


6.根据权利要求5所述的方法,其特征在于,所述提取所述同义词候选对的预设特征包括:
提取所述同义词候选对中两个词语的词语本身特征以及两个词语对应的搜索结果特征中的至少一种。


7.根据权利要求5所述的方法,其特征在于,所述提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选包括:
从所构成的同义词候选对中选取预设数量的同义词候选对进行标注;
将所选取的同义词候选对的预设特征作为输入,将对应各同义词候选对的标注结果作为输出,训练分类模型,得到同义标注模型;
将全部同义词候选对的预设特征分别输入所述同义标注模型,根据所述同义标注模型的输出结果,来筛选各同义词候选对。


8.根据权利要求5所述的方法,其特征在于,所述提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选包括:
获取预先设置的筛选规则;
根据所提取的预设特征,将不满足所述筛选规则的同义词候选对进行过滤。


9.一种生成同义词的装置,其特征在于,包括:
获取单元,用于获取待处理实体词及其对应的第一搜索结果页;
处理单元,用于确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;
生成单元,用于选取所述查询词query中满足第二预...

【专利技术属性】
技术研发人员:崔力娟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1