【技术实现步骤摘要】
生成同义词的方法、装置、电子设备以及可读存储介质
本申请涉及互联网
,尤其涉及搜索
中的一种生成同义词的方法、装置、电子设备以及可读存储介质。
技术介绍
在当前的搜索场景下,当用户输入实体词进行搜索时,通常会使用与实体词对应的同义词来替换所输入的实体词进行搜索,从而获取更为丰富的搜索结果。因此,与实体词对应的同义词在搜索中占据着重要的位置。而现有技术在进行同义词的生成时,通常采用将语料库中的文本数据进行切词之后,通过计算词语之间词向量的相似度来生成同义词,但该方法所生成的同义词的准确性较差,且无法确保所生成的同义词与实体词具有相似的搜索需求,从而降低用户对于搜索结果的满意程度。
技术实现思路
本申请为解决技术问题所采用的技术方案是提供一种生成同义词的方法,包括:获取待处理实体词及其对应的第一搜索结果页;确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。本申请能够确保所生成的同义词与实体词具有相似的搜索需求,从而提升同义词生成的准确性。本申请为解决技术问题所采用的技术方案是提供一种生成同义词的装置,包括:获取单元,用于获取待处理实体词及其对应的第一搜索结果页;处理单元,用于确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;生成单元,用于选取所述查询词query ...
【技术保护点】
1.一种生成同义词的方法,其特征在于,包括:/n获取待处理实体词及其对应的第一搜索结果页;/n确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;/n选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。/n
【技术特征摘要】
1.一种生成同义词的方法,其特征在于,包括:
获取待处理实体词及其对应的第一搜索结果页;
确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;
选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页包括:
确定所述第一搜索结果页中包含的统一资源定位符URL;
获取历史搜索结果页,并确定所述历史搜索结果页中包含的URL;
根据所确定的URL,从所述历史搜索结果页中选取与所述第一搜索结果页具有相同URL的数量超过预设阈值的搜索结果页,作为所述第二搜索结果页。
3.根据权利要求1所述的方法,其特征在于,所述确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页包括:
确定所述第一搜索结果页中包含的搜索结果的标题;
获取历史搜索结果页,并确定所述历史搜索结果页中包含的搜索结果的标题;
根据所确定的搜索结果的标题,从所述历史搜索结果页中选取与所述第一搜索结果页具有相同标题的搜索结果的数量超过预设阈值的搜索结果页,作为所述第二搜索结果页。
4.根据权利要求1所述的方法,其特征在于,所述选取所述查询词query中满足第二预设条件的词语包括:
将所述查询词query进行切词,获取切词结果;
计算所述切词结果中的各词语与所述待处理实体词之间的相似度,选取与所述待处理实体词具有最大相似度的词语。
5.根据权利要求1所述的方法,其特征在于,所述选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词包括:
选取所述查询词query中满足第二预设条件的词语作为候选词语,将所述候选词语与所述待处理实体词构成同义词候选对;
提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选;
将筛选之后的同义词候选对中的候选词语,作为对应所述待处理实体词的同义词。
6.根据权利要求5所述的方法,其特征在于,所述提取所述同义词候选对的预设特征包括:
提取所述同义词候选对中两个词语的词语本身特征以及两个词语对应的搜索结果特征中的至少一种。
7.根据权利要求5所述的方法,其特征在于,所述提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选包括:
从所构成的同义词候选对中选取预设数量的同义词候选对进行标注;
将所选取的同义词候选对的预设特征作为输入,将对应各同义词候选对的标注结果作为输出,训练分类模型,得到同义标注模型;
将全部同义词候选对的预设特征分别输入所述同义标注模型,根据所述同义标注模型的输出结果,来筛选各同义词候选对。
8.根据权利要求5所述的方法,其特征在于,所述提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选包括:
获取预先设置的筛选规则;
根据所提取的预设特征,将不满足所述筛选规则的同义词候选对进行过滤。
9.一种生成同义词的装置,其特征在于,包括:
获取单元,用于获取待处理实体词及其对应的第一搜索结果页;
处理单元,用于确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;
生成单元,用于选取所述查询词query中满足第二预...
【专利技术属性】
技术研发人员:崔力娟,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。