一种同义词挖掘方法及装置制造方法及图纸

技术编号：20655138 阅读：43 留言：0更新日期：2019-03-23 06:49

本申请的同义词挖掘方法及装置，在对待匹配同义词的目标搜索词进行向量化处理时，所采用的词向量模型的训练样本包括多个用户中每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词，而属于同一时间窗口的各个搜索词由于关联性较强，从而使得在训练词向量模型时在训练样本中提供了长尾词的上下文信息，在此基础上，当利用该词向量模型以及基于该词向量模型所得的词语向量库对目标搜索词的同义词进行挖掘时，对于长尾形式的目标搜索词，可基于所述词向量模型及所述词语向量库中体现的上下文信息使得长尾词具有较好的同义词挖掘效果，且本申请由于在进行同义词挖掘时不需人工介入，从而可有效提升同义词挖掘效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种同义词挖掘方法及装置
本专利技术属于计算机
，尤其涉及一种同义词挖掘方法及装置。
技术介绍
同义词挖掘技术是基于用户搜索行为定向的广告召回中的重要技术，利用该技术对广告主设置的用户搜索词进行同义词扩展，可以提高广告的召回效率。目前，常用的同义词挖掘方法通常可以分为两种，一种是基于规则的同义词挖掘方法，该方法需要大量的人工介入，通过人们的先验知识来提供同义词列表，虽然可以借助一些同义词词典，但是词典的信息有滞后性，对于网络语言的传播，依然需要人工介入处理，从而会导致挖掘效率较为低下；另一种是基于搜索引擎上下文的挖掘方法，该方法通常需要搜索点击日志及session日志(即搜索日志)，通过不同搜索词的共现(点击同一统一资源定位符url,出现在同一session，即当基于不同的搜索词进行搜索并根据搜索结果点击了同一url时，认为上述不同的搜索词产生了共现)来计算同义词，该方法的缺点在于对于长尾同义词的挖掘效果不理想，而在基于用户搜索行为定向的广告召回中，有商业价值的往往是长尾词的搜索。由此可见，现有的同义词挖掘方法均存在相应缺陷，从而，本领域需提供一种较优的同义...

【技术保护点】
1.一种同义词挖掘方法，其特征在于，包括：获得待处理的目标搜索词；利用预先训练的词向量模型对所述目标搜索词进行向量化处理，得到所述目标搜索词对应的目标词向量；所述词向量模型为预先利用多个用户的历史搜索行为所对应的搜索词训练的模型，每个用户的历史搜索行为所对应的搜索词包括：每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词；基于所述目标词向量以及预定的词语向量库中包括的各个词语的词向量，计算所述词语向量库中的每个词语与所述目标搜索词的相似度；所述词语向量库包括多条词语与词向量的对应关系信息，所述词语向量库中的词语为所述多个用户的历史搜索行为所对应的搜索词，所述词语向量库中的词...

【技术特征摘要】
1.一种同义词挖掘方法，其特征在于，包括：获得待处理的目标搜索词；利用预先训练的词向量模型对所述目标搜索词进行向量化处理，得到所述目标搜索词对应的目标词向量；所述词向量模型为预先利用多个用户的历史搜索行为所对应的搜索词训练的模型，每个用户的历史搜索行为所对应的搜索词包括：每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词；基于所述目标词向量以及预定的词语向量库中包括的各个词语的词向量，计算所述词语向量库中的每个词语与所述目标搜索词的相似度；所述词语向量库包括多条词语与词向量的对应关系信息，所述词语向量库中的词语为所述多个用户的历史搜索行为所对应的搜索词，所述词语向量库中的词向量为利用所述词向量模型对所述多个用户的历史搜索行为所对应的各个搜索词进行向量化处理后所得的向量化表达；基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词。2.根据权利要求1所述的方法，其特征在于，在所述获得待处理的目标搜索词之前，还包括以下的预处理过程：获得多个用户的历史搜索行为所对应的搜索行为信息，所述搜索行为信息包括搜索词与搜索时间的对应关系；利用预定时长的时间窗口对每个用户的搜索行为信息进行划分，得到每个用户在所述预定时长的至少一个时间窗口内所对应的各个搜索词；利用各个用户在所对应的各时间窗口内的各个搜索词，训练一词向量模型；利用所述词向量模型对每个用户在所对应的时间窗口内的每个搜索词进行向量化处理，得到每个搜索词对应的词向量，并基于各个用户的各个搜索词与相应词向量的对应关系，生成一词语向量库。3.根据权利要求1所述的方法，其特征在于，所述获得待处理的目标搜索词，包括：获得用户的当前搜索行为所对应的搜索词，作为待处理的目标搜索词。4.根据权利要求1所述的方法，其特征在于，所述基于所述目标词向量以及预定的词语向量库中包括的各个词语对应的词向量，计算所述词语向量库中的每个词语与所述目标搜索词的相似度，包括：利用预定的词向量距离计算公式，基于所述目标词向量以及所述词语向量库中包括的每个词语对应的词向量，计算所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离，所述每个词语的词向量距离表征所述目标搜索词与所述词语向量库中包括的每个词语间的相似度。5.根据权利要求4所述的方法，其特征在于，所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离，为所述目标搜索词与所述词语向量库中包括的每个词语的余弦距离或欧式距离。6.根据权利要求1所述的方法，其特征在于，所述基于预定规则从所述词语向量库中选取预定数量的词语作为所述...

【专利技术属性】
技术研发人员：吴健君，倪嘉呈，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人