搜索样本的词特征提取方法、装置、设备以及存储介质制造方法及图纸

技术编号:26377563 阅读:27 留言:0更新日期:2020-11-19 23:46
本申请实施例公开了搜索样本的词特征提取方法、装置、设备以及存储介质,具体涉及人工智能技术领域,进一步涉及但不限于自然语言处理、大数据等技术领域。该方法的一具体实施方式包括:基于各个搜索样本的标签及各个搜索样本中各个搜索词的搜索频次信息,确定筛选后的搜索词;获取筛选后的搜索词的语义向量,以及对筛选后的搜索词的语义向量进行聚类,得到每个类簇的词包;将搜索样本的词包的特征作为表征模型的输入,搜索样本的标签作为表征模型的训练目标进行有监督训练,表征模型的中间层结果作为搜索样本的词包的表征特征,通过对搜索词做筛选和对搜索词进行聚类,有助于后续对机器学习模型的训练,提升模型的效果。

【技术实现步骤摘要】
搜索样本的词特征提取方法、装置、设备以及存储介质
本申请涉及计算机
,具体涉及人工智能
,进一步涉及但不限于自然语言处理、大数据等
,尤其涉及搜索样本的词特征提取方法、装置、设备以及存储介质。
技术介绍
目前基于搜索引擎搜索样本的词特征挖掘方法主要是无监督的。即,首先,给定一个词典和候选搜索样本,统计候选搜索样本中的词在一段时间内的出现频次;然后,对每个词的词频从大到小排序,均匀地将词分为多个词包;最后,基于词包,构建词包特征,其中一个词包的特征为在频次统计中出现在该词包中不同词的个数。
技术实现思路
本申请实施例提供了搜索样本的词特征提取方法、装置、设备以及存储介质。第一方面,本申请实施例提供了搜索样本的词特征提取方法,包括:基于各个搜索样本的标签及各个搜索样本中各个搜索词的搜索频次信息,确定筛选后的搜索词;获取筛选后的所述搜索词的语义向量,以及对所述筛选后的搜索词的语义向量进行聚类,得到每个类簇的词包;将搜索样本的词包的特征作为表征模型的输入,搜索样本的标签作为表征模型的训练目标进行有监督训练,本文档来自技高网...

【技术保护点】
1.一种搜索样本的词特征提取方法,包括:/n基于各个搜索样本的标签及各个搜索样本中各个搜索词的搜索频次信息,确定筛选后的搜索词;/n获取筛选后的所述搜索词的语义向量,以及对所述筛选后的搜索词的语义向量进行聚类,得到每个类簇的词包;/n将搜索样本的词包的特征作为表征模型的输入,搜索样本的标签作为表征模型的训练目标进行有监督训练,将训练完成的表征模型的至少一个中间层结果作为搜索样本的词包的表征特征。/n

【技术特征摘要】
1.一种搜索样本的词特征提取方法,包括:
基于各个搜索样本的标签及各个搜索样本中各个搜索词的搜索频次信息,确定筛选后的搜索词;
获取筛选后的所述搜索词的语义向量,以及对所述筛选后的搜索词的语义向量进行聚类,得到每个类簇的词包;
将搜索样本的词包的特征作为表征模型的输入,搜索样本的标签作为表征模型的训练目标进行有监督训练,将训练完成的表征模型的至少一个中间层结果作为搜索样本的词包的表征特征。


2.根据权利要求1所述的方法,所述基于各个搜索样本的标签及各个搜索样本中各个搜索词的搜索频次信息,确定筛选后的搜索词包括:
统计以下至少一项数据:搜索样本的正样本总数与搜索样本的负样本总数,任一搜索词的正样本数与任一搜索词的负样本数,任一搜索词的正样本搜索总次数与任一搜索词的负样本搜索总次数,正样本所有搜索词的搜索总次数与负样本所有搜索词的搜索总次数;
基于统计的数据,计算任一搜索词的区分度指标值;
基于各个搜索词的区分度指标值,确定筛选后的搜索词。


3.根据权利要求1所述的方法,所述对所述筛选后的搜索词的语义向量进行聚类,得到每个类簇的词包,包括:
选择任一类簇的词包中区分度指标值最高的N个搜索词作为候选种子词,扩展所述候选种子词的语义向量的K近邻词,得到目标种子词,其中,N、K均为正整数;
采用目标种子词对所述语义向量进行聚类。


4.根据权利要求1所述的方法,所述方法还包括:
获取各个搜索样本中各个搜索词的活跃天数;
所述对所述筛选后的搜索词的语义向量进行聚类,得到每个类簇的词包还包括:
对所述语义向量进行聚类;
基于各个搜索词的搜索频次信息和各个搜索词的活跃天数,对每个类簇构建多个维度特征的词包。


5.根据权利要求1所述的方法,所述表征模型为多层感知器。


6.根据权利要求1-5任一项所述的方法,所述方法包括:
将用户搜索样本输入至所述训练完成的表征模型,得到搜索样本的词特征;
将搜索样本的词特征作为信息推送模型的输入,将推送的信息作为信息推送模型的期望输出,对所述信息推送模型进行训练,得到训练完成的信息推送模型。


7.一种搜索样本的词特征提取装置,其特征在于,所述装置包括:
搜索词确定模块,被配置为基于各个搜索样本的标签及各个搜索样本中各个搜索词的搜索频次信息,确定筛选后的搜索词;
聚类模块,被配置为获取筛选后的所述搜索词的语义向量,以...

【专利技术属性】
技术研发人员:徐思琪钟辉强陈亮辉方军
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1