文章搜索方法、装置及电子设备制造方法及图纸

技术编号:23983685 阅读:15 留言:0更新日期:2020-04-29 12:30
本发明专利技术公开了一种文章搜索方法、装置及电子设备。该方法包括:获取用户输入的目标搜索词的词特征向量;获取文章数据库中包括的每篇文章的文章特征向量;根据预先训练的文章搜索模型,对词特征向量和文章特征向量进行处理,获取文章数据库的每篇文章的搜索预测值,以选取搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。根据本发明专利技术,可以在用户搜索文章时,向用户提供符合用户的行为特性并且与搜索词的实际内容相关性较高的文章,更精准满足用户的文章搜索需求。

Article search method, device and electronic equipment

【技术实现步骤摘要】
文章搜索方法、装置及电子设备
本专利技术涉及搜索
,更具体地,涉及一种文章搜索方法、装置及电子设备。
技术介绍
文章搜索功能是计算机软件程序、移动终端应用(APP)中可支持的最基本的应用功能。目前文章搜索功能的实现,通常是根据用户输入的搜索词进行搜索,搜索到包括与该搜索词匹配的关键词的文章时,将该文章作为搜索结果提供给用户。但是,这种文章搜索方法并不能搜索到包括与搜索词存在相关性的相关词的文章,例如,用户输入搜索词“听歌”,可以搜索出包括“听歌”这一关键词的文章,但是,却无法搜索出不包括“听歌”但是包括与“听歌”存在相关性的相关词“音乐”或者“配乐”等的文章。
技术实现思路
本专利技术的一个目的是提供一种用于文章搜索的新技术方案。根据本专利技术的第一方面,提供了一种文章搜索方法,其中,包括:获取用户输入的目标搜索词的词特征向量;获取文章数据库中包括的每篇文章的文章特征向量;根据预先训练的文章搜索模型,对所述词特征向量和所述文章特征向量进行处理,获取所述文章数据库的每篇文章的搜索预测值,以选取所述搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。可选地,所述获取用户输入的目标搜索词的词特征向量的步骤包括:获取所述目标搜索词的搜索分词集合;从已获取的分词特征向量集合中,获取所述搜索分词集合中包括每个搜索分词的词特征向量;将所述搜索分词集合中包括所有搜索分词的词特征向量得到的平均向量,作为所述目标搜索词的词特征向量。可选地,所述方法还获取搜索分词特征向量集合的步骤,包括:对文章数据库中每篇文章进行分词处理,得到该篇文章的文章分词序列;其中,所述文章分词序列中包括根据在对应的文章中出现次序进行排序的、所述文章的所有分词;根据所获取的全部所述文章分词序列,获取所述文章数据库中每篇文章的每个所述分词的词特征向量,以构成所述分词特征向量集合;其中,所述每个分词的词特征向量具有预设数目的向量维度。可选地,所述获取文章数据库中包括的每篇文章的文章特征向量的步骤包括:根据所获取的统计时段内所有用户的历史点击文章行为记录,获取每个用户的文章点击序列;其中,每个用户的所述历史点击文章行为记录包括所述用户在所述统计时段内每次点击文章的文章标识以及点击时间;每个用户的文章点击序列中包括根据所述用户的点击先后次序进行排序的、在所述统计时段被所述用户点击的所有文章的文章标识;根据所获取的全部所述文章点击序列,获取所述文章数据库中每篇文章的文章特征向量。可选地,所述文章搜索模型提供模型系数集合,所述模型系数集合包括第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数;所述获取每篇文章的搜索预测值的步骤包括:根据所述词特征向量以及该篇文章的文章特征向量,构建基础预测矩阵;对根据所述模型系数集合中包括的所述第一系数矩阵、第三系数矩阵以及所述基础预测矩阵得到的中间矩阵通过线性整流函数进行处理,得到第一预测矩阵;对根据所述模型系数集合中包括的所述第二系数矩阵、常数系数以及所述第一预测矩阵得到的中间变量进行变量映射处理,得到该篇文章的所述搜索预测值。可选地,所述搜索条件是,所述文章的搜索预测值的降序排序次序在预设的排序范围内。可选地,所述方法还包括训练所述文章搜索模型的步骤,包括:在训练统计时段内收集多个训练样本;其中,每个所述训练样本包括针对一个搜索词搜索得到的一篇文章提供给用户后被用户点击的实际点击值、所述搜索词的词特征向量以及所述文章的文章特征向量;对每个训练样本,根据所述训练样本中的所述词特征向量以及所述文章特征向量,以模型系数集合作为变量,确定对应的训练样本的搜索预测值表达式;其中,所述模型系数集合中包括第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数;根据所述多个训练样本以及对应的所述搜索预测值表达式,构建损失函数;求解所述损失函数,确定所述模型系数集合中包括的第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数的取值,完成本次对所述文章搜索模型的训练。可选地,所述构建损失函数的步骤包括:对每个训练样本,根据所述训练样本的所述实际点击值以及所述搜索预测值表达式,确定对应的损失表达式;将每个所述训练样本的损失表达式求和,得到所述损失函数。可选地,所述求解所述损失函数的步骤包括:设置所述模型系数集合中包括的第一系数矩阵、第二系数矩阵、第三系数矩阵等三个矩阵的矩阵元素初始值以及常数系数的初始值为预设数值范围内的随机数;将设置初始值后的所述模型系数集合代入所述损失函数中,进行迭代处理;当所述迭代处理得到的所述模型系数集合符合收敛条件时,终止所述迭代处理,确定所述模型系数集合中包括的所述第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数的取值,否则,继续所述迭代处理。可选地,所述收敛条件是,所述迭代处理的次数不小于预设的次数阈值;和/或,所述收敛条件是,所述迭代处理得到的所述模型系数集合的迭代结果值小于结果阈值;其中,所述迭代结果值是根据所述迭代处理得到的所述模型系数集合代入的损失函数与对应的模型系数集合求偏导的结果确定。根据本专利技术的第二方面,提供一种文章搜索装置,其中,包括:词特征获取单元,用于获取用户输入的目标搜索词的词特征向量;文章特征获取单元,用于获取文章数据库中包括的每篇文章的文章特征向量;搜索处理单元,用于根据预先训练的文章搜索模型,对所述词特征向量和所述文章特征向量进行处理,获取所述文章数据库的每篇文章的搜索预测值,以选取所述搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。根据本专利技术的第三方面,提供一种电子设备,其中,包括:存储器,用于存储可执行的指令;处理器,用于根据所述可执行的指令的控制,运行所述电子设备执行本专利技术第一方面提供的文章搜索方法。根据本公开的一个实施例,通过获取搜索词的词特征向量以及文章数据库中可被搜索文章的文章特征向量,针对每篇文章根据训练得到的文章搜索模型,对体现搜索词的实际内容特征的词特征向量以及体现用户对可被搜索文章的行为特性的文章特征向量进行处理,得到综合表征用户的行为特性以及与搜索词的实际内容的相关性的搜索预测值,将搜索预测值符合搜索条件的文章作为搜索结果提供给用户,实现在用户搜索文章时,向用户提供符合用户的行为特性并且与搜索词的实际内容相关性较高的文章,更精准地满足用户的搜索需求。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。图1是显示可用于实现本专利技术的实施例的电子设备的硬件配置的例子的框图。图2示出了本发本文档来自技高网...

【技术保护点】
1.一种文章搜索方法,其中,包括:/n获取用户输入的目标搜索词的词特征向量;/n获取文章数据库中包括的每篇文章的文章特征向量;/n根据预先训练的文章搜索模型,对所述词特征向量和所述文章特征向量进行处理,获取所述文章数据库的每篇文章的搜索预测值,以选取所述搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。/n

【技术特征摘要】
1.一种文章搜索方法,其中,包括:
获取用户输入的目标搜索词的词特征向量;
获取文章数据库中包括的每篇文章的文章特征向量;
根据预先训练的文章搜索模型,对所述词特征向量和所述文章特征向量进行处理,获取所述文章数据库的每篇文章的搜索预测值,以选取所述搜索预测值符合搜索条件的目标文章作为搜索结果提供给用户。


2.根据权利要求1所述的方法,其中,所述获取用户输入的目标搜索词的词特征向量的步骤包括:
获取所述目标搜索词的搜索分词集合;
从已获取的分词特征向量集合中,获取所述搜索分词集合中包括每个搜索分词的词特征向量;
将所述搜索分词集合中包括所有搜索分词的词特征向量得到的平均向量,作为所述目标搜索词的词特征向量。


3.根据权利要求2所述的方法,其中,还包括获取搜索分词特征向量集合的步骤,包括:
对文章数据库中每篇文章进行分词处理,得到该篇文章的文章分词序列;
其中,所述文章分词序列中包括根据在对应的文章中出现次序进行排序的、所述文章的所有分词;
根据所获取的全部所述文章分词序列,获取所述文章数据库中每篇文章的每个所述分词的词特征向量,以构成所述分词特征向量集合;
其中,所述每个分词的词特征向量具有预设数目的向量维度。


4.根据权利要求1所述的方法,其中,所述获取文章数据库中包括的每篇文章的文章特征向量的步骤包括:
根据所获取的统计时段内所有用户的历史点击文章行为记录,获取每个用户的文章点击序列;
其中,每个用户的所述历史点击文章行为记录包括所述用户在所述统计时段内每次点击文章的文章标识以及点击时间;每个用户的文章点击序列中包括根据所述用户的点击先后次序进行排序的、在所述统计时段被所述用户点击的所有文章的文章标识;
根据所获取的全部所述文章点击序列,获取所述文章数据库中每篇文章的文章特征向量。


5.根据权利要求1所述的方法,其中,
所述文章搜索模型提供模型系数集合,所述模型系数集合包括第一系数矩阵、第二系数矩阵、第三系数矩阵以及常数系数;
所述获取每篇文章的搜索预测值的步骤包括:
根据所述词特征向量以及该篇文章的文章特征向量,构建基础预测矩阵;
对根据所述模型系数集合中包括的所述第一系数矩阵、第三系数矩阵以及所述基础预测矩阵得到的中间矩阵通过线性整流函数进行处理,得到第一预测矩阵;
对根据所述模型系数集合中包括的所述第二系数矩阵、常数系数以及所述第一预测矩阵得到的中间变量进行变量映射处理,得到该篇文章的所述搜索预测值。


6.根据权利要求1所述的方法,其中,
所述搜索条件是,所述文章的搜索预测值的降序排序次序在预设的排序范围内。


7.根据权利要求1所述...

【专利技术属性】
技术研发人员:潘岸腾
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1