中心词的确认方法、搜索方法、装置和存储介质制造方法及图纸

技术编号:22974734 阅读:22 留言:0更新日期:2019-12-31 23:26
本发明专利技术公开了一种中心词的确认方法、搜索方法、装置和存储介质。其中,中心词的确认方法包括:获取目标语句,目标语句包括多个分词;利用语意机器学习模型组件计算各个分词分别与目标语句的语意相似度;将语意相似度中最大值对应的分词,确认为目标语句的中心词。上述实施例不仅可以提高工作效率,而且可以提高确定的中心词的精度。

Confirmation method, search method, device and storage medium of keywords

【技术实现步骤摘要】
中心词的确认方法、搜索方法、装置和存储介质
本专利技术涉及网络通信
,尤其涉及一种中心词的确认方法、搜索方法、装置和存储介质。
技术介绍
随着网络通信技术的快速发展,零售业已经发生了巨大的变化。很多零售不再满足于线下,还发展到了线上。线上销售也不再限制于国内,还发展到了海外。如在搜索商品的业务场景中,当买家希望购买某标题(title)的商品时,会在购物网站中输入与title对应的搜索词(query)。网站从query中确认并提取出中心词,再利用中心词检索出对应商品。申请人经研究发现:现有的确认中心词的方法是纯规则的方法。纯规则的方法是完全基于人工总结经验规则的方法。例如,网站维护工程师人工观察商品标题(title),之后总结出从title中确认中心词的经验规则。随着电商交易的日益火爆,每日交易数据量达到了千万级别。显然,经验规则无法覆盖平台上亿的商品量以及每天多达上千万的query。在电商大数据的场景下,现有的完全基于人工总结经验规则的方法,不仅耗时费力,而且由于规则覆盖面较窄的问题,准确性也会较差。另外,规则越多越会出现本文档来自技高网...

【技术保护点】
1.一种中心词的确认方法,其特征在于,包括以下步骤:/n获取目标语句,所述目标语句包括多个分词;/n利用语意机器学习模型组件计算各个所述分词分别与所述目标语句的语意相似度;/n将所述语意相似度中最大值对应的所述分词,确认为所述目标语句的中心词。/n

【技术特征摘要】
1.一种中心词的确认方法,其特征在于,包括以下步骤:
获取目标语句,所述目标语句包括多个分词;
利用语意机器学习模型组件计算各个所述分词分别与所述目标语句的语意相似度;
将所述语意相似度中最大值对应的所述分词,确认为所述目标语句的中心词。


2.根据权利要求1所述的方法,其特征在于,所述语意机器学习模型组件是通过如下步骤来训练的:
预先按预设方式,从历史目标语句中提取出训练中心词;
将各个所述训练中心词和所述历史目标语句作为种子数据集;
从所述种子数据集中选取正样本和负样本;
基于所述正样本和所述负样本,训练生成所述语意机器学习模型组件。


3.根据权利要求2所述的方法,其特征在于,预先按预设方式,从所述历史目标语句中提取出训练中心词,包括:
根据预设编写规则,从所述历史目标语句中提取出所述训练中心词;
和/或
从搜索对象的属性描述信息中获取所述训练中心词;
和/或
采用人工标注的方法从所述历史目标语句中提取出所述训练中心词。


4.根据权利要求3所述的方法,其特征在于,根据预设编写规则,从所述历史目标语句中提取出所述训练中心词,包括:
根据连词和/或符号,将所述目标语句切分为多个句块;
根据所述目标语句是否包括指定单词的情况,从多个所述句块中获取所述目标语句的中心句块;
根据预设中心词的词语属性,从所述中心句块中提取出所述训练中心词。


5.根据权利要求2所述的方法,其特征在于,从所述种子数据集中选取正样本和负样本,包括:
从所述种子数据集中选取所述训练中心词,将选取的所述训练中心词确认为所述正样本;
从所述种子数据集中选获取所述目标语句的多个所述分词;
将多个所述分词中除所述训练中心词之外的所述分词确认为所述负样本。


6.根据权利要求2所述的方法,其特征在于,还包括:
将所述中心词作为所述训练中心词加入所述种子数据集,得到更新的种子数据集;
从所述更新的种子数据集中选取更新的正样本和更新的负样本;
基于所述更新的正样本和所述更新的负样本,利用循环迭代的方法持续优化所述语意机器学习模型组件。


7.根据权利要求1所述的方法,其特征在于,利用语意机器学习模型组件计算各个所述分词分别与所述目标语句的语意相似度,包括:
根据所述语意机器学习模型组件得到各个所述分词的词向量;
根据各个所述词向量计算各个所述分词分别与所述目标语句在空间向量上的夹角的余弦值;
根据各个所述余弦值得到各个所述分词分别与所述目标语句的语...

【专利技术属性】
技术研发人员:王涛王宗宇李林琳司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1