一种二手电商平台检索词的同义词挖掘方法和系统技术方案

技术编号:36735992 阅读:22 留言:0更新日期:2023-03-04 10:07
本发明专利技术涉及一种二手电商平台检索词的同义词挖掘方法和系统。所述方法包括:获取同义词挖掘语料,所述同义词挖掘语料包括平台用户在平台上搜索时使用的检索词及相关词;基于所述同义词挖掘语料中的部分语料对预训练模型进行微调;利用微调后的预训练模型得到所述同义词挖掘语料中的检索词及相关词的词向量以得到词向量库;以每一个检索词向量为目标词向量,计算目标词向量与词向量库中所有词向量的距离;获取向量距离最小的预置数量的词向量作为目标词向量的相似词向量;以及根据相似词向量得到对应的词或词组,得到目标检索词的多个同义词。本发明专利技术挖掘到的同义词更好地表达了用户的检索意愿,适应于二手场景,提高了下游的商品召回效率和质量。商品召回效率和质量。商品召回效率和质量。

【技术实现步骤摘要】
一种二手电商平台检索词的同义词挖掘方法和系统


[0001]本专利技术涉及一种互联网应用
,特别地涉及一种二手电商平台检索词的同义词挖掘方法和系统。

技术介绍

[0002]在现有技术中,常用的同义词扩展方法包括人工运营方法。例如,由人工对用户请求中涉及到的检索词进行分析,总结并整理同义词扩充字典。很显然,这种方法需要人工介入,生成的同义词质量依赖于用户请求中的检索词和工作人员的知识储备,因而效率低、覆盖面窄、质量不稳定;并且,随着新词汇的出现,由于人工的原因,不能及时更新、增加同义词。另外一种方法是基于算法和人工相结合的方法。例如,基于word2vec等语义模型对检索词进行分词并生成分词向量,然后对分词向量进行池化操作(pooling)生成词向量,再利用Faiss(Facebook AI Similarity Search,Facebook 2017年发布的一个相似搜索开源库)等工具进行向量检索,在搜索时通过限制相似度阈值,取排序在前的相似向量作为该检索词向量的同义词向量,经过人工抽检、评估确定是否可用。另外,在申请号为2018113459本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种二手电商平台检索词的同义词挖掘方法,其中包括:获取同义词挖掘语料,所述同义词挖掘语料包括多个词条,所述词条为平台用户在平台上搜索时使用的检索词或相关词,所述相关词为检索词与利用其检索时得到的商品标题的组合词;基于所述同义词挖掘语料中的部分语料对预训练模型进行微调;利用微调后的预训练模型得到所述同义词挖掘语料中词条的词向量以得到词向量库;以每一个检索词向量为目标词向量,计算目标词向量与词向量库中所有词向量的距离;获取向量距离最小的预置数量的词向量作为目标词向量的相似词向量;以及将所述相似词向量对应的词条确定为目标检索词的同义词。2.根据权利要求1所述的方法,其中在获取同义词挖掘语料时进一步包括:获取平台用户在预置时间段内在平台的搜索数据,所述搜索数据包括检索词和检索到的对应商品标题;对所述搜索数据进行清洗,包括删除标点符号、去除停用词;以及将所述检索词和基于其检索到的每一个商品标题分别组合在一起构成相关词。3.根据权利要求2所述的方法,其中进一步包括获取对预训练模型进行微调的训练语料集的步骤,其包括:从所述同义词挖掘语料分离出部分或全部的语料作为原始训练语料集,其中的检索词及相关词分别作为样本;统计每一样本在所述原始训练语料集中的词频n;按照ln(n+1)计算每一样本的采样权重w;按照每一样本的采样权重w对原始训练语料集中的样本进行采样以得到训练语料集。4.根据权利要求3所述的方法,其中进一步包括:通过对比每一样本的词频与高频阈值以确定高频样本;以及降低高频样本的采样权重。5.根据权利要求1所述的方法,其中所述预训练模型为Bert

Base中文语义模型,对Bert

Base中文语义模型中的MLM模型实行微调任务。6.根据权利要求1所述的方法,进一步包括:分析同义词挖掘语料中每一词条的维度;以及为每一词条标记维度信息;其中,所述维度包括商品类别、品牌和型号中的一种或多种。7.根据权利要求6所述的方法,其中将相似词向量对应的词条确定为目标检索词的第一同义词;其中进一步还包括:分别对比所述目标检索词与多个第一同义词在每一维度的相似度,并计算维度相似度的综合得分;获取维度相似度的综合得分大于阈值或维度相似度的综合得分最高的预置数量的多个第一同义词作为所述目标检索词的同义词。8.一种二手电商平台检索词的同义词挖掘系统,其中包括:语料模块,经配置以获取同义词挖掘语料,所述同义词挖掘语料包括多个词条,所述词
条为平台用户在平台上搜索时使用的检索词或相关词,所述相关词为检索词与利用其检索时得到的商品标题的组合词;模型微调模块,经配置以基于所述同义词挖掘语料中的部分语料对预训练模型进行微调;词向量生成模块,其与所述模型微调模块相连接,经配...

【专利技术属性】
技术研发人员:张浩
申请(专利权)人:北京转转精神科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1