一种二手电商平台检索词的同义词挖掘方法和系统技术方案

技术编号:36735992 阅读:12 留言:0更新日期:2023-03-04 10:07
本发明专利技术涉及一种二手电商平台检索词的同义词挖掘方法和系统。所述方法包括:获取同义词挖掘语料,所述同义词挖掘语料包括平台用户在平台上搜索时使用的检索词及相关词;基于所述同义词挖掘语料中的部分语料对预训练模型进行微调;利用微调后的预训练模型得到所述同义词挖掘语料中的检索词及相关词的词向量以得到词向量库;以每一个检索词向量为目标词向量,计算目标词向量与词向量库中所有词向量的距离;获取向量距离最小的预置数量的词向量作为目标词向量的相似词向量;以及根据相似词向量得到对应的词或词组,得到目标检索词的多个同义词。本发明专利技术挖掘到的同义词更好地表达了用户的检索意愿,适应于二手场景,提高了下游的商品召回效率和质量。商品召回效率和质量。商品召回效率和质量。

【技术实现步骤摘要】
一种二手电商平台检索词的同义词挖掘方法和系统


[0001]本专利技术涉及一种互联网应用
,特别地涉及一种二手电商平台检索词的同义词挖掘方法和系统。

技术介绍

[0002]在现有技术中,常用的同义词扩展方法包括人工运营方法。例如,由人工对用户请求中涉及到的检索词进行分析,总结并整理同义词扩充字典。很显然,这种方法需要人工介入,生成的同义词质量依赖于用户请求中的检索词和工作人员的知识储备,因而效率低、覆盖面窄、质量不稳定;并且,随着新词汇的出现,由于人工的原因,不能及时更新、增加同义词。另外一种方法是基于算法和人工相结合的方法。例如,基于word2vec等语义模型对检索词进行分词并生成分词向量,然后对分词向量进行池化操作(pooling)生成词向量,再利用Faiss(Facebook AI Similarity Search,Facebook 2017年发布的一个相似搜索开源库)等工具进行向量检索,在搜索时通过限制相似度阈值,取排序在前的相似向量作为该检索词向量的同义词向量,经过人工抽检、评估确定是否可用。另外,在申请号为201811345950.2、专利技术名称为“一种同义词挖掘方法及装置”的中国专利技术专利文本中公开了一种不需要人工介入的检索词同义词挖掘方法,在其公开的方案中,在训练模型时,采用具有预定时长的时间窗口获取用户历史搜索时使用的检索词作为训练样本,从而在训练模型时提供长尾词的上下文信息能够为长尾词提供较好的、相关性较强的同义词。很显然,虽然所述方案其能提高长尾词的同义词量,但是仍然局限于用户使用的检索词,同义词的覆盖面窄。在二手电商领域,二手商品的非标性强,即使同一类商品,由于各种不同的使用情况,在商品的表达上也具有较大的差异。因而用户搜索时使用的检索词(Query)也个性化明显,差异性大。前述的半人工及不需要人工介入的方案中对检索词进行相似性计算时,仅以检索词之间的相似度确定其同义词,由于没有考虑到二手商品的多样性和差异性,从而使得得到的同义词量小、覆盖面窄,而且不能很好地表征二手商品的检索词。

技术实现思路

[0003]针对现有技术中存在的技术问题,本专利技术提出了一种二手电商平台检索词同义词挖掘方法和系统,对用户检索词进行同义词扩展,使扩展的同义词能够适应二手商品场景,扩大同义词的词量及覆盖面,从而能在发生用户搜索行为时提高商品的召回量及召回质量。
[0004]为了解决上述技术问题,根据本专利技术的一个方面,本专利技术提供了一种二手电商平台检索词同义词挖掘方法,所述方法包括:获取同义词挖掘语料,所述同义词挖掘语料包括多个词条,所述词条为平台用户在平台上搜索时使用的检索词或相关词,所述相关词为检索词与利用其检索时得到的商品标题的组合词;基于所述同义词挖掘语料中的部分语料对预训练模型进行微调;利用微调后的预训练模型得到所述同义词挖掘语料中的词条的词向量以得到词向量库;以每一个检索词向量为目标词向量,计算目标词向量与词向量库中所
有词向量的距离;获取向量距离最小的预置数量的词向量作为目标词向量的相似词向量;以及将所述相似词向量得到对应的词条确定为目标检索词的同义词。
[0005]为了解决上述技术问题,根据本专利技术的另一个方面,本专利技术提供了一种二手电商平台检索词同义词挖掘系统,其中包括语料模块、模型微调模块、词向量生成模块、词向量距离计算模块和同义词确定模块,其中所述语料模块经配置以获取同义词挖掘语料,所述同义词挖掘语料包括多个词条,所述词条为平台用户在平台上搜索时使用的检索词或相关词,所述相关词为检索词与利用其检索时得到的商品标题的组合词;所述模型微调模块经配置以基于所述同义词挖掘语料中的部分语料对预训练模型进行微调;所述词向量生成模块与所述模型微调模块相连接,经配置利用微调后的预训练模型得到所述同义词挖掘语料中的词条的词向量以得到词向量库;所述词向量距离计算模块与所述词向量生成模块相连接,经配置以每一个检索词向量为目标词向量,计算目标词向量与词向量库中所有词向量的距离;所述同义词确定模块与所述词向量距离计算模块相连接,经配置以获取与目标词向量距离最小的预置数量的词向量对应的词条确定为目标检索词的多个同义词。
[0006]本专利技术利用二手电商平台中用户输入的检索词及得到商品作为同义词挖掘语料,不但能够更好地表达用户的检索意愿,而且得到的同义词更加接近于二手场景中商品标题,更加适应二手场景,不仅能够有效地扩大同义词量,而且增加的同义词的覆盖面,因而在下游的商品召回时,在使用检索词的同义词进行召回时,提高了与商品的匹配度和检索效率,优化扩充了检索词长尾词的质量,提高了下游的商品召回效率和质量。
附图说明
[0007]下面,将结合附图对本专利技术的优选实施方式进行进一步详细的说明,其中:
[0008]图1是根据本专利技术的一个实施例提供的二手电商平台检索词的同义词挖掘系统原理框图;
[0009]图2是根据本专利技术的一个实施例提供的语料模块和模型微调模块原理框图;
[0010]图3是根据本专利技术的一个实施例提供的二手电商平台检索词的同义词挖掘方法流程图;
[0011]图4是根据本专利技术的一个实施例提供的训练语料单元原理框图;
[0012]图5是根据本专利技术的一个实施例提供的训练语料的获取流程图;
[0013]图6是根据本专利技术另一个实施例提供的二手电商平台检索词的同义词挖掘系统原理框图;
[0014]图7是根据本专利技术的一个实施例提供的同义词确定模块原理框图;以及
[0015]图8是根据本专利技术的一个实施例提供的二手电商平台检索词的同义词挖掘方法流程图。
具体实施方式
[0016]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]在以下的详细描述中,可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中,相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述,使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解,还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。
[0018]图1是根据本专利技术一个实施例提供的二手电商平台检索词的同义词挖掘系统原理框图,对应地,图3是根据本专利技术一个实施例提供的二手电商平台检索词的同义词挖掘方法流程图。其中所述系统包括语料模块1、模型微调模块2、词向量生成模块3、词向量距离计算模块4和同义词确定模块5。结合图1和图3对二手电商平台检索词的同义词挖掘方法说明如下:
[0019]步骤S1a,获取同义词挖掘语料,所述语料中包括多个词条。其中,所述语料模块1用以获取同义词挖掘语料,例如图2所示,所述语料模块1包括数据获取单元11、数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种二手电商平台检索词的同义词挖掘方法,其中包括:获取同义词挖掘语料,所述同义词挖掘语料包括多个词条,所述词条为平台用户在平台上搜索时使用的检索词或相关词,所述相关词为检索词与利用其检索时得到的商品标题的组合词;基于所述同义词挖掘语料中的部分语料对预训练模型进行微调;利用微调后的预训练模型得到所述同义词挖掘语料中词条的词向量以得到词向量库;以每一个检索词向量为目标词向量,计算目标词向量与词向量库中所有词向量的距离;获取向量距离最小的预置数量的词向量作为目标词向量的相似词向量;以及将所述相似词向量对应的词条确定为目标检索词的同义词。2.根据权利要求1所述的方法,其中在获取同义词挖掘语料时进一步包括:获取平台用户在预置时间段内在平台的搜索数据,所述搜索数据包括检索词和检索到的对应商品标题;对所述搜索数据进行清洗,包括删除标点符号、去除停用词;以及将所述检索词和基于其检索到的每一个商品标题分别组合在一起构成相关词。3.根据权利要求2所述的方法,其中进一步包括获取对预训练模型进行微调的训练语料集的步骤,其包括:从所述同义词挖掘语料分离出部分或全部的语料作为原始训练语料集,其中的检索词及相关词分别作为样本;统计每一样本在所述原始训练语料集中的词频n;按照ln(n+1)计算每一样本的采样权重w;按照每一样本的采样权重w对原始训练语料集中的样本进行采样以得到训练语料集。4.根据权利要求3所述的方法,其中进一步包括:通过对比每一样本的词频与高频阈值以确定高频样本;以及降低高频样本的采样权重。5.根据权利要求1所述的方法,其中所述预训练模型为Bert

Base中文语义模型,对Bert

Base中文语义模型中的MLM模型实行微调任务。6.根据权利要求1所述的方法,进一步包括:分析同义词挖掘语料中每一词条的维度;以及为每一词条标记维度信息;其中,所述维度包括商品类别、品牌和型号中的一种或多种。7.根据权利要求6所述的方法,其中将相似词向量对应的词条确定为目标检索词的第一同义词;其中进一步还包括:分别对比所述目标检索词与多个第一同义词在每一维度的相似度,并计算维度相似度的综合得分;获取维度相似度的综合得分大于阈值或维度相似度的综合得分最高的预置数量的多个第一同义词作为所述目标检索词的同义词。8.一种二手电商平台检索词的同义词挖掘系统,其中包括:语料模块,经配置以获取同义词挖掘语料,所述同义词挖掘语料包括多个词条,所述词
条为平台用户在平台上搜索时使用的检索词或相关词,所述相关词为检索词与利用其检索时得到的商品标题的组合词;模型微调模块,经配置以基于所述同义词挖掘语料中的部分语料对预训练模型进行微调;词向量生成模块,其与所述模型微调模块相连接,经配...

【专利技术属性】
技术研发人员:张浩
申请(专利权)人:北京转转精神科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1