核心产品词识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29935723 阅读:20 留言:0更新日期:2021-09-04 19:11
本申请公开一种核心产品词识别方法、装置、计算机设备及存储介质,包括:获取待识别核心产品词的商品标题,对该商品标题进行关键词提取,获得符合预设的产品词典所定义的多个关键词构造基准词表;查询用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,计算每个关键词向其他关键词可能单向转移的转移概率的累加值;将转移概率的累加值最大的关键词输出为商品标题的核心产品词。本申请借助转移概率矩阵,以两两关键词之间共现的概率为预测方向的计算依据用于确定核心产品词,能精确地识别出商品标题的唯一核心产品词,特别适合集中对海量商品标题进行核心产品词提取,方便电商平台提供基于产品词的索引服务。方便电商平台提供基于产品词的索引服务。方便电商平台提供基于产品词的索引服务。

【技术实现步骤摘要】
核心产品词识别方法、装置、计算机设备及存储介质


[0001]本专利技术实施例涉及电商
,尤其是一种核心产品词识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前,电商服务平台通过识别自身平台中的商品的标题进行核心产品词提取,以便为用户可通过输入搜索关键词匹配相应的核心产品词进行相应的商品推荐,但当前电商产品的产品词识别一般使用文本分类方法进行提取,或者根据产品词词典利用关键词命中方法进行提取;对于文本分类法提取核心产品词,容易受限于有限集合,且需要大量的训练集,不容易实现,且准确率较低,使平台为用户所匹配的核心产品词并不准确,推荐的商品无法满足用户的需求;对于产品词词典关键词命中法,其问题是在某个商品文本中可能会提取出多个核心产品词,无法识别重点的核心产品词,大量的核心产品词易扰乱用户的购买意向,降低用户的购买欲望,使平台的成交量降低。因此,如何提高核心产品词识别的质量,成为需要本领域技术人员解决的技术问题。

技术实现思路

[0003]本申请的目的在于提供一种核心产品词识别方法、装置、计算机设备及存储介质。
[0004]为实现本申请的目的,采用如下技术方案:
[0005]适应本申请的目的之一而提出的一种核心产品词识别方法,包括如下步骤:
[0006]获取待识别核心产品词的商品标题,对该商品标题进行关键词提取,获得符合预设的产品词典所定义的多个关键词构造基准词表;
[0007]查询用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,计算每个关键词向其他关键词可能单向转移的转移概率的累加值;
[0008]将转移概率的累加值最大的关键词输出为所述商品标题的核心产品词。
[0009]进一步的实施例中,所述转移概率矩阵预先按照如下过程构造:
[0010]对商品标题库中的样本标题进行关键词提取,获得符合预设的产品词典所定义的关键词,利用关键词构造出基准词表;
[0011]构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵,其中任意两个关键词之间的有向边权重为其在各个所述的样本标题中同时出现的次数的累加值;
[0012]根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,其中一个关键词向另一关键词可能单向转移的转移概率为该两个关键词的有向边权重除以其中前一关键词到所有任意关键词的有向边权重的累加值。
[0013]进一步的实施例中,进行关键词提取,获得符合预设的产品词典所定义的关键词的过程包括如下步骤:
[0014]预备产品词典,产品词典按照预设分类标准定义有多个产品词,该产品词用作确定关键词的参照;
[0015]调用预设算法参考所述产品词典对需要提取关键词的标题进行关键词提取,获得该标题相对应的多个关键词;
[0016]对所提取出的多个关键词执行数据清洗操作,使关键词实现标准化;
[0017]对标准化的多个关键词执行取长操作,将已被其中其他关键词包含的关键词清除;
[0018]对执行取长操作后的多个关键词执行归一化操作,将其中含义相同的关键词统一为同一关键词。
[0019]进一步的实施例中,构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵的步骤,包括如下具体步骤:
[0020]构造权重矩阵的组织关系,其行列均按照基准词表中的关键词进行同顺序排列,以确定每个关键词在行与列中的坐标;
[0021]为权重矩阵中每一行所表示的每一个关键词统计其与每一列所表示的每一个关键词在商品标题库的各样本标题同时出现的次数的累加值;
[0022]将权重矩阵的各个坐标位置相对应的累加值作为其所在行所表示的关键词到其所在列所表示的关键词的有向边权重进行存储。
[0023]较佳的实施例中,根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵的步骤,包括如下具体步骤:
[0024]构造转移概率矩阵的组织关系,其行列均按照基准词表中的关键词进行同顺序排列,以确定每个关键词在行与列中的坐标;
[0025]计算转移概率矩阵中的每个坐标位置所表示的由其所在列所表示的关键词向其所在行所表示的关键词可能单向转移所确定的转移概率,该转移概率为该坐标位置所在行、列分别所表示的两个关键词的有向边权重除以所在列所表示的关键词与所有各行的关键词的有向边权重的计算值;
[0026]将所述计算值存储于该转移概率矩阵的相应坐标位置中成为相应的转移概率。
[0027]进一步的实施例中,该核心产品词识别方法包括如下后置步骤:
[0028]将获得核心产品词的商品标题所对应的商品信息添加到已有的商品索引库中,所述商品索引库存储多个商品相对应的商品信息,所述商品信息包含所述核心产品词,所述核心产品词作为该商品索引库的索引项。
[0029]进一步的实施例中,该核心产品词识别方法包括如下后置步骤:
[0030]依据所述核心产品词在已有的商品索引库中检索相同和/或相似商品信息,所述商品索引库存储多个商品相对应的商品信息,所述商品信息包含商品所对应的核心产品词,所述核心产品词作为该商品索引库的索引项;
[0031]将检索获得的商品信息格式化为商品查找结果列表输出。
[0032]较佳的实施例中,该核心产品词识别方法包括如下后置步骤:
[0033]依据所述核心产品词在转移概率矩阵中检索相似关键词;
[0034]在已有的商品索引库中检索出与所述核心产品词及其相似关键词相对应的商品信息,所述商品索引库存储多个商品相对应的商品信息,所述商品信息包含商品所对应的核心产品词及相似关键词,所述核心产品词及相似关键词作为该商品索引库的索引项;
[0035]将检索获得的商品信息格式化为商品查找结果列表输出。
[0036]适应本申请的目的而提出的一种核心产品词识别装置,其包括:
[0037]关键词提取模块,用于获取待识别核心产品词的商品标题,对该商品标题进行关键词提取,获得符合预设的产品词典所定义的多个关键词构造基准词表;
[0038]累加值计算模块,用于查询用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,计算每个关键词向其他关键词可能单向转移的转移概率的累加值;
[0039]产品词输出模块,用于将转移概率的累加值最大的关键词输出为所述商品标题的核心产品词。
[0040]进一步的实施例中,所述累加值计算模块包括:
[0041]基准词构建单元,用于对商品标题库中的样本标题进行关键词提取,获得符合预设的产品词典所定义的关键词,利用关键词构造出基准词表;
[0042]权重矩阵构造单元,用于构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵,其中任意两个关键词之间的有向边权重为其在各个所述的样本标题中同时出现的次数的累加值;
[0043]转移概率矩阵构造单元,用于根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种核心产品词识别方法,其特征在于,包括如下步骤:获取待识别核心产品词的商品标题,对该商品标题进行关键词提取,获得符合预设的产品词典所定义的多个关键词构造基准词表;查询用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,计算每个关键词向其他关键词可能单向转移的转移概率的累加值;将转移概率的累加值最大的关键词输出为所述商品标题的核心产品词。2.根据权利要求1所述的方法,其特征在于,所述转移概率矩阵预先按照如下过程构造:对商品标题库中的样本标题进行关键词提取,获得符合预设的产品词典所定义的关键词,利用关键词构造出基准词表;构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵,其中任意两个关键词之间的有向边权重为其在各个所述的样本标题中同时出现的次数的累加值;根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵,其中一个关键词向另一关键词可能单向转移的转移概率为该两个关键词的有向边权重除以其中前一关键词到所有任意关键词的有向边权重的累加值。3.根据权利要求1或2中任意一项所述的方法,其特征在于,进行关键词提取,获得符合预设的产品词典所定义的关键词的过程包括如下步骤:预备产品词典,产品词典按照预设分类标准定义有多个产品词,该产品词用作确定关键词的参照;调用预设算法参考所述产品词典对需要提取关键词的标题进行关键词提取,获得该标题相对应的多个关键词;对所提取出的多个关键词执行数据清洗操作,使关键词实现标准化;对标准化的多个关键词执行取长操作,将已被其中其他关键词包含的关键词清除;对执行取长操作后的多个关键词执行归一化操作,将其中含义相同的关键词统一为同一关键词。4.根据权利要求2所述的方法,其特征在于,构造用于存储基准词表中两两关键词之间的有向边权重的权重矩阵的步骤,包括如下具体步骤:构造权重矩阵的组织关系,其行列均按照基准词表中的关键词进行同顺序排列,以确定每个关键词在行与列中的坐标;为权重矩阵中每一行所表示的每一个关键词统计其与每一列所表示的每一个关键词在商品标题库的各样本标题同时出现的次数的累加值;将权重矩阵的各个坐标位置相对应的累加值作为其所在行所表示的关键词到其所在列所表示的关键词的有向边权重进行存储。5.根据权利要求2所述的方法,其特征在于,根据该权重矩阵构造用于存储基准词表中两两关键词之间的单向转移概率的转移概率矩阵的步骤,包括如下具体步骤:构造转移概率矩阵的组织关系,其行列均按照基准词表中的关键词进行同顺序排列,以确定每个关键词在行与列中的坐标;计算转移概率矩阵中...

【专利技术属性】
技术研发人员:张铨
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1