搜索引擎分词模型构建方法及其相关设备技术

技术编号:37120516 阅读:18 留言:0更新日期:2023-04-01 05:15
本申请实施例属于人工智能技术领域,应用于搜索引擎分词处理技术领域中,涉及一种搜索引擎分词模型构建方法及其相关设备,包括获取历史搜索用户的搜索数据;采用N

【技术实现步骤摘要】
搜索引擎分词模型构建方法及其相关设备


[0001]本申请涉及人工智能
,尤其涉及一种搜索引擎分词模型构建方法及其相关设备。

技术介绍

[0002]搜索引擎的目标是根据用户的请求,从可以获得的网络资源中检索出对用户最有价值的信息,搜索引擎主要分为语义理解、召回、排序三个大模块,词权重模块作用于语义理解阶段,主要是对用户查询字段中的词语或短语进行分词处理。
[0003]现有技术中,实现搜索引擎分词处理的方式分为静态词权重和动态词权重两种,静态词权重一般使用tf

idf/bm25等方法计算,无法根据上下文变化,效果差,动态词权重主要采用deepCT/deepRT等深度语义模型计算,deepCT直接使用词语的召回权重得到每个词语的目标得分,然后通过模型建模去拟合整个搜索字段中的所有分词的得分分布,增加了建模的复杂度,也会导致错误的累积传播。因此,现有技术中进行搜索召回时还存在搜索结果不够准确的问题。

技术实现思路

[0004]本申请实施例的目的在于提出一种搜索引擎分词模型构建方法及其相关设备,以解决现有技术中进行搜索召回时还存在搜索结果不够准确的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种搜索引擎分词模型构建方法,采用了如下所述的技术方案:
[0006]一种搜索引擎分词模型构建方法,包括下述步骤:
[0007]步骤201,获取历史搜索用户的搜索数据,其中,所述搜索数据包括历史搜索字段和搜索返回日志;
[0008]步骤202,采用N

Gram算法和PMI词语发现机制对所述历史搜索字段中每一搜索字段进行分词预测,获得分词预测结果,根据所有历史搜索字段对应的分词预测结果,构建分词词典;
[0009]步骤203,根据所述分词词典对所述历史搜索字段中每一搜索字段进行分词,获取每一搜索字段分别对应的分词集合;
[0010]步骤204,基于所述搜索返回日志、预设的IDF算法和预设的分类阈值将所述分词集合中分词划分为重要类分词和普通类分词两个类别;
[0011]步骤205,获取所述每一搜索字段分别对应的重要类分词和普通类分词,并构建模型输入三元组,其中,所述模型输入三元组的格式为:[当前搜索字段:当前搜索字段中的重要类分词:当前搜索字段中的普通类分词];
[0012]步骤206,获取所述每一搜索字段分别对应的模型输入三元组作为模型输入值对初始化的搜索引擎分词模型进行训练,获得训练完成的搜索引擎分词模型,完成搜索引擎分词模型的构建。
[0013]进一步的,所述采用N

Gram算法和PMI词语发现机制对所述历史搜索字段中每一搜索字段进行分词预测的步骤,具体包括:
[0014]采用N

Gram算法筛选出所述历史搜索字段中每一搜索字段中的停顿词,并对所述停顿词进行删除处理;
[0015]采用PMI词语发现机制筛选出所述历史搜索字段中每一搜索字段中连续出现的词语,并判断所述连续出现的词语的连续次数是否大于预设次数阈值;
[0016]若所述连续次数大于预设次数阈值,则对所述连续出现的词语进行标注,将所述连续出现的词语作为一个分词字段;
[0017]若所述连续次数不大于预设次数阈值,则将所述连续出现的词语分别作为不同的分词字段。
[0018]进一步的,所述搜索返回日志中包括曝光被点击文档的标识信息和曝光未点击文档的标识信息,在执行所述基于所述搜索返回日志、预设的IDF算法和预设的分类阈值将所述分词集合中分词划分为重要类分词和普通类分词两个类别的步骤之前,所述方法还包括:
[0019]根据所述曝光被点击文档的标识信息和曝光未点击文档的标识信息,获取所述曝光被点击文档和所述曝光未点击文档;
[0020]进一步的,所述基于所述搜索返回日志、预设的IDF算法和预设的分类阈值将所述分词集合中分词划分为重要类分词和普通类分词两个类别的步骤,具体包括:
[0021]采用IDF算法获得所述分词集合中各分词分别在所述曝光被点击文档中的逆文档频率,记为第一逆文档频率;
[0022]采用IDF算法获得所述分词集合中各分词分别在所述曝光未点击文档中的逆文档频率,记为第二逆文档频率;
[0023]根据预设的绝对值算法、所述第一逆文档频率和所述第二逆文档频率,获取各分词在所述曝光被点击文档和所述曝光未点击文档间的频率差值;
[0024]根据所述频率差值和预设的频率差阈值,将所述分词集合划分为重要类分词和普通类分词两个类别。
[0025]进一步的,所述采用IDF算法获得所述分词集合中各分词分别在所述曝光被点击文档中的逆文档频率,记为第一逆文档频率的步骤,具体包括:
[0026]根据预设的IDF算法公式:分别获取所述分词集合中各分词分别在所述曝光被点击文档中的逆文档频率,其中,j表示所述分词集合中各分词的编号,D表示所述曝光被点击文档和所述曝光未点击文档的总文档数,D
1,
表示所述曝光被点击文档的数量。
[0027]进一步的,所述采用IDF算法获得所述分词集合中各分词分别在所述曝光未点击文档中的逆文档频率,记为第二逆文档频率的步骤,具体包括:
[0028]根据预设的IDF算法公式:分别获取所述分词集合中各分词分别在所述曝光未点击文档中的逆文档频率,其中,j表示所述分词集合中各分词的编号,D表示所述曝光被点击文档和所述曝光未点击文档的总文档数,D
2,
表示所述曝光未点击文档
的数量。
[0029]进一步的,所述根据预设的绝对值算法、所述第一逆文档频率和所述第二逆文档频率,获取各分词在所述曝光被点击文档和所述曝光未点击文档间的频率差值的步骤,具体包括:
[0030]根据预设的绝对值算法公式:L=|idf
1,

df
2,j
|,获取各分词在所述曝光被点击文档和所述曝光未点击文档间的频率差值,其中,j表示所述分词集合中各分词的编号,idf
1,
表示编号为j的分词的第一逆文档频率,idf
2,
表示编号为j的分词的第二逆文档频率。
[0031]进一步的,所述根据所述频率差值和预设的频率差阈值,将所述分词集合划分为重要类分词和普通类分词两个类别的步骤,具体包括:
[0032]判断所述频率差值是否大于预设的频率差阈值;
[0033]若所述频率差值大于预设的频率差阈值,则获取所述频率差值对应的分词,将所述分词缓存至预构建的重要类分词集合;
[0034]若所述频率差值不大于预设的频率差阈值,则获取所述频率差值对应的分词,将所述分词缓存至预构建的普通类分词集合。
[0035]进一步的,所述获取所述每一搜索字段分别对应的模型输入三元组作为模型输入值对初始化的搜索引擎分词模型进行训练,获得训练完成的搜索引擎分词模型,完成搜索引擎分词模型的构建的步骤,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜索引擎分词模型构建方法,其特征在于,包括下述步骤:步骤201,获取历史搜索用户的搜索数据,其中,所述搜索数据包括历史搜索字段和搜索返回日志;步骤202,采用N

Gram算法和PMI词语发现机制对所述历史搜索字段中每一搜索字段进行分词预测,获得分词预测结果,根据所有历史搜索字段对应的分词预测结果,构建分词词典;步骤203,根据所述分词词典对所述历史搜索字段中每一搜索字段进行分词,获取每一搜索字段分别对应的分词集合;步骤204,基于所述搜索返回日志、预设的IDF算法和预设的分类阈值将所述分词集合中分词划分为重要类分词和普通类分词两个类别;步骤205,获取所述每一搜索字段分别对应的重要类分词和普通类分词,并构建模型输入三元组,其中,所述模型输入三元组的格式为:[当前搜索字段:当前搜索字段中的重要类分词:当前搜索字段中的普通类分词];步骤206,获取所述每一搜索字段分别对应的模型输入三元组作为模型输入值对初始化的搜索引擎分词模型进行训练,获得训练完成的搜索引擎分词模型,完成搜索引擎分词模型的构建。2.根据权利要求1所述的搜索引擎分词模型构建方法,其特征在于,所述采用N

Gram算法和PMI词语发现机制对所述历史搜索字段中每一搜索字段进行分词预测的步骤,具体包括:采用N

Gram算法筛选出所述历史搜索字段中每一搜索字段中的停顿词,并对所述停顿词进行删除处理;采用PMI词语发现机制筛选出所述历史搜索字段中每一搜索字段中连续出现的词语,并判断所述连续出现的词语的连续次数是否大于预设次数阈值;若所述连续次数大于预设次数阈值,则对所述连续出现的词语进行标注,将所述连续出现的词语作为一个分词字段;若所述连续次数不大于预设次数阈值,则将所述连续出现的词语分别作为不同的分词字段。3.根据权利要求1所述的搜索引擎分词模型构建方法,其特征在于,所述搜索返回日志中包括曝光被点击文档的标识信息和曝光未点击文档的标识信息,在执行所述基于所述搜索返回日志、预设的IDF算法和预设的分类阈值将所述分词集合中分词划分为重要类分词和普通类分词两个类别的步骤之前,所述方法还包括:根据所述曝光被点击文档的标识信息和曝光未点击文档的标识信息,获取所述曝光被点击文档和所述曝光未点击文档;所述基于所述搜索返回日志、预设的IDF算法和预设的分类阈值将所述分词集合中分词划分为重要类分词和普通类分词两个类别的步骤,具体包括:采用IDF算法获得所述分词集合中各分词分别在所述曝光被点击文档中的逆文档频率,记为第一逆文档频率;采用IDF算法获得所述分词集合中各分词分别在所述曝光未点击文档中的逆文档频率,记为第二逆文档频率;
根据预设的绝对值算法、所述第一逆文档频率和所述第二逆文档频率,获取各分词在所述曝光被点击文档和所述曝光未点击文档间的频率差值;根据所述频率差值和预设的频率差阈值,将所述分词集合划分为重要类分词和普通类分词两个类别。4.根据权利要求3所述的搜索引擎分词模型构建方法,其特征在于,所述采用IDF算法获得所述分词集合中各分词分别在所述曝光被点击文档中的逆文档频率,记为第一逆文档频率的步骤,具体包括:根据预设的IDF算法公式:分别获取所述分词集合中各分词分别在所述曝光被点击文档中的逆文档频率,其中,j表示所述分词集合中各分词的编号,D表示所述曝光被点击文档和所述曝光未点击文档的总文档数,D
1,
表示所述曝光被点击文档的数量。5.根据权利要求3所述的搜索引擎分词模型构建方法,其特征在于,所述采用IDF算法获得所述分词集合中各分词分别在所述曝光未点击文档中的逆文档频率,记为第二逆文档频率的步骤,具体包括:根据预设的IDF算法公式:分别获取所述分词集合中各分词分别在所述曝光未点击文档中的逆文档频率,其中,j表示所述分词集合中各分词的编号,D表示所述曝光被点击文档和所述曝光未点击文档的总文档数,D
2,
表示所述曝光未点击文档的数量。6.根据权利要求3所述的搜索引擎分词模型构建方法,其特征在于,所述根据预设的绝对值算法、所述第一逆文档频率和所述第二逆文档频率,获取各分词在所述曝光被点击文档和所述曝光未点击文档间的频率差值的步骤,...

【专利技术属性】
技术研发人员:陈夏飞
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1