一种搜索场景下用户动态特征捕获与标签生成方法及系统技术方案

技术编号:40192272 阅读:28 留言:0更新日期:2024-01-26 23:54
一种搜索场景下用户动态特征捕获与标签生成方法及系统,包括:基于预先设定的标签按照设定比例获取用户的搜索问句构建样本集;基于所述样本集结合预先构建的用户特征相似度判断模型进行计算,得到所述搜索问句的相似度;基于所述搜索问句的相似度结合预先设定的阈值进行判定和流式聚类,得到新的标签;其中,所述用户特征相似度判断模型是以搜索问句的相似度为输出,基于所述样本集结合双塔模式训练得到的;本发明专利技术采用用户特征相似度模型可以有效解决搜索场景下用户搜索内容的复杂性、多样性和模糊性的问题,还解决了用户特征难以捕获的问题;本发明专利技术挺贵流式聚类提取新的标签,可以让标签更详细,减少计算的复杂度。

【技术实现步骤摘要】

本专利技术涉及特征捕获与标签生成领域,具体涉及一种搜索场景下用户动态特征捕获与标签生成方法及系统


技术介绍

1、针对海量数据搜索场景下用户搜索内容的复杂性、多样性、模糊性问题,用户动态特征难以捕获,采用预先定义好一些固定标签方式,固定标签数量受限,无法覆盖用户全部需求,并且标签和用户内容可能不匹配。

2、提取标签的方式有很多,但在实际应用中存在一些问题,比如:预设标签方法:预先定义好一些固定标签,由用户在发表点评时自主选择。不足之处在于固定标签数量受限,无法覆盖用户全部需求,并且标签和用户内容可能不匹配。句法分析方法:对用户发布的点评内容进行解构,提取主题词和描述词组合后作为标签。不足之处在于:在评价量非常大的时候,这种方法会产生大量标签,对计算性能要求高,并且维护不便。多层级标签定义方法:预先定义标签大类,在逐级细分,最后产生具体标签。不足之处在于产生大量维护工作。并且定义的层级灵活性欠佳,而且匹配的标签是关键词加指标词,不能很好地表达用户的言语习惯。如何解决标签的多样性是现在亟需解决的问题。


>技术实现思路...

【技术保护点】

1.一种搜索场景下用户动态特征捕获与标签生成方法,其特征在于,包括:

2.根据权利要求1所述方法,其特征在于,还包括用户特征相似度判断模型的构建过程,所述构建过程包括:

3.根据权利要求2所述方法,其特征在于,所述损失函数的计算式如下所示:

4.根据权利要求1所述方法,其特征在于,所述基于所述搜索问句的相似度结合预先设定的阈值进行判定和流式聚类,得到新的标签,包括:

5.一种搜索场景下用户动态特征捕获与标签生成系统,其特征在于,包括:

6.根据权利要求5所述系统,其特征在于,还包括模型构建模块,所述模型构建模块具体用于:

...

【技术特征摘要】

1.一种搜索场景下用户动态特征捕获与标签生成方法,其特征在于,包括:

2.根据权利要求1所述方法,其特征在于,还包括用户特征相似度判断模型的构建过程,所述构建过程包括:

3.根据权利要求2所述方法,其特征在于,所述损失函数的计算式如下所示:

4.根据权利要求1所述方法,其特征在于,所述基于所述搜索问句的相似度结合预先设定的阈值进行判定和流式聚类,得...

【专利技术属性】
技术研发人员:李博吕宏伟陈振宇李继伟刘普凡刘俊健江丽娜
申请(专利权)人:国家电网有限公司大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1