基于用户行为数据提高自动补全准确率的方法以及装置制造方法及图纸

技术编号:38329678 阅读:17 留言:0更新日期:2023-07-29 09:12
本发明专利技术属于搜索引擎技术领域,特别涉及一种基于用户行为数据提高自动补全准确率的方法以及装置,该方法包括首先通过数据埋点采集用户的历史行为数据;然后将用户行为数据和搜索内容数据分别构建基于FST树的自动补全词库;最后基于协同过滤算法,找到相似用户,在用户自动补全词库中查询出相似用户自动补全词库;根据关键词前缀在用户自身自动补全词库、相似用户自动补全词库以及搜索内容自动补全词库中匹配查询自动补全词,并按照权重进行排序,权重最高的自动补全词与用户搜索意图最相关。本发明专利技术可以充分考虑用户的搜索意图,提供更加准确的查询建议,从而提高自动补全的准确率和用户体验。率和用户体验。率和用户体验。

【技术实现步骤摘要】
基于用户行为数据提高自动补全准确率的方法以及装置


[0001]本专利技术属于搜索引擎
,特别涉及一种基于用户行为数据提高自动补全准确率的方法以及装置。

技术介绍

[0002]搜索引擎是一种能够在互联网上搜索并返回相关信息的工具,它背后的技术涉及到多个领域,包括自然语言处理、机器学习、信息检索等。搜索引擎的核心技术是信息检索。当用户输入关键词时,搜索引擎会在其索引中查找相关的网页,并将这些网页按照相关性排序后返回给用户,这个过程包括多个步骤,如爬取网页、建立索引、查询处理等。在搜索引擎的背后,还有很多其他的技术支持。例如,搜索引擎需要理解用户输入的语言,这就需要用到自然语言处理技术。总之,搜索引擎是一个综合性的信息检索工具,它不仅需要处理大量的数据,还需要涉及多个
的支持,从而让用户能够快速、方便地获取到他们需要的信息。
[0003]自动补全是一种搜索引擎的功能,可以在用户输入关键词的过程中,通过自动提示的方式向用户提供可能的搜索词语或短语。这个功能可以提高搜索的效率,减少用户的输入量,同时也可以帮助用户更准确地表达他们想要搜索的内容。比如当用户在搜索引擎中输入“旅游”,自动补全功能可能会提示以下相关内容:旅游景点、旅游攻略、旅游团购、旅游线路、旅游指南、旅游费用、国内旅游、海外旅游和自由行旅游。
[0004]自动补全的实现中,涉及到的技术包括自然语言处理、机器学习、数据挖掘等。通过这些技术的支持,搜索引擎可以根据用户的输入内容进行分析,并通过算法的方式提供相关的建议。除了搜索引擎,自动补全的功能还被广泛应用于输入框、表单等场景中。例如,在搜索引擎之外,许多电商网站、社交平台等也都提供了自动补全的功能,以提高用户的输入效率和搜索准确性。
[0005]自动补全通常根据搜索关键词的前缀匹配相关的查询建议,然而,这种方法并不能很好地满足用户的意图。例如,当用户输入“苹果”时,自动补全通常会显示与苹果公司有关的查询建议,但是用户的搜索意图可能是关于苹果水果的信息。这种情况下,现有技术的自动补全准确率会受到很大的影响。 另外,现有技术在涉及多义词、模糊搜索等场景中,也存在准确率不高、查询建议不够精准的问题。这些问题会影响用户的搜索体验,降低搜索引擎的效率和准确性。因此,需要一种更加高效、精准的自动补全技术来解决这些问题。

技术实现思路

[0006]针对现有技术中存在的问题,本专利技术提出一种基于用户行为数据提高自动补全准确率的方法以及装置,可以充分考虑用户的搜索意图,提供更加准确的查询建议,从而提高自动补全的准确率和用户体验。
[0007]为了实现上述目的,本专利技术采用以下的技术方案:本专利技术提供了一种基于用户行为数据提高自动补全准确率的方法,包含以下步
骤:通过数据埋点采集用户的历史行为数据;将用户行为数据和搜索内容数据分别构建基于FST树的自动补全词库;基于协同过滤算法,找到相似用户,在用户自动补全词库中查询出相似用户自动补全词库;根据关键词前缀在用户自身自动补全词库、相似用户自动补全词库以及搜索内容自动补全词库中匹配查询自动补全词,并按照权重进行排序,权重最高的自动补全词与用户搜索意图最相关。
[0008]根据本专利技术基于用户行为数据提高自动补全准确率的方法,优选地,通过数据埋点采集用户的历史行为数据,具体包括:定义用户行为数据标准,将对自动补全准确率存在影响的行为数据按照统一的数据标准进行规范;通过数据埋点平台,将埋点规则引入到APP、PC以及小程序端进行数据埋点,通过API或者实时通道,将用户在终端设备产生的行为数据进行实时记录;通过持久化存储服务,将用户的历史行为数据进行存储。
[0009]根据本专利技术基于用户行为数据提高自动补全准确率的方法,优选地,所述行为数据包括用户在应用内进行浏览、查询和点击事件产生的埋点数据。
[0010]根据本专利技术基于用户行为数据提高自动补全准确率的方法,优选地,构建基于FST树的自动补全词库,包含以下步骤:通过数据分析工具将数据进行划分,分为用户行为数据和搜索内容数据;通过数据清洗、数据标准化以及数据归一化操作对数据进行预处理;基于深度学习框架提取文本中的关键词,基于tf

idf算法计算关键词权重;将提取的关键词,基于FST树结构进行存储,以此来构成自动补全词库。
[0011]根据本专利技术基于用户行为数据提高自动补全准确率的方法,优选地,针对用户行为数据,根据用户的唯一标识,为用户构建自动补全词库字典表,字典表结构为<userId,FST>。
[0012]根据本专利技术基于用户行为数据提高自动补全准确率的方法,优选地,将用户行为数据构建自动补全词库,表示为自动补全词库A,将搜索内容数据构建自动补全词库,表示为自动补全词库B;所述自动补全词库A的结构为[<userIdA,FST>,<userIdB,FST>,

],其中userIdA,userIdB表示用户A和用户B;所述自动补全词库B仅包含搜索内容FST树[FST]。
[0013]根据本专利技术基于用户行为数据提高自动补全准确率的方法,优选地,基于协同过滤算法,找到相似用户,在用户自动补全词库中查询出相似用户自动补全词库;根据关键词前缀在用户自身自动补全词库、相似用户自动补全词库以及搜索内容自动补全词库中匹配查询自动补全词,包括:接收用户关键词输入,查询出用户的唯一标识;根据用户的唯一标识,在自动补全词库A中查询出对应的FST树,记为用户FST树;基于协同过滤算法,查询出相似用户,在自动补全词库A中查询出相似用户的FST树集合,记为相似用户FST树集合;根据关键词前缀在用户FST树、相似用户FST树集合以及搜索内容FST树中匹配查询出各自的最大权重自动补全词列表;
将上述得到的三个自动补全词列表合并,按照权重进行排序返回给终端。
[0014]本专利技术还提供了一种基于用户行为数据提高自动补全准确率的装置,包括:历史行为数据采集模块,用于通过数据埋点采集用户的历史行为数据;自动补全词库构建模块,用于将用户行为数据和搜索内容数据分别构建基于FST树的自动补全词库;自动补全词筛出模块,用于基于协同过滤算法,找到相似用户,在用户自动补全词库中查询出相似用户自动补全词库;根据关键词前缀在用户自身自动补全词库、相似用户自动补全词库以及搜索内容自动补全词库中匹配查询自动补全词,并按照权重进行排序,权重最高的自动补全词与用户搜索意图最相关。
[0015]与现有技术相比,本专利技术具有以下优点:传统的自动补全排序是基于搜索内容本身的关键词匹配,一般是根据字典排序或者部分权重设置,并未考虑到用户自身行为数据和其他相似用户的行为数据,这样给出的查询建议是静态的,不能准确识别用户真实搜索意图。因此,本专利技术提出了一种基于用户行为数据提高自动补全准确率的方法,该方法首先通过收集用户在应用内的操作行为数据构建自动补全词库,接着用户输入关键词,根据关键词前缀筛选出与之相匹配的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于用户行为数据提高自动补全准确率的方法,其特征在于,包含以下步骤:通过数据埋点采集用户的历史行为数据;将用户行为数据和搜索内容数据分别构建基于FST树的自动补全词库;基于协同过滤算法,找到相似用户,在用户自动补全词库中查询出相似用户自动补全词库;根据关键词前缀在用户自身自动补全词库、相似用户自动补全词库以及搜索内容自动补全词库中匹配查询自动补全词,并按照权重进行排序,权重最高的自动补全词与用户搜索意图最相关。2.根据权利要求1所述的基于用户行为数据提高自动补全准确率的方法,其特征在于,通过数据埋点采集用户的历史行为数据,具体包括:定义用户行为数据标准,将对自动补全准确率存在影响的行为数据按照统一的数据标准进行规范;通过数据埋点平台,将埋点规则引入到APP、PC以及小程序端进行数据埋点,通过API或者实时通道,将用户在终端设备产生的行为数据进行实时记录;通过持久化存储服务,将用户的历史行为数据进行存储。3.根据权利要求2所述的基于用户行为数据提高自动补全准确率的方法,其特征在于,所述行为数据包括用户在应用内进行浏览、查询和点击事件产生的埋点数据。4.根据权利要求1所述的基于用户行为数据提高自动补全准确率的方法,其特征在于,构建基于FST树的自动补全词库,包含以下步骤:通过数据分析工具将数据进行划分,分为用户行为数据和搜索内容数据;通过数据清洗、数据标准化以及数据归一化操作对数据进行预处理;基于深度学习框架提取文本中的关键词,基于tf

idf算法计算关键词权重;将提取的关键词,基于FST树结构进行存储,以此来构成自动补全词库。5.根据权利要求4所述的基于用户行为数据提高自动补全准确率的方法,其特征在于,针对用户行为数据,根据用户的唯一标识,为用户构建自动补全词库字典表,字典表结构为<userId,FST>。6.根据权利要求5所述的基于用...

【专利技术属性】
技术研发人员:曾伟孟旭郝亮牛智鹏
申请(专利权)人:数字郑州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1