【技术实现步骤摘要】
基于自动补全模型的内容补全方法、装置、设备及介质
[0001]本专利技术涉及自然语言处理领域,特别涉及一种基于自动补全模型的内容补全方法
、
装置
、
设备及介质
。
技术介绍
[0002]自然语言技术随着深度学习及神经网络的发展,迎来发展的契机,在搜索引擎应用领域,可以借助自然语言处理技术帮助用户聚焦自身感兴趣的内容,实现检索内容的语义分析
。
搜索内容自动补全是指在使用搜索引擎过程中,用户仅输入个别关键词,算法智能提示出用户查询的完整语句,帮助用户从海量检索库中快速定位检索内容
。
[0003]现有技术中常用的进行自动补全的方法有三种,第一种为字符匹配法,此方法需要人工维护词典库,定时扩增及缩减词典库内容,利用用户查询词与词典库中字符进行匹配,进而锁定推荐列表,但这种方法检索效率过慢,当词库内容日益增多时,提示返回时间往往超出用户预期,降低了用户体验;第二种方法为推荐系统法,此方法通过搜集用户检索行为的数据特征,借助目前较为成熟的推荐算法,对用户的检 ...
【技术保护点】
【技术特征摘要】
1.
一种基于自动补全模型的内容补全方法,其特征在于,包括:获取用户端输入的搜索文本,并基于预设日志生成规则对所述搜索文本进行处理,以生成搜索日志;统计所述搜索日志的日志数量,并基于预设数量阈值判断所述日志数量是否满足预设条件,若是,则为所述搜索日志中的日志文本以及预设检索库中的检索库文本添加起止符号,并对得到的添加后文本进行截取,以基于得到的若干文本片段构建内容补全数据集;对所述内容补全数据集中的所述若干文本片段进行向量化处理,并将得到的若干文本张量输入至预设语言模型,以基于所述若干文本张量计算所述预设语言模型的总体模型损失;基于所述总体模型损失对所述预设语言模型进行更新,利用得到的更新后模型为所述用户端提供自动补全文本,并重新跳转至所述获取用户端输入的搜索文本,并基于预设日志生成规则对所述搜索文本进行处理,以生成搜索日志的步骤,以进行下一轮模型更新
。2.
根据权利要求1所述的基于自动补全模型的内容补全方法,其特征在于,所述获取用户端输入的搜索文本,并基于预设日志生成规则对所述搜索文本进行处理,以生成搜索日志,包括:获取用户端输入的搜索文本,确定所述搜索文本对应的查询时间
、
用户标识;确定所述搜索文本与实际查询文本是否相同,若否,则确定所述实际查询文本在若干推荐文本中的目标排名,并将所述实际查询文本确定为日志文本,以基于所述查询时间
、
所述用户标识
、
所述搜索文本
、
所述日志文本以及所述目标排名生成第一搜索日志;所述若干推荐文本为通过所述预设语言模型生成的与所述搜索文本相关的推荐文本;所述实际查询文本为所述用户端从所述若干推荐文本中确定的搜索文本;若是,则将所述搜索文本确定为所述日志文本,以基于所述查询时间
、
所述用户标识以及所述日志文本生成第二搜索日志
。3.
根据权利要求1所述的基于自动补全模型的内容补全方法,其特征在于,所述统计所述搜索日志的日志数量,并基于预设数量阈值判断所述日志数量是否满足预设条件,若是,则为所述搜索日志中的日志文本以及预设检索库中的检索库文本添加起止符号,并对得到的添加后文本进行截取,以基于得到的若干文本片段构建内容补全数据集,包括:统计本地所有所述搜索日志的日志数量,并判断所述日志数量是否不小于预设数量阈值的若干整数倍;若是,则确定所有所述搜索日志中的所述日志文本以及预设检索库中的检索库文本,并为所述日志文本以及所述检索库文本添加起始符号以及终止符号,以得到添加后文本;分别基于预设截取范围中的每一个文本截取长度对所述添加后文本进行截取处理,以基于得到的若干文本片段构建内容补全数据集
。4.
根据权利要求3所述的基于自动补全模型的内容补全方法,其特征在于,所述统计本地所有所述搜索日志的日志数量,并判断所述日志数量是否不小于预设数量阈值的若干整数倍之后,还包括:若否,则跳转至所述获取用户端输入的搜索文本,并基于预设日志生成规则对所述搜索文本进行处理,以生成搜索日志的步骤,直至本地所有所述搜索日志的日志数量不小于所述预设数量阈值的若干整数倍,以基于所述搜索日志构建所述内容补全数据集
。
5.
根据权利要求1所述的基于自动补全模型的内容补全方法,其特征在于,所述对所述内容补全数据集中的所述若干文本片段进行向量化处理,并将得到的若干文本张量输入至预设语言模型,以基于所述若干文本张量计算所述预设语言模型的总体模型损失,包括:对所述内容补全数据集中的所述若干文本片段进行向量化处理,并基于预设字典索引对应表得到与所述若干文本片段对应的第...
【专利技术属性】
技术研发人员:何彬彬,魏金雷,周庆勇,朱利霞,伊文超,李旭东,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。