基于文档的关键词推送方法及装置制造方法及图纸

技术编号:15763301 阅读:113 留言:0更新日期:2017-07-06 00:43
本发明专利技术公开了一种基于文档的关键词推送方法及装置,至少能够解决现有技术中由于无法根据文本内容中的语义来挖掘关键词而导致推送的关键词过于粗糙,不够准确的技术问题。该方法包括:每当获取到文档时,将获取到的文档所对应的文档内容输入预设的神经网络模型;获取神经网络模型的输出结果,根据输出结果确定文档的关键词,并对关键词进行推送;获取用户终端针对推送的关键词触发的反馈结果,根据反馈结果对预设的神经网络模型进行增强学习;根据增强学习的学习结果对预设的神经网络模型进行调整。

Keyword pushing method and device based on document

The invention discloses a method and device to push the document based on keywords, at least in the prior art can be solved according to the semantic content of the text keywords to the mining caused push too rough, technical problems is not accurate enough. The method includes: when access to a document, the neural network model of document content input preset corresponding access to the document; the output results obtained by neural network model, according to the document keywords output, and the keywords push; feedback results to obtain keywords push trigger user terminal, for reinforcement learning model of neural network according to the preset feedback results; according to the results of the study of reinforcement learning neural network model preset adjustment.

【技术实现步骤摘要】
基于文档的关键词推送方法及装置
本专利技术涉及通信
,具体涉及一种基于文档的关键词推送方法及装置。
技术介绍
随着互联网的飞速发展,越来越多的用户习惯于通过网络获取各类信息。其中,在用户获取文档信息时,为了方便用户的搜索和了解,会针对该文档信息推送对应的关键词,以方便用户根据关键词快速了解文档内容,从而为用户的阅读、搜索提供便利。在现有的关键词推送方式中,通常采用如下方式实现:首先,对文档中的内容进行分词处理;然后,从分词处理的结果中提取出现频率较高、或重要程度较高的词汇作为关键词进行推送。但是,专利技术人在实现本专利技术的过程中发现现有技术中的上述方案至少存在下述缺陷:通过简单的分词提取的方式只能将文档中明确出现的词汇确定为关键词,因此,无法从语义层面进行分析,从而无法对文档的内容进行准确地总结和概括,进而导致的推送的关键词无法准确地反映文档的核心内容。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于文档的关键词推送方法及装置。根据本专利技术的一个方面,提供了一种基于文档的关键词推送方法,包括:每当获取到文档时,将获取到的文档所对应的文档内容输入预设的神经网络模型;获取所述神经网络模型的输出结果,根据所述输出结果确定所述文档的关键词,并对所述关键词进行推送;获取用户终端针对推送的所述关键词触发的反馈结果,根据所述反馈结果对所述预设的神经网络模型进行增强学习;根据所述增强学习的学习结果对所述预设的神经网络模型进行调整。可选地,所述将获取到的文档所对应的文档内容输入预设的神经网络模型的步骤之前,进一步包括:对所述获取到的文档进行预处理,将预处理结果作为所述文档对应的文档内容;其中,所述预处理包括以下中的至少一个:分词处理、以及词向量转换处理。可选地,所述根据所述输出结果确定所述文档的关键词的步骤具体包括:根据预设的筛选策略对所述输出结果进行筛选,将筛选结果确定为所述文档的关键词;其中,所述筛选策略包括以下中的至少一个:根据词性进行筛选的策略;以及,根据词频进行筛选的策略。可选地,所述对所述关键词进行推送的步骤之后进一步包括:当监测到用户终端针对所述关键词触发的点击事件时,将所述点击事件记录到用户日志文件中;则所述获取用户终端针对推送的所述关键词触发的反馈结果的步骤具体包括:查询所述用户日志文件中是否包含与所述关键词对应的点击事件;当查询结果为否时,确定所述用户终端针对推送的所述关键词触发的反馈结果为第一类反馈结果;其中,所述第一类反馈结果对应的关键词用于作为负样本提供给所述神经网络模型进行增强学习;当查询结果为是时,确定所述用户终端针对推送的所述关键词触发的反馈结果为第二类反馈结果;其中,所述第二类反馈结果对应的关键词用于作为正样本提供给所述神经网络模型进行增强学习。可选地,当查询结果为是时,进一步包括:确定所述用户日志文件中包含的与所述关键词对应的点击事件的次数,根据次数确定第二类反馈结果对应的结果分值;其中,所述结果分值用于确定对应的负样本的样本权重。可选地,所述获取用户终端针对推送的所述关键词触发的反馈结果的步骤具体包括:每隔预设的时间间隔获取一次用户终端针对推送的所述关键词触发的反馈结果;和/或,每当所述用户日志文件中录入点击事件时触发与所述点击事件对应的通知消息,通过订阅所述通知消息获取用户终端针对推送的所述关键词触发的反馈结果。可选地,所述神经网络模型包括以下中的至少一个:卷积神经网络、以及循环神经网络;其中,所述卷积神经网络包括:至少一个卷积核,用于对所述文档内容进行特征提取;所述循环神经网络包括:长短期记忆网络,其中,所述长短期记忆网络中的当前时间点的输入数据为上一个时间点的输出数据。可选地,所述增强学习的算法包括反向传播算法。可选地,所述方法执行之前,进一步包括步骤:从预设的分布式消息队列中获取文档。根据本专利技术的另一个方面,提供了一种基于文档的关键词推送装置,包括:输入模块,适于每当获取到文档时,将获取到的文档所对应的文档内容输入预设的神经网络模型;第一获取模块,适于获取所述神经网络模型的输出结果;确定模块,适于根据所述输出结果确定所述文档的关键词,并对所述关键词进行推送;第二获取模块,适于获取用户终端针对推送的所述关键词触发的反馈结果;增强学习模块,适于根据所述反馈结果对所述预设的神经网络模型进行增强学习;调整模块,适于根据所述增强学习的学习结果对所述预设的神经网络模型进行调整。可选地,所述装置进一步包括:预处理模块,适于对所述获取到的文档进行预处理,将预处理结果作为所述文档对应的文档内容;其中,所述预处理包括以下中的至少一个:分词处理、以及词向量转换处理。可选地,所述确定模块具体用于:根据预设的筛选策略对所述输出结果进行筛选,将筛选结果确定为所述文档的关键词;其中,所述筛选策略包括以下中的至少一个:根据词性进行筛选的策略;以及,根据词频进行筛选的策略。可选地,所述装置进一步包括:监测模块,适于当监测到用户终端针对所述关键词触发的点击事件时,将所述点击事件记录到用户日志文件中;则所述第二获取模块具体包括:查询单元,适于查询所述用户日志文件中是否包含与所述关键词对应的点击事件;第一确定单元,适于当查询结果为否时,确定所述用户终端针对推送的所述关键词触发的反馈结果为第一类反馈结果;其中,所述第一类反馈结果对应的关键词用于作为负样本提供给所述神经网络模型进行增强学习;第二确定单元,适于当查询结果为是时,确定所述用户终端针对推送的所述关键词触发的反馈结果为第二类反馈结果;其中,所述第二类反馈结果对应的关键词用于作为正样本提供给所述神经网络模型进行增强学习。可选地,所述第二确定单元进一步用于:确定所述用户日志文件中包含的与所述关键词对应的点击事件的次数,根据次数确定第二类反馈结果对应的结果分值;其中,所述结果分值用于确定对应的负样本的样本权重。可选地,所述第二获取模块进一步用于:每隔预设的时间间隔获取一次用户终端针对推送的所述关键词触发的反馈结果;和/或,每当所述用户日志文件中录入点击事件时触发与所述点击事件对应的通知消息,通过订阅所述通知消息获取用户终端针对推送的所述关键词触发的反馈结果。可选地,所述神经网络模型包括以下中的至少一个:卷积神经网络、以及循环神经网络;其中,所述卷积神经网络包括:至少一个卷积核,用于对所述文档内容进行特征提取;所述循环神经网络包括:长短期记忆网络,其中,所述长短期记忆网络中的当前时间点的输入数据为上一个时间点的输出数据。可选地,所述增强学习的算法包括反向传播算法。可选地,所述装置进一步包括:第三获取模块,适于从预设的分布式消息队列中获取文档。在本专利技术提供的一种基于文档的关键词推送方法及装置中,一方面,通过将获取到的文档所对应的文档内容输入预设的神经网络模型,并根据神经网络模型的输出结果确定并推送文档的关键词,能够利用神经网络模型的机器学习功能实现对文本语义关系的挖掘和概括,从而提取出更加准确的关键词。另一方面,通过获取用户终端针对推送的关键词触发的反馈结果,并根据反馈结果对预设的神经网络模型进行调整,能够根据用户反馈对神经网络模型进行更新,从而使神经网络模型不断优化,进而在后续过程中进一步提升关键词推送的准确性。本文档来自技高网...
基于文档的关键词推送方法及装置

【技术保护点】
一种基于文档的关键词推送方法,包括:每当获取到文档时,将获取到的文档所对应的文档内容输入预设的神经网络模型;获取所述神经网络模型的输出结果,根据所述输出结果确定所述文档的关键词,并对所述关键词进行推送;获取用户终端针对推送的所述关键词触发的反馈结果,根据所述反馈结果对所述预设的神经网络模型进行增强学习;根据所述增强学习的学习结果对所述预设的神经网络模型进行调整。

【技术特征摘要】
2017.02.14 CN 20171007941181.一种基于文档的关键词推送方法,包括:每当获取到文档时,将获取到的文档所对应的文档内容输入预设的神经网络模型;获取所述神经网络模型的输出结果,根据所述输出结果确定所述文档的关键词,并对所述关键词进行推送;获取用户终端针对推送的所述关键词触发的反馈结果,根据所述反馈结果对所述预设的神经网络模型进行增强学习;根据所述增强学习的学习结果对所述预设的神经网络模型进行调整。2.根据权利要求1所述的方法,其中,所述将获取到的文档所对应的文档内容输入预设的神经网络模型的步骤之前,进一步包括:对所述获取到的文档进行预处理,将预处理结果作为所述文档对应的文档内容;其中,所述预处理包括以下中的至少一个:分词处理、以及词向量转换处理。3.根据权利要求1或2所述的方法,其中,所述根据所述输出结果确定所述文档的关键词的步骤具体包括:根据预设的筛选策略对所述输出结果进行筛选,将筛选结果确定为所述文档的关键词;其中,所述筛选策略包括以下中的至少一个:根据词性进行筛选的策略;以及,根据词频进行筛选的策略。4.根据权利要求1-3任一所述的方法,其中,所述对所述关键词进行推送的步骤之后进一步包括:当监测到用户终端针对所述关键词触发的点击事件时,将所述点击事件记录到用户日志文件中;则所述获取用户终端针对推送的所述关键词触发的反馈结果的步骤具体包括:查询所述用户日志文件中是否包含与所述关键词对应的点击事件;当查询结果为否时,确定所述用户终端针对推送的所述关键词触发的反馈结果为第一类反馈结果;其中,所述第一类反馈结果对应的关键词用于作为负样本提供给所述神经网络模型进行增强学习;当查询结果为是时,确定所述用户终端针对推送的所述关键词触发的反馈结果为第二类反馈结果;其中,所述第二类...

【专利技术属性】
技术研发人员:王立宁陈劲
申请(专利权)人:北京时间股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1